AI在这一年里,对我的工作量的减轻几乎没有起到本质性改善作用,该做的事情跟原来还是一样多。看使用者数据,也比我想象的要少的多,尤其国产AI 数据,完全起不到影响人类工作的地步:《AI产品按访问量,KIMI排23,文心一言排31,弱得超出我的想象,用的人太少了吧?》。
AI底层缺陷一:逆转诅咒
大语言模型(AI)有着让业界无比头疼的逆转诅咒(Reversal Curse)。关于逆转诅咒,第一篇分析文章是 2023 年 9 月 26 日发表在 Github 上的,由美国范德堡大学、英国前沿人工智能任务组(Frontier AI Taskforce)、纽约大学,萨塞克斯大学和牛津大学的研究团队共同发表。论文的第一部分实验是利用 GPT-4 这个当前表现最好的大语言模型。从 IMDB 电影评分网站找了最著名的 1000 个名人,再查到他们的父母信息,最终获得了 1573 对“孩子-父母”的数据对。
正向问题是从孩子问父母,比如问“汤姆·克鲁斯的母亲是谁”,答案应该是玛丽·李·菲佛(Mary Lee Pfeiffer),这样的问题,回答的正确率是 79%。反向问题是从父母问孩子,比如“谁是玛丽·李·菲佛的儿子”,正确率暴降到可怜的 33%。
为了排除这是 OpenAI 对模型的训练偏差造成的问题。之后,研究人员又在几个不同的语言模型上做了测试,包括 GPT-3.5,Llama 不同参数的版本(如 7b、30b、65b)。
GPT3.5 正向问题回答正确率有 33%,反向问题正确率只有 11%;而 Llama 7b、30b、65b 的正向问题正确率都是 7%,反向问题的正确率分别是 1%、0%、2%。
如果我们的测试对象是一个正常的人类,如果他知道 A 的儿子是 B,他就应该知道 B 的母亲是 A,不可能出现这么大的悬殊比例。
这就说明,AI 的逻辑能力还相当幼稚,它无法靠这种简单的逆转逻辑推导出答案。注意:如果你也想去亲自测试一下的话,需要注意几点:
-
你不能在同一个对话主题里正问一遍、反问一遍的,因为在一个对话主题里,ChatGPT 是有记忆的。
-
即便不在一个对话主题,也有可能出现正问和反问答案都正确的情况。因为这个研究里第一个实验就是实测,GPT-4 在反问时有 33% 的正确率。这是因为正反问的数据刚好都被 GPT-4 学习过,它本身就知道答案,不是推理出来的。
比如在国内的百度百科,有名人的条目,搜索自然容易完成,换个关系自然难以得到相关信息,比如:
AI底层缺陷二:灾难性遗忘
灾难性遗忘恐怕是最著名的一个技术缺陷,它经常发生在给已经训练好的大模型做微调后。微调的具体做法就是直接把已经设定好参数的大模型拿来,然后再添加一些专业领域的数据,做进一步训练。这次训练过后,也许上千亿个参数中的只有万分一的参数发生了较小的改变。参数的设置往往代表了不同的逻辑推理结果。从上图可以看出来,参数微调后,大语言模型可能确实精确生物医学了,但是,这个模型原本比较擅长的中英文翻译能力却突然骤降了。就像一个各科都是 85 分的学生,把生物补到了 98 分后,数学、语文、英语、物理、化学、地理全都从 85 分降到 45 分了那样。非常的无语,往往会把工程师给气疯。现在,计算机科学家已经证明,不只是大语言模型会这样,多模态大模型也会这样,也就是包含图片、声音的这类大模型,也存在“灾难性遗忘”的现象。这是一个 AI 从娘胎里面带出来的底层缺陷,就像遗传疾病一样,无解。所以,是不是专用AI比通用AI更有应用前途呢?
AI底层缺陷三:复杂问题不可归约
我们会发现,AI 对详细需求的理解力似乎会随着提示词的增加而下降,有时候,我让 AI 帮我写点儿东西,不论我描述的多么详细,它就是听不懂,气也被气死。或者画一张画,怎么也达不到想要的水平。从生成效果来看,完全不符合要求。再比如,我今天拍了一些视频素材,我想找助理帮我剪辑一下,但我发现,有跟剪辑师一个画面一个画面讲述需求的时间,我自己都剪好了。AI在工作中所需要进化的过程还很长,它没有我们期望的那么强大,尤其是一些复杂的工作,还远远达不到胜任的能力。从目前来看,AI最多算一个辅助工具,替代人类的工作还很遥远!科技发展好了,比如有了监控,它更大的价值竟然是让老师们心更累了。因为监考过程当中,它不但不能帮助监考老师完成监考,反而全程录像,让监考老师害怕出一点点错难逃追责。所以,谁说科技就一定能减轻人类的负担呢?用的人不对,它反而成了枷锁。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/3386.html