晾衣难题难倒GPT-4人类狂教知识图破解华盛顿大学教授:LLM会有具备常识的一天吗

编辑:小编 日期:2024-12-15 21:12 / 人气:

  在今天的播客节目中,主持人Steve Strogatz邀请来了华盛顿大学计算机科学教授兼系主任Yejin Choi。

  比如一个非常流行的例子是,我们问ChatGPT:「如果我把五件衣服放在太阳下晒干,需要五个小时才能完全晾干,那么要多长时间才能烘干30件衣服?」

  令人深思的是,目前GPT-4已经表现出了一些令人印象深刻的「人性意识」。

  Choi个人认为,现在讨论真正模仿人类能力的机器人并不那么重要。更遑论我们连技术都没有。

  而在后期训练中,最有代表性的就是RLHF。此时我们将机器的答案呈现给人类评估者。在此基础上,我们再回到神经网络来调整一下权重。

  它们并没有发言权,决定自己以什么顺序阅读,也不可能说「等一下,我想再读一些东西。这本海明威的书很特别,其中一些美好的东西引起了我的注意,我想读得慢一点」。

  要知道,人类是生物,都有欲望,有一种深刻的自我认同感,正是这些造就了我们。

  不过,关于常识有个神秘之处,就是人类可以很轻易就获得它,然而想把它们写下来、教会机器,却是一件很困难的事。

  它们发现,通过提供这种声明性知识的集合,神经网络可以从中快速学习、概括。

  原因就在于,很多琐碎的常识,如果没有在互联网上出现,那ChatGPT就不太可能学到。

  要知道,ChatGPT背后的LLM是一个黑盒模型,其中训练的数据类型是不透明的。

  早在20世纪60年代,计算机科学家就一直梦想着:受大脑启发的计算机有朝一日能表现出类人智能。

  而LLM所做的,只是在某种意义上阅读了每个人的协作,然后形成了一种平均观点,或者说一种混合了思想和情感的汤。

  如果有什么不对劲的地方,即使是婴儿都会做一些实验,来搞清是什么让自己如此困惑,以及自己与之互动物体的物理知识。

  显然,训练过程中使用了人类编写的具备特定语言风格的示例,ChatGPT所使用的,是类似律师的语言。

  比如,如果AI爱上了一个人,它可能就会牺牲其他人,来服务唯一的这个人,这显然很可怕。

  Choi介绍道,目前LLM的能力是惊人的,我们在ChatGPT上抛出的任何话题,它都能给出令人惊喜的回答。

  没有大声说出来的事,它很可能就不知道,比如它知道苹果可以食用,但不知道苹果不是紫色或蓝色的。

  在学校里有许多学生和教授,都缺乏某种社交风度,不懂人们该如何互相交流的潜规则。

  因此,在Choi的实验室里,人们一直在研究,如何以更高效的方式教授AI常识。

  虽然人类如何学习的过程,我们也未必十分了解,但很显然,我们不是通过预测下一个单词,而是尝试真正理解世界。

  Choi表示,至少目前,由于缺乏情感和具身,AI无法走得太远,这是一件令人欣慰的事。

  【新智元导读】在QuantaMagazine的这篇播客中,主持人采访了华盛顿大学计算机教授Yejin Choi。两人谈到十分有趣的话题,比如AI是否必须获得具身和情感,才能发展出像人类一样的常识?

  比如特朗普扮精神科医生的剧本,在网上找不到,这表明,AI能够在两个数据点之间进行插值。

  普林斯顿大学的Sanjeev Arora和谷歌DeepMind的研究科学家Anirudh Goyal提出的理论就表明,今天最大的LLM并不是随机鹦鹉。

  Choi表示,的确如此。在主持人看来,这是一种残酷的学习方式,我们让可怜的机器做一个又一个测试题,每次它做错了,我们就惩罚它。

  当然,最吸引人的还是这个话题:AI是否有可能以某种方式真正理解世界,以及它们回答的问题?

  就这些神经网络学习的权重而言,这就意味着:这些机器的学习方式基本上就是基于所谓的 「反向传播」。

  我们学习的方式是如此不同,但令人惊讶的是,LLM却能够绕过人类正常的学习方式,然后仍能说出非常像样的人类语言。

  我们是不是必须等到有机器人可以在太空中移动,有情感,有身体,有社会互动,AI才能有发展出常识的那一天?

  此外,它还能进行一定程度的泛化,而且从学习的神经网络中生成文本的方式也存在随机性,导致文本不一定总是逐字反省。

  因为对于任何给定的前缀文本,后面都可能跟一个不同的单词,没有绝对的「正确」。

  它的回答是:「作为AI,我不具备人类那样的意识或主观理解力。虽然我可以做出看似理解的回答,但请认识到——这种理解是机械性的,并且是基于统计模式,而非真正的理解。」

  随着互联网的兴起、大量文本数据集的出现以及计算能力的显著进步,我们显然已经到达了一个重要时刻。

  我们基本上是利用单个权重的梯度,即部分梯度。因此,你需要对神经网络的每个权重求偏导数。

  Yejin Choi的研究方向是自然语言处理的统计方法和计算模型。她被评为2022年麦克阿瑟院士,并于2023年被《时代》杂志评为人工智能领域100名最具影响力人物之一。

  后来这个错误似乎被修复了。然而只要把问题换一换,告诉ChatGPT一件衬衫要三个小时,一条裤子要五个小时,它一样会给错误的答案。

  不过主持人表示,我们可以在此充分展开想象力,赋予机器人人类没有的感官,比如蝙蝠或电鱼使用的声纳,这样就能造出有超级感官和超级智力的机器人了。

  如果AI真的发展出自己的情感,甚至具有了幸存者本能,还想称霸全世界,这是好事还是坏事?

  预训练阶段需要几天呢?Choi回答说,这个答案变化很大,取决于我们输入多少数据,有多少算力,以及想训练多大的神经网络。

  是不是让AI具备真正的情感和真正的身体,才是让它们获得人类智力的唯一途径,目前我们并不确定。

  主持人接下来谈到,如今很多人都提出了这一点:AI想要获得常识,有许多非常严重的障碍。

  Choi概括说,训练LLM的过程,可以归结为构建一个非常大的神经网络,其中有一层又一层的神经元堆积起来,然后按顺序输入互联网数据。

  随机图在满足某些阈值后会产生意想不到的行为,这可能是一种建模LLMs行为的方法,神经网络已经变得太复杂而无法分析

  主持人举例说,自己有一回让ChatGPT特朗普扮演精神科医生,写一部《周六夜现场》的短剧,效果惊人。

  因此学习会有一些礼仪课,对人们进行明确的陈述式指导。它会让人们十分受益。

  在预训练期间,学习机制基本上就是最大化分配给正确单词序列的概率得分,这也意味着恰好在互联网上出现的单词的确切序列。

  他说,如果自己打出一个很烂的球,教练就会说「你需要早点把球拍挥出来,你没有准备好」。

  它给出的东西,不是互联网上内容的精确副本,而是经过综合处理之后的重新措辞,所以听起来会足够新。

  随着模型变得越来越大,在更多的数据上训练,它们的语言能力提高了,并且以一种暗示理解的方式组合技能,发展出了新的能力。(这些组合不太可能出现在训练数据中)

  Choi解释说,LLM做的,就是阅读了大量文本,并且学会了预测下一个单词,但规模非常大。

  它不一定对训练数据进行「逐字反省」,原因是背后技术的特殊性,不一定与记忆有关。

  之所以这么说,是因为常识是关于世界如何运作的潜规则。这种运作方式,影响了人类使用语言和解释语言的方式,成为决定人类智力的关键。

  也就是说,它可以模仿人们在网上分享的知识和智慧,然后在某种意义上将它们「读回」给我们。

  Choi举了个例子:就比如说,我们无法逐字记住刚才的讨论,但我们一定记得刚才谈话的要点。我们的大脑具备的,是立即抽象的能力。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

  这是不是就像权重一样?就像我们有某种内在的方式,来表达脚在正确的位置、身体转向一边、把球拍挥到位置、眼睛盯着球这些要素有多重要。

  对于数千亿个参数,我们都需要对它们求偏导数,然后移动权重,这样它就会增加分配给训练数据中特定单词序列的概率得分。

  在节目开始,Strogatz抛出了一件趣事作为引子——「我问ChatGPT,你真的明白吗?」

  这种训练方法如此简单,却可以产生如此强大的成果,让LLM在文本中回答各种问题,这对许多人来说,已经非常惊人了。

  这些问题对成年人是显而易见的,但孩子的成长过程中,需要得到很多这样的常识陈述性描述。

  对于人类来说,很难对「互联网有多大」有一个具象的理解,因为人类阅读和消化信息的能力还是有限。


现在致电 13988889999 OR 查看更多联系方式 →

Top 回顶部