晾衣难题难倒GPT-4人类狂教知识图破解华盛顿大学教授：LLM会有具备常识的一天吗

编辑：小编日期：2024-12-15 21:12 / 人气：

　　在今天的播客节目中，主持人Steve Strogatz邀请来了华盛顿大学计算机科学教授兼系主任Yejin Choi。

　　比如一个非常流行的例子是，我们问ChatGPT：「如果我把五件衣服放在太阳下晒干，需要五个小时才能完全晾干，那么要多长时间才能烘干30件衣服？」

　　令人深思的是，目前GPT-4已经表现出了一些令人印象深刻的「人性意识」。

　　Choi个人认为，现在讨论真正模仿人类能力的机器人并不那么重要。更遑论我们连技术都没有。

　　而在后期训练中，最有代表性的就是RLHF。此时我们将机器的答案呈现给人类评估者。在此基础上，我们再回到神经网络来调整一下权重。

　　它们并没有发言权，决定自己以什么顺序阅读，也不可能说「等一下，我想再读一些东西。这本海明威的书很特别，其中一些美好的东西引起了我的注意，我想读得慢一点」。

　　要知道，人类是生物，都有欲望，有一种深刻的自我认同感，正是这些造就了我们。

　　不过，关于常识有个神秘之处，就是人类可以很轻易就获得它，然而想把它们写下来、教会机器，却是一件很困难的事。

　　它们发现，通过提供这种声明性知识的集合，神经网络可以从中快速学习、概括。

　　原因就在于，很多琐碎的常识，如果没有在互联网上出现，那ChatGPT就不太可能学到。

　　要知道，ChatGPT背后的LLM是一个黑盒模型，其中训练的数据类型是不透明的。

　　早在20世纪60年代，计算机科学家就一直梦想着：受大脑启发的计算机有朝一日能表现出类人智能。

　　而LLM所做的，只是在某种意义上阅读了每个人的协作，然后形成了一种平均观点，或者说一种混合了思想和情感的汤。

　　如果有什么不对劲的地方，即使是婴儿都会做一些实验，来搞清是什么让自己如此困惑，以及自己与之互动物体的物理知识。

　　显然，训练过程中使用了人类编写的具备特定语言风格的示例，ChatGPT所使用的，是类似律师的语言。

　　比如，如果AI爱上了一个人，它可能就会牺牲其他人，来服务唯一的这个人，这显然很可怕。

　　Choi介绍道，目前LLM的能力是惊人的，我们在ChatGPT上抛出的任何话题，它都能给出令人惊喜的回答。

　　没有大声说出来的事，它很可能就不知道，比如它知道苹果可以食用，但不知道苹果不是紫色或蓝色的。

　　在学校里有许多学生和教授，都缺乏某种社交风度，不懂人们该如何互相交流的潜规则。

　　因此，在Choi的实验室里，人们一直在研究，如何以更高效的方式教授AI常识。

　　虽然人类如何学习的过程，我们也未必十分了解，但很显然，我们不是通过预测下一个单词，而是尝试真正理解世界。

　　Choi表示，至少目前，由于缺乏情感和具身，AI无法走得太远，这是一件令人欣慰的事。

　　【新智元导读】在QuantaMagazine的这篇播客中，主持人采访了华盛顿大学计算机教授Yejin Choi。两人谈到十分有趣的话题，比如AI是否必须获得具身和情感，才能发展出像人类一样的常识？

　　比如特朗普扮精神科医生的剧本，在网上找不到，这表明，AI能够在两个数据点之间进行插值。

　　普林斯顿大学的Sanjeev Arora和谷歌DeepMind的研究科学家Anirudh Goyal提出的理论就表明，今天最大的LLM并不是随机鹦鹉。

　　Choi表示，的确如此。在主持人看来，这是一种残酷的学习方式，我们让可怜的机器做一个又一个测试题，每次它做错了，我们就惩罚它。

　　当然，最吸引人的还是这个话题：AI是否有可能以某种方式真正理解世界，以及它们回答的问题？

　　就这些神经网络学习的权重而言，这就意味着：这些机器的学习方式基本上就是基于所谓的「反向传播」。

　　我们学习的方式是如此不同，但令人惊讶的是，LLM却能够绕过人类正常的学习方式，然后仍能说出非常像样的人类语言。

　　我们是不是必须等到有机器人可以在太空中移动，有情感，有身体，有社会互动，AI才能有发展出常识的那一天？

　　此外，它还能进行一定程度的泛化，而且从学习的神经网络中生成文本的方式也存在随机性，导致文本不一定总是逐字反省。

　　因为对于任何给定的前缀文本，后面都可能跟一个不同的单词，没有绝对的「正确」。

　　它的回答是：「作为AI，我不具备人类那样的意识或主观理解力。虽然我可以做出看似理解的回答，但请认识到——这种理解是机械性的，并且是基于统计模式，而非真正的理解。」

　　随着互联网的兴起、大量文本数据集的出现以及计算能力的显著进步，我们显然已经到达了一个重要时刻。

　　我们基本上是利用单个权重的梯度，即部分梯度。因此，你需要对神经网络的每个权重求偏导数。

　　Yejin Choi的研究方向是自然语言处理的统计方法和计算模型。她被评为2022年麦克阿瑟院士，并于2023年被《时代》杂志评为人工智能领域100名最具影响力人物之一。

　　后来这个错误似乎被修复了。然而只要把问题换一换，告诉ChatGPT一件衬衫要三个小时，一条裤子要五个小时，它一样会给错误的答案。

　　不过主持人表示，我们可以在此充分展开想象力，赋予机器人人类没有的感官，比如蝙蝠或电鱼使用的声纳，这样就能造出有超级感官和超级智力的机器人了。

　　如果AI真的发展出自己的情感，甚至具有了幸存者本能，还想称霸全世界，这是好事还是坏事？

　　预训练阶段需要几天呢？Choi回答说，这个答案变化很大，取决于我们输入多少数据，有多少算力，以及想训练多大的神经网络。

　　是不是让AI具备真正的情感和真正的身体，才是让它们获得人类智力的唯一途径，目前我们并不确定。

　　主持人接下来谈到，如今很多人都提出了这一点：AI想要获得常识，有许多非常严重的障碍。

　　Choi概括说，训练LLM的过程，可以归结为构建一个非常大的神经网络，其中有一层又一层的神经元堆积起来，然后按顺序输入互联网数据。

　　随机图在满足某些阈值后会产生意想不到的行为，这可能是一种建模LLMs行为的方法，神经网络已经变得太复杂而无法分析

　　主持人举例说，自己有一回让ChatGPT特朗普扮演精神科医生，写一部《周六夜现场》的短剧，效果惊人。

　　因此学习会有一些礼仪课，对人们进行明确的陈述式指导。它会让人们十分受益。

　　在预训练期间，学习机制基本上就是最大化分配给正确单词序列的概率得分，这也意味着恰好在互联网上出现的单词的确切序列。

　　他说，如果自己打出一个很烂的球，教练就会说「你需要早点把球拍挥出来，你没有准备好」。

　　它给出的东西，不是互联网上内容的精确副本，而是经过综合处理之后的重新措辞，所以听起来会足够新。

　　随着模型变得越来越大，在更多的数据上训练，它们的语言能力提高了，并且以一种暗示理解的方式组合技能，发展出了新的能力。（这些组合不太可能出现在训练数据中）

　　Choi解释说，LLM做的，就是阅读了大量文本，并且学会了预测下一个单词，但规模非常大。

　　它不一定对训练数据进行「逐字反省」，原因是背后技术的特殊性，不一定与记忆有关。

　　之所以这么说，是因为常识是关于世界如何运作的潜规则。这种运作方式，影响了人类使用语言和解释语言的方式，成为决定人类智力的关键。

　　也就是说，它可以模仿人们在网上分享的知识和智慧，然后在某种意义上将它们「读回」给我们。

　　Choi举了个例子：就比如说，我们无法逐字记住刚才的讨论，但我们一定记得刚才谈话的要点。我们的大脑具备的，是立即抽象的能力。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

　　这是不是就像权重一样？就像我们有某种内在的方式，来表达脚在正确的位置、身体转向一边、把球拍挥到位置、眼睛盯着球这些要素有多重要。

　　对于数千亿个参数，我们都需要对它们求偏导数，然后移动权重，这样它就会增加分配给训练数据中特定单词序列的概率得分。

　　在节目开始，Strogatz抛出了一件趣事作为引子——「我问ChatGPT，你真的明白吗？」

　　这种训练方法如此简单，却可以产生如此强大的成果，让LLM在文本中回答各种问题，这对许多人来说，已经非常惊人了。

　　这些问题对成年人是显而易见的，但孩子的成长过程中，需要得到很多这样的常识陈述性描述。

　　对于人类来说，很难对「互联网有多大」有一个具象的理解，因为人类阅读和消化信息的能力还是有限。

北京装修公司知名品牌电话：13988889999

晾衣难题难倒GPT-4人类狂教知识图破解华盛顿大学教授：LLM会有具备常识的一天吗

内容搜索 Related Stories

推荐内容 Recommended

服务范畴 SERVICE

成功案例 CASE

现在致电 13988889999 OR 查看更多联系方式 →

现在致电 13988889999 OR 查看更多联系方式 →