字号:TTT

原华为“天才少年”4万字演讲,谈谈天才眼中的AI


点击图片看原样大小图片

(图片来源:unsplash)

近期,一篇4万字的演讲风靡于国内人工智能(AI)学术圈。

原华为“天才少年”、Logenic AI公司联合创始人李博杰博士,日前发表了一篇关于AI Agent思考的文章,题为“AIAgent 应该更有趣还是更有用”。

李博杰在这篇文章中表示,AI 的发展目前有两个方向,一个是有趣的 AI,也就是更像人的 AI;另外一个方向就是更有用的AI,也就是更像工具的 AI。但目前的 AI 技术,要么是只有趣但没用,要么是只有用但是不像人,“不好玩”。

李博杰指出,通用人工智能(AGI)的目标是,兼具慢思考和类人属性的 AI Agent,然而当前 AI Agent和人类梦想之间存在巨大的差距。

李博杰坦言,Video Diffusion是一个更为终极的技术路线。尽管大模型的成本一定会快速降低,但他不建议贸然自己去做基础模型。

“如果没有拳打 OpenAI、脚踢 Anthropic的实力,在效果上比不过最好的闭源模型,成本上也比不上开源模型。”李博杰表示。

点击图片看原样大小图片

据悉,李博杰今年31岁(1992年生),曾任华为2012实验室中央软件研究所计算机网络与协议实验室、分布式与并行软件实验室助理科学家、副首席专家,并且以第一批“天才少年”的身份于2019年加入华为,职级P20(技术专家A级别)。

早在2010年,他进入中国科学技术大学少年班学院学习。在校期间,担任中科大镜像站USTCMirrors的维护者。2014年,李博杰以联合培养博士生的身份,加入中国科学技术大学与微软亚洲研究院(MSRA)的联合项目。

几乎同时,2019年,李博杰获得中国科学技术大学与微软亚洲研究院的合作培养博士生项目中取得计算机科学学位,导师为张霖涛教授和陈恩红教授。

2023年7月,李博杰离开华为后成立了LogenicAI,致力于成为人类的数字化延伸。凭借尖端的AIGC基础设施,Logenic AI能够协作制作和服务多模式角色Agent,“元宇宙”、以及数字双胞胎等角色。

李博杰表示,“我们都相信 AGI 肯定会到来,唯一值得争论的是到达 AGI 的增长曲线是怎样的,是这一波自回归模型随着scaling law,直接高速增长到 AGI;还是这一波自回归模型也会遇到瓶颈,AGI 还需要等待下一波技术革命。10 年前ResNet 掀起 CV 革命的时候,很多人都对 AI 的发展预期过于乐观。这一波 Transformer 会是通向 AGI的坦途吗?”

李博杰强调,AI Agent 的创作者可以盈利。因此,好看的皮囊、有趣的灵魂、有用的 AI、低成本和去中心化,AI Agent将推动整个 AI 领域持续创新和健康发展。

“我们相信,在人类世界的数字延伸中,有趣的灵魂终会相遇。”李博杰称。

以下是李博杰演讲内容全文,共约 4 万字:

点击图片看原样大小图片

非常荣幸来到科大校友会 AI 沙龙分享一些我对 AI Agent 的思考。

我是 1000(2010 级理科实验班)的李博杰,2014-2019年在中科大和微软亚洲研究院读联合培养博士,2019-2023 年是华为首届天才少年,如今我跟一批科大校友一起在做 AI Agent领域的创业。

今天(去年12月)是汤晓鸥教授的头七,因此我特别把今天的 PPT 调成了黑色背景,这也是我第一次用黑色背景的 PPT做报告。我也希望,随着 AI技术的发展,未来每个人都可以有自己的数字分身,实现灵魂在数字世界中的永生,在这个世界里生命不再有限,也就不再有分离的悲伤。

AI:有趣和有用

点击图片看原样大小图片

AI 的发展目前一直有两个方向,一个是有趣的 AI,也就是更像人的 AI;另外一个方向就是更有用的 AI,也就是更像工具的AI。

AI 应该更像人还是更像工具呢?其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 就说,AI应该是一个工具,它不应该是一个生命。而很多科幻电影里的 AI 其实更像人,比如说 Her 里面的 Samantha,还有《流浪地球2》里面的图丫丫,黑镜里面的 Ash,所以我们希望能把这些科幻中的场景带到现实。只有少数科幻电影里面的 AI是工具向的,比如《钢铁侠》里面的贾维斯。

除了有趣和有用这个水平方向的之外,还有另外一个上下的维度,就是快思考和慢思考。这是一个神经科学的概念,出自一本书《思考,快与慢》,它里面就说人的思考可以分为快思考和慢思考。

所谓的快思考就是不需要过脑子的基础视觉、听觉等感知能力和说话等表达能力,像 ChatGPT、stable diffusion这种一问一答、解决特定问题的 AI 可以认为是一种工具向的快思考,你不问它问题的时候,它不会主动去找你。而 CharacterAI、Inflection Pi 和 Talkie(星野)这些 AI Agent产品都是模拟一个人或者动漫游戏角色的对话,但这些对话不涉及复杂任务的解决,也没有长期记忆,因此只能用来闲聊,没法像 Her 里面的Samantha 那样帮忙解决生活和工作中的问题。

而慢思考就是有状态的复杂思考,也就是说如何去规划和解决一个复杂的问题,先做什么、后做什么。比如 MetaGPT写代码是模拟一个软件开发团队的分工合作,AutoGPT是把一个复杂任务拆分成很多个阶段来一步步完成,虽然这些系统在实用中还有很多问题,但已经是一个具备慢思考能力的雏形了。

遗憾的是,现有产品中几乎没有在第一象限,兼具慢思考和类人属性的 AI Agent。斯坦福 AI小镇是个不错的学术界尝试,但斯坦福 AI 小镇里面没有真人的交互,而且 AI Agent一天的作息时间表都是事先排好的,因此并不是很有趣。

有趣的是,科幻电影里面的 AI 其实大部分是在这个第一象限。因此这就是目前 AI Agent 和人类梦想之间的差距。

因此我们在做的事情跟 Sam Altman 说的正好相反,我们希望让 AI更像人,同时又具备慢思考的能力,最终演进成一个数字生命。

点击图片看原样大小图片

今天大家都在讲 AGI 的故事,AGI 就是通用人工智能。什么是 AGI 呢?我觉得它又需要有趣,又需要有用。

有趣的方面,就是它需要能够有自主思考的能力、有自己的个性和感情。而有用的方面,就是 AI 能够解决工作、生活中的问题。现在的AI 要么是只有趣但没用,要么是只有用但是不像人,不好玩。

比如说像 Character AI 之类的角色扮演产品,它不能帮你完成工作或者生活中的问题,但是它可以模拟一个 ElonMusk、Donald Trump 或者原神里面的派蒙。我看过一个分析报告,说 Character AI有上千万的用户,但每个月的营收只有几十万美金,相当于只有几万付费用户。大多数用户跟每个虚拟角色都是聊 10 分钟、20分钟就不知道该说什么了。那为什么它的用户留存不高、付费率也低呢?因为它既没有给人提供情绪价值,又没有给人提供实用价值。

而另一方面就是有用的 AI,比如各种Copilot,他们又都是冷冰冰的,问一句答一句,完全是一个工具。这些工具甚至记不住你之前干过什么,记不住你的喜好和习惯。那么用户自然只会在需要这个工具的时候想起来用它,不需要的时候就会丢到一边。

我认为未来真正有价值的 AI 就像电影《Her》里面的Samantha,她首先是一个操作系统的定位,能够帮主人公去解决很多生活中、工作中的问题,帮他整理邮件等等,而且比传统的操作系统做得又快又好。同时它又有记忆、有感情、有意识,它不像一个电脑,而是像一个人。因此在感情空窗期的主人公Theodore 就逐渐爱上了他的操作系统 Samantha。当然并不是所有人都把 Samantha 作为虚拟伴侣,剧中也说了,只有10% 的用户跟他们的操作系统发展了浪漫关系。这样的 AI Agent 我认为才是真正有价值的。

另外值得说道的一点是,全剧中这个 Samantha 只有语音交互,没有视觉形象,更不是机器人。目前 AI的能力也恰好是语音和文字很成熟,但视频生成就不够成熟,人形机器人也不够成熟。《黑镜》里面的机器人 Ash就是个反例。这部剧里面先是用女主过世男友 Ash的社交网络资料制作了一个语音伴侣,直接把女主给弄哭了,其实做出那个语音伴侣现在的技术已经绰绰有余了。后来女主加钱升级,上传了一堆视频资料,买了一个长得像Ash 的人形机器人,其实现在的技术也做不到,但就算如此,Ash的女友还是觉得不像,因此把他锁在阁楼里面了。这里面就有个恐怖谷效应,如果做得不够逼真,就保持一定的距离。

顺便说一句,《黑镜》里面女主先是文字聊天,然后说了一句 Can you talk to me?然后就接通电话了。试用我们 AIAgent 的一个朋友还真的也这么问我们的 AI Agent,结果我们的 AI Agent 回答,我是一个AI,只能文字交流,不会说话。他还截图发给我,问我说好的语音电话呢,我说打语音电话需要按那个打电话的按钮啊。所以这些经典的 AI剧真的要一个镜头一个镜头的拆解分析,里面有很多产品设计的细节。

点击图片看原样大小图片

巧合的是,我们的第一台 H100训练服务器就是在洛杉矶最老的邮局,后来改造成了一个金库,又改造成了一个数据中心。这个地方在洛杉矶的市中心,距离《Her》的拍摄地Bradbury Building 只有不到 1 英里。

这个数据中心也是洛杉矶的互联网交换局(Internet Exchange),距离 Google 和 Cloudflare入口服务器的延迟都在 1 毫秒以内,其实都在这栋楼里面。从百年前的邮局到今天的互联网交换局,真的是挺有意思的。

有趣的 AI

点击图片看原样大小图片

那么我们首先来看一看如何去构建一个真正有趣的 AI。有趣的 AI我认为就像一个有趣的人,可以分为好看的皮囊和有趣的灵魂这两个方面。

好看的皮囊就是它能够听得懂语音,看得懂文本、图片和视频,有这样一个视频、语音的形象,能够跟人实时交互。

有趣的灵魂就是它需要像人一样能够去独立思考,有长期记忆,有自己的个性。

下面我们就分别从好看的皮囊和有趣的灵魂两个方面来讲。

好看的皮囊:多模态理解能力

点击图片看原样大小图片

说到好看的皮囊,很多人认为只要有一个 3D 的形象能够在这儿摇头晃脑地展示就行了。但是我认为更关键的一部分是 AI能够去看到,并且理解周围的世界,就是他的视觉理解能力是很关键的,不管是机器人还是可穿戴设备,还是手机上的摄像头。

比如说像 Google 的 Gemini演示视频就做得不错,虽然它做了剪辑,但是如果我们真正能做到它这么好的效果,是一定不愁用户的。

我们回顾一下 Gemini演示视频中的几个片段,给一个画鸭子的视频它能描述鸭子是什么,给一个饼干和橘子能对比它们的不同,给一个简笔画小游戏知道该往哪边走,给两团毛线可以画出一个用它能织出的毛绒玩具,给几个行星的图能够对它们正确排序,给一个猫跳上柜子的视频能够描述发生了什么。

虽然效果非常惊艳,其实仔细想想,这些场景都不是很难做出来的,只要会看图说话,也就是给图片生成一个比较好的caption,这些问题大模型就都能回答了。

语音能力也是非常关键的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一个语音聊天 AIAgent,一聊聊了一整天,室友还以为我在跟老婆煲电话粥,就没来打扰我。当他知道我是在跟 AI 聊天的时候,说我怎么能跟 AI聊这么久。我给他看了看我们的聊天记录,他说 AI 确实挺能聊的,他用 ChatGPT 不愿意聊这么久,是因为懒得打字。

点击图片看原样大小图片

我认为,多模态大模型有三条路。第一条是用多模态数据端到端预训练的模型,Google 的 Gemini 就是这么做出来的,最近Berkeley 的 LVM 也是端到端多模态的,我认为这是最有前景的一个方向。当然这条路需要非常多的计算资源。

现在还有一种工程化的方案,是用胶水层去粘接已经训练好的模型,比如目前图片理解做得最好的 GPT-4V,还有学术界开源的MiniGPT-4/v2,LLaVA 等等。胶水层是我的叫法,专业名词叫做 projection layer,比如右上角这个MiniGPT 架构图中,标着 “” 的 6 个框就是 projection layer。

输入的图片、语音、视频分别通过不同的 encoder 去做编码,编码结果经过 projection layer 映射到token,输入给 Transformer 大模型。大模型的输出 token 经过 projectionlayer,分别映射到图片、语音、视频的解码器,这样就可以生成图片、语音、视频了。

在这个胶水层粘接的方案里,可以看到 encoder、decoder 和大模型上面都标着“️”,那就是冻结权重的意思。使用多模态数据训练的时候,只修改 projection layer部分的权重,不修改其他部分的权重,这样训练的成本就能大大降低,只要几百美金就能训练出一个多模态大模型。

第三条路是第二条路推向极致的方案,连 projection layer 都不要了,直接用文本去粘接encoder、decoder和文本大模型,不需要做任何训练。例如语音部分就是先做语音识别,把语音转换成文字输入给大模型,然后再把大模型的输出送给语音合成模型生成音频。不要小看这种听起来很土的方案,在语音领域,目前这种方案还是最靠谱的,现有的多模态大模型在识别和合成人类说话语音方面都不太行。

点击图片看原样大小图片

Google Gemini 的语音对话响应延迟只有 0.5 秒,这是一个真人都很难达到的延迟,真人的延迟一般在 1秒左右。我们现有的语音聊天产品,比如 ChatGPT,语音对话延迟高达 5~10 秒。因此大家才会觉得 Google Gemini的效果非常惊艳。

那么这个效果是不是很难做出来呢?其实我们现在用开源的方案就可以做出来 2秒以内的语音对话响应延迟,而且还包含实时视频理解。




还没有人评论



    还可输入500个字!
    ©2023 wailaike.net,all rights reserved
    0.015456914901733 is seconds