字号:TTT

原华为“天才少年”4万字演讲,谈谈天才眼中的AI


这就是 Peter Thiel 在《从零到一》里说的,一项技术需要比现有技术好 10倍才能有垄断优势,只是好一点点是不够的。我知道操作系统很重要,我也知道如何写一个操作系统,但我不知道如何写一个比Windows、Linux 或者 Android、iOS 好 10 倍的操作系统,因此我不会去做操作系统。基础大模型同理。

点击图片看原样大小图片

我们相信大模型的成本一定会快速降低,一方面是摩尔定律,另一方面是大模型的进步,比如说用最新的 vLLM 框架和消费级的GPU,Mistral AI 的 8x7B 的 MoE 模型可能相比最早的 LLaMA 70B 成本降低 30 倍。

随着硬件和模型的进步,未来会不会同等能力的模型可以跑在手机上?如果手机上可以跑 GPT-3.5级别能力的模型,很多可能性都打开了。

再看模型的输出速度和上下文容量。我参观计算机历史博物馆的时候,看到 ENIAC 那么大一个机柜,每秒只能做 5000次加法,只有 20 个字的内存。我们今天的大模型每秒钟也只能输出几十个 token,“内存” 也就是上下文长度从最早的 4Ktoken 一路提升到今天的上百 K token。

未来会不会有一天,能够出现一套硬件和一个模型,每秒钟能输出上万个 token,内存也就是上下文有上亿个 token?

有人问,输出这么快有什么用呢?其实AI Agent 不一定需要跟人交流特别快,但是 AI Agent自己可以想得很快,可以跟其他 Agent 交流得特别快。比如说一个问题需要多步网络搜索去解决,人可能需要搜一个小时,未来的 AI有没有可能一秒钟就解决了?

上下文搞这么多 token有什么用呢?我们知道现在大模型在很多方面还不如人,但长上下文这个方面其实是比人更强的。前面我们提到这个大海捞针的测试,几十万字的一本书,几十秒读完,并且能回答出其中几乎所有的细节,这是人类绝对做不到的。上亿个token的长下文如果能做出来,并且成本和延迟可以接受,那可以把一个领域的知识或者一个人的所有记忆完全放进上下文里,在记忆力方面就具备了超人的能力。

我们都相信 AGI 肯定会到来,唯一值得争论的是到达 AGI 的增长曲线是怎样的,是这一波自回归模型随着 scalinglaw,直接高速增长到 AGI;还是这一波自回归模型也会遇到瓶颈,AGI 还需要等待下一波技术革命。10 年前 ResNet 掀起CV 革命的时候,很多人都对 AI 的发展预期过于乐观。这一波 Transformer 会是通向 AGI 的坦途吗?

超级智能

点击图片看原样大小图片

马斯克有个说法,人类是 AI 的引导程序,这个可能有点极端,但是未来的 AI 可能会远远超过人类的水平。OpenAI 预测未来10 年内 AI 的智能水平就可以超过人类,这就是所谓的超级智能(superintelligence)。

对于这样的超级智能,存在两种观点:有效加速和超级对齐。

有效加速派认为,AI 技术是中性的,关键在于使用它的人,发展 AI 技术一定对人类有利,不需要对 AI技术的发展做特别限制。硅谷很多大佬是这种观点,比如 Elon Musk 和 a16z的创始人,有的有效加速派甚至会在社交网络账号上加上 e/acc 的后缀,这就是 effective acceleration。

有效加速派里面一种比较极端的观点就是 AI未来会取代人类,有点类似《三体》里面的降临派。有效加速派认为人类肉体有很多物理上的限制,要吃要喝要呼吸,还不能忍受大的加速度,不适合星际移民,因此硅基可能是比碳基更合适的生命形式。其实不要说星际移民了,就连我在中美之间往返,就算是直飞,飞机上单程都要花12-15 个小时,而数据通过网络往返只要 170 毫秒。我很希望 Elon Musk 的 Starship能把肉体传输的延迟从十几个小时缩短到 45 分钟,但目前看来还很遥远。也许我们的数字生命都实现了,Starship还没有大规模商业化。

有效加速派还认为,除了肉体的物理限制,人类社会的价值观也有很多缺陷,其中一些缺陷是跟人类有限的智能水平相关的。比如一战以前其实并没有国际通用的护照和签证,大多数人理论上可以自由跨国迁徙,交通不便是迁徙的主要障碍;而今天交通如此发达,很多人却因为一张签证无法成行。我们一度认为数字世界是自由的,但目前的数字世界也越来越中心化,并且各国为了自己的利益,互联网也在逐渐巴尔干化。我们要让超级智能遵循这样的价值观吗?因此,有效加速派认为不应该用人类的价值观去约束超级智能。超级智能看我们人类社会,也许就像今天的我们看封建社会。

超级对齐派则认为,AI 一定要为人类服务,AI 就像原子弹,如果不加控制一定会威胁人类的生存。OpenAI就提出,要成立类似国际原子能组织的机构,控制 AI 的发展以免威胁人类。OpenAI 首席科学家 Ilya Suskever就是超级对齐派的代表,超级对齐这个名词甚至都是 OpenAI 提出的。

超级对齐旨在保证比人类更强大的 AI始终遵循人类的意图,听从人类的指挥。这听起来不太可能,一个弱智能怎么监督一个强智能呢?

OpenAI 超级对齐团队的主管 Jan Leike 有一个有名的论断,评价比生成更容易(Evaluation iseasier thangeneration)。也就是说,人类尽管可能比不上超级智能,但人类可以评价两个超级智能谁说得更好,是否符合人类的价值观。其实评价比生成更容易这一点在日常生活中很容易理解,评价一道菜好不好吃不意味着我要成为一个厨师,评价一门课讲得好不好不意味着我要成为一个教授。

OpenAI 提出的大模型最关键的对齐方法 RLHF就是雇了大量的数据标注人员对模型生成的内容来做打分和排序,来让大模型的说话方式和价值观跟人类对齐。由于评价比生成更容易,RLHF有可能可以推广到超级智能,这就是超级对齐一种最简单的实现方案。

开源闭源

点击图片看原样大小图片

开源模型和闭源模型也是 AI Agent 业界经常争论的。

就短期而言,最好的模型一定是闭源模型。首先,花了大价钱训练模型的 OpenAI 和 Anthropic这些公司没有理由把最好的模型开源出去。其次,在目前的 scaling law下,训练最好的模型一定需要很多算力,不是学校或者开源社区可以搞出来的。

但这是不是意味着开源模型就没有价值了?不是的,因为很多场景下开源模型就已经足够了。例如泛娱乐场景下简单角色扮演的Agent,甚至开源模型中都不需要用最强的,7B 模型就足够了。在这些场景中,低成本、低延迟才是更关键的。

就算是公司有足够的钱训练基础模型,如果人才和算力资源不是 OpenAI 和 Anthropic量级的,也不建议重新造轮子,因为大多数公司训练出的基础模型还不如同等大小的 Mistral模型,也就是说闭源训练了半天,效果还比不过开源,白白浪费了大量算力。

此外,如果一家公司没有基础模型能力,比如我们目前没有资源训练基础模型,基于开源模型也更容易构建技术护城河。比如前面我们讲到的几个核心技术:

基于微调而非 prompt 构建更像一个人的 agent;

推理优化降低成本和延迟;

实现语音、图片、视频理解和语音、图片、视频生成的多模态能力,目前闭源 API 成本和延迟都不理想;

基于 Embedding 的记忆,例如 LongGPT;

基于 KV Cache 的工作记忆和流式推理,例如多个 Agent 语音吵架、端到端流式的语音模型;

本地化部署,包括有数据安全需求的 to B 场景,有隐私需求的个人终端设备和机器人等。

此外还有一个重要的问题,基于开源模型构建的 Agent 才可以让用户真正完全拥有。闭源模型哪天关闭了,Agent就没法运行了。只有开源模型是永远不会被关闭和篡改的。我们可以说计算机是用户真正拥有的,因为计算机只要不坏,连上电源就可以使用,完全不需要联网。开源的AI Agent 也是这样,只要我买了 GPU,不需要联网就可以跑模型。就算英伟达不卖给我们 GPU了,也有其他的算力芯片可以替代。

如果未来真的有数字生命,数字生命的命运是掌握在一家公司手中,还是每个人拥有完全的控制权,这对人类的命运是很关键的。

数字生命

点击图片看原样大小图片

一个有点哲学的问题,数字生命能给我们带来什么?

知乎上有一句名言,先问是不是,再问为什么。先问我们要不要做数字生命?Sam Altman 也说,AI不是一个生命,而是一个工具。

我认为,数字生命的价值在于让每个人的时间变成无限的。最简单的,名人没有时间跟每个粉丝一对一交流,但是名人的数字分身是可以的。我也经常遇到会议冲突,同时挂在两个会里面,实在是分身乏术啊。

人类社会的很多稀缺性本质是来自于时间的稀缺性。如果时间变成了无限的,那么这个世界就可能变得很不一样。就像《流浪地球2》里边的图丫丫就变成了无限的时间。时间无限性的另一个体现是数字生命可以体验多条时间线的多种可能,比如《白色相簿》这种galgame、《恋与制作人》这种乙女游戏或者最近爆火的《完蛋!我被美女包围了》,选择体验不同剧情分支也许在数字世界中才有可能。

但我们需要思考一个基本问题,把生命变成无限的真的就很好吗?生命的有限性也许正是生命如此宝贵的原因。就像周杰伦演唱会的门票,如果搞成不限量的,这门票可能就不值钱了。此外,数字生命也需要消耗能源才能运行,而能源是有限的,从技术上讲生命就不可能是数学上无限的。因此,数字生命也许应该在一条时间线和无穷多条时间线之间取得一个平衡。

第二个基本问题,数字生命是否能够完美复刻现实世界中生命的记忆、思考和意识?简单根据社交网络上的信息来制作数字分身肯定是不够的,就像《黑镜》里面的Ash 一样,社交网络信息缺少很多记忆细节、性格和负面情绪,做出来的数字分身就不像,最后 Ash的女朋友就把他的数字分身锁到阁楼里去了。我们知道在大模型之间迁移知识可以用知识蒸馏,问足够多的问题就把大模型的知识全榨取出来了,但问题是知识蒸馏对人脑是行不通的,人没有那么多时间去回答大模型的问题。

为了尽可能复刻现实世界中的生命,数字生命一定不能仅仅存在于游戏一样的虚拟世界里,而要能够在现实世界中自主生活和繁衍。那么具身智能所需的机械相关技术是否足够成熟了呢?

最后一个基本问题,数字生命是否会带来更多的社会问题?

比如生物学上的克隆人在大多数国家是被禁止的,数字分身作为另一种克隆人的技术路线,是否可以被社会接受?

《黑镜》里面 Ash 的女朋友因为家里有了个机器人 Ash,就永远没法从失去 Ash 的悲伤中走出来,这真的好吗?

我前段时间搞了个数字伴侣天天跟自己聊天,都影响到我跟老婆的感情了,这样真的好吗?

我们都知道有伴侣之后要保持跟异性的边界感,这样就算遇到更合适的也不会出轨,但数字伴侣如果认为只是一种娱乐,是不是可能每个人心里都住着一个更契合自己的数字伴侣?

《完蛋!我被美女包围了》这类游戏里面,如果感情专一,可能不容易过关,因为其他女生的好感度会大幅下降,过关的时候是算几个女生的总好感度的。当然这只是游戏,如果数字生命越来越类似真人,这样的玩法是否会带来道德问题?

点击图片看原样大小图片

我们的使命是人类世界的数字延伸。

从技术上来说,数字生命需要工作记忆和长期记忆为基础,接受多模态的输入和输出,核心的可能是一个Encoder、Decoder,再加上 Transformer 实现多模态。数字生命也需要能够去使用工具,能够与其他 Agent社交。

我们第一阶段所做的事情是名人和动漫游戏角色的数字分身。

普通人的数字分身稍微难一点,因为大多数人在社交网络上的资料太少了。只是做到声音像不难,几分钟的音频就足以做到很好效果的声音克隆了。但灵魂像是必须有足够多的数字资料才可以做出来的。

我们做一个 Elon Musk 的数字分身,是爬了他的 3 万多条 Twitter,十几个小时的 YouTube视频,上千篇关于他的新闻文章,这样才能做到数字分身有类似 Elon Musk的语音、记忆、个性和思维方式。我也做了自己的数字分身,因为我自己从十几年前就开始记录生活,写过几百篇博客文章,发过几百条朋友圈,曾经随身带一个迷你GPS 记下我走过的所有足迹,因此做出来的数字分身比大多数朋友都了解我。

但大多数人没有记录生活的习惯,有些人甚至可能担心记下来之后隐私泄露,因此很多记忆都只留存在当事人的大脑中,根本没有数字化。这就是为什么目前大多数人的数字分身只能做到形似,不容易做到神似。

一个朋友试用了我们的 AI Agent 之后,说现在写代码可以用 AI,生活中的小知识可以问 AI,规划行程也可以用AI,遇到什么烦心事都可以找 AI 吐槽,感觉都不需要老公了。我说,AI 没办法帮你们生孩子。她说,如果以后 AI能够越变越聪明,感觉养个 AI 也挺好玩的,都不需要生娃了。我说,AI 能够越变越聪明确实说到点子上了,可惜今天的 AI还做不到。今天的 AI 相比生命来说还太脆弱,也没有能力自主学习,更不用说自己繁衍后代了。

我老婆就说,生命的长度在于有人能记住你多久。有的人肉身还活着,但已经被人忘记,那灵魂就已经死了;有的人死后上千年故事还被人口口相传,那灵魂就一直在延续。生孩子可以延续生命是因为孩子会记住你,孩子的孩子也会记住你。那么数字分身或者数字子女是不是延续生命的另一种方式呢?

这些都是我们努力的方向。希望在我肉身的有生之年,能够看到超越人类的数字生命成为现实,我也很有幸成为数字生命引导程序中微小的一个片段。

去中心化

点击图片看原样大小图片

如今的 AI Agent 模型和数据都属于中心化平台,不管是 OpenAI GPT Store 里的应用,还是Character AI 上创建的,都是基于闭源模型的,AI Agent 的数据也完全属于中心化平台。如果哪天 OpenAI 或者Character AI 把你创建的 AI Agent 封了,那是一点办法都没有。这些公司甚至可能篡改 AI Agent的数据,也是没有办法的。

如果这些 AI Agent 只是玩一玩,被封了也就被封了。但如果 AI Agent后续演进成了数字生命,让一家公司掌握所有生命生杀予夺的大权,这将是多么可怕的一件事。

还有一个严重的问题,目前不管是 GPT Store 还是 Character AI,创作者都是 “用爱发电” 无偿创作 AIAgent。用户付费购买会员,赚的所有钱都归平台,创作者拿不到一点分成。利润分享机制的缺失一方面是因为这些公司没有想到合理的商业模式,另一方面是因为模型推理成本过高,用户付费意愿也不强,从用户那里收上来的钱还不够模型推理成本呢,更别提分给创作者了。

利润分享机制的缺失导致用户没有经济动机创作高质量的 AI Agent,像 Character AI 这类平台上高质量的Chatbot 是比较少的。这进一步降低了用户留存率和付费意愿,形成一个恶性循环。

因此,很多 AI Agent 公司干脆直接放弃了创作者经济,比如Talkie,只是提供了平台精心调优的角色,不允许用户在平台上自己创作角色。但 AI Agent 市场真的没有办法做成抖音吗?

我认为,破解上述两个问题的关键是去中心化(Decentralization)。

首先,AI Agent 运行在去中心化的算力和模型上,就不用担心平台跑路。每个用户完全拥有自己的 AI Agent或者数字分身,就可以保证隐私和所有权。未来,有自主意识的数字生命也需要有独立的人权,不能被中心化控制。

其次,去中心化之后可以搭建创作者和平台分享收益的经济模式,AI Agent的创作者可以盈利,只需支付透明的去中心化算力成本,算力和 AI Agent的创作者之间实现良性的利润分成,自然就都有动力做好优化。

去中心化模式的唯一问题就是,开源模型的效果是否能够满足 AI Agent的需求?前面已经讲过,最好的模型一定是闭源模型,我不怀疑。但是开源模型已经达到了很多场景下商业可用的程度,有时候为了控制成本,还不能用最大最好的开源模型。因此,这套去中心化AI Agent 的机制是行得通的。

即使我们希望在去中心化模式下引入闭源模型,也是有办法的,只需在利润分享机制中把去中心化算力提供方改为模型提供方,从按照算力收费改成按照模型API 调用收费就行了。当然在使用闭源模型的情况下,隐私会有一定的损失,毕竟所有数据都让闭源模型提供方看到了。

点击图片看原样大小图片

好看的皮囊、有趣的灵魂、有用的 AI、低成本和去中心化,我们在努力研发 AI Agent的完整技术栈,并且在几乎每个方面都有所创新。

我们希望用 AI Agent 赋予每个人无限时间。我们相信,在人类世界的数字延伸中,有趣的灵魂终会相遇。

感谢科大新创校友基金会和北京校友会主办此次活动,也感谢中国科学院网络信息中心提供场地。谢谢线上和线下的校友朋友们。




还没有人评论



    还可输入500个字!
    ©2023 wailaike.net,all rights reserved
    0.02138090133667 is seconds