字号:TTT

原华为“天才少年”4万字演讲,谈谈天才眼中的AI


在结束有趣的 AI 部分之前,我们来思考最后一个问题:如果我们的 AI Agent是一张白纸,比如我们做一个智能语音助手,或者我们有好几个 AI 形象需要匹配最合适的,那么他/她的性格是跟用户越相似越好吗?

市面上测试伴侣匹配度的问卷一般都是一些主观问题,比如 “你们在一起是否经常吵架”,这对设定 AI Agent的人设来说完全没用,因为用户跟 AI 还不认识呢。因此我刚开始做 AI Agent的时候,就想搞一种完全客观的方法,根据社交网络上的公开信息来推测用户的性格和兴趣爱好,然后匹配 AI Agent 的人设。

我把自己比较熟悉的一些女生的社交网络公开 profile交给大模型,结果发现匹配度最高的竟然是我的前女友。用大模型的话来说,我们在很多方面就像做过 alignment一样。但我们最终也没能走到一起。那个这个匹配度测试出了什么问题呢?

首先,社交网络上的公开信息一般包含的都是每个人性格中正面的一面,但不包含其中负面的一面。就像《黑镜》里面女主并不喜欢根据男主社交网络信息做出来的机器人Ash,因为她发现机器人 Ash 在一些负面情绪上跟真实的 Ash 完全不一样。我算是比较喜欢分享生活的人,但我的 blog里面负面情绪也比较少。如果 AI Agent 和用户负面情绪的点正好撞在一起,那就很容易炸。

其次,性格和兴趣各个维度的重要性并不是等价的,有的方面一个不匹配就可能抵消了很多其他方面的匹配。这张图就是 MyersBriggs 的 MBTI性格匹配图,其中蓝色的格子是最匹配的,但是它们都不在对角线上,也就是性格非常相似的都是比较匹配,但不是最匹配。最匹配的是什么呢?S/N(感觉/直觉)和T/F(思考/情感)这两个维度最好是相同的,而另外两个维度,内外向(E/I)和 J/P(判断/感知)最好是互补的。

MBTI 里面最重要的一个维度是 S/N(感觉/直觉),简单来说,S(感觉)型的人更关注当下,而N(直觉)型的人更关注未来。比如一个 S 型的人喜欢享受当下的生活,而像我这样的 N型人天天思考人类的未来。这张性格匹配图里面最不匹配的基本上都是 S/N 相反的。

因此,一个 AI Agent如果要塑造成完美伴侣的形象,不是跟用户的性格和兴趣爱好越相似越好,而是需要在合适的地方形成互补。还要随着交流的深入不断调整 AI的人设,尤其是在负面情绪方面需要跟用户互补。

我当时还做了一个实验,把一些我熟悉的情侣的社交网络公开 profile交给大模型,结果发现平均匹配度并没有想象的那么高。那么为什么每个人没有跟匹配度高的在一起呢?

第一,前面说过了,这个匹配度测试机制有bug,匹配度高的并不一定就适合在一起。第二,每个人的社交圈子其实都很小,一般也没有这么多时间一个一个尝试去匹配筛选。大模型可以几秒钟读完10万字的资料,比量子波动速读还快,人可没这个本事,只能凭直觉大概匹配一下,再在相处中慢慢了解和适应。其实匹配度不高也并不一定不幸福。

大模型为我们提供了新的可能,用真人的社交网络 profile测匹配度,可以帮我们从茫茫人海中筛选潜在伴侣。比如告诉你学校里的学生哪些是最匹配的,这样遇到合适妹子的概率就大大增加了。匹配度源自性格、兴趣、三观、经历的相似度,不是单个人的绝对评分而是一个两两关系,并不会出现大家都喜欢少数几个人这种情况。

AI甚至还可能为我们创造实际中很难遇到的完美伴侣形象。但是沉迷于这样的虚拟伴侣是不是一件好事,不同的人大概有不同的看法。更进一步,如果AI完美伴侣有了自己的意识和思考,还能主动跟世界交互,有了自己的生活,那可能用户的沉浸感就会更强,但那是不是就成了数字生命?数字生命又是一个极具争议性的话题。

人的社交圈子很小,人类在宇宙中也很孤独。费米悖论有一个可能的解释,宇宙中很可能存在大量智能文明,但是每个文明都有一定的社交圈子,就像我们人类至今都没有走出太阳系。在浩瀚的宇宙中,智能文明之间的相遇就像合适的伴侣相遇一样可遇不可求。

大模型怎么促成文明之间的相遇呢?因为信息可能比物质更容易传播到宇宙深处。我在 5 年前就想过,AI模型可能成为人类文明的数字化身,跨越人类肉体的时空限制,把人类真正带到太阳系甚至银河系之外,成为星际文明。

有用的 AI

点击图片看原样大小图片

前面讲了这么多有趣的 AI,下面我们来聊聊有用的 AI。

有用的 AI其实更多是一个大模型基础能力的问题,比如复杂任务的规划和分解、遵循复杂指令、自主使用工具以及减少幻觉等等,并不能通过一个外部的系统简单解决。比如GPT-4 的幻觉就比 GPT-3.5少很多。区分哪些问题是模型基础能力问题,哪些问题是可以通过一套外部系统来解决的,也是很需要智慧的。

其实有一篇很著名的文章叫做The BitterLesson,它讲的是凡是能够用算力的增长解决的问题,最后发现充分利用更大的算力可能就是一个终极的解决方案。

Scaling law 是 OpenAI 最重要的发现,但是很多人对 Scaling law还是缺少足够的信仰和敬畏之心。

AI 是干活快但不太靠谱的初级员工

点击图片看原样大小图片

在当前的技术条件下我们能做一个什么样的 AI 呢?

要搞清楚大模型适合做什么,我们需要先想清楚一点:有用 AI的竞争对手不是机器,而是人。工业革命里面的机器是取代人的体力劳动,计算机是取代人的简单重复脑力劳动,而大模型则是用来取代人更复杂一些的脑力劳动。所有大模型能做的事情,人理论上都能做,只是效率和成本的问题。

因此,要让 AI 有用,就要搞清楚大模型到底哪里比人强,扬长避短,拓展人类能力的边界。

比如,大模型阅读理解长文本的能力是远远比人强的。给它一本几十万字的小说或者文档,它几十秒就能读完,而且能回答出 90%以上的细节问题。这个大海捞针的能力就比人强很多。那么让大模型做资料总结、调研分析之类的任务,那就是在拓展人类能力的边界。Google是最强的上一代互联网公司,它也是利用了计算机信息检索的能力远比人强这个能力。

再如,大模型的知识面是远比人广阔的。现在不可能有任何人的知识面比 GPT-4 还广,因此 ChatGPT 已经证明,通用的chatbot是大模型一个很好的应用。生活中的常见问题和各个领域的简单问题,问大模型比问人更靠谱,这也是在拓展人类能力的边界。很多创意性工作需要多个领域的知识交叉碰撞,这也是大模型适合做的事情,真人因为知识面的局限,很难碰撞出这么多火花来。但有些人非要把大模型局限在一个狭窄的专业领域里,说大模型的能力不如领域专家,因此认为大模型不实用,那就是没有用好大模型。

在严肃的商业场景下,我们更多希望用大模型辅助人,而不是代替人。也就是说人是最终的守门员。比如说大模型阅读理解长文本的能力比人强,但我们也不应该把它做的总结直接拿去作为商业决策,而要让人review 一下,由人做最终的决定。

这里边有两个原因,第一个是准确性问题,如果说我们之前在 ERP系统里面做一个项目,回答这个部门过去十个月平均工资是多少?让它生成一个 SQL 语句去执行,但是它总有 5%以上的概率会生成错,通过多次重复也仍然有一定的错误率,用户不懂 SQL,在大模型把 SQL写错的时候也没法发现,因此用户没办法判断生成的查询结果对不对。哪怕有 1% 的错误率,这个错误率还是不能忍受的,这就很难商用。

另外一个方面,大模型的能力目前只是达到一个入门级的水平,达不到专家级。华为的一个高管给我们开会的时候就有一个很有意思的说法:如果你是领域专家,你会觉得大模型很笨;但是如果你是领域的小白,你就会发现大模型非常聪明。我们相信基础大模型一定会进步到专家级,但是现在我们不能坐等基础大模型的进步。

我们可以把大模型当成一个干活非常快但不太靠谱的初级员工。我们可以让大模型做一些初级的工作,比如写一些基础的 CRUD代码,比人写得还快。但是你让他去设计系统架构,去做研究解决技术前沿问题,那是不靠谱的。我们在公司里也不会让初级员工去做这些事情。有了大模型之后,相当于有了大量又便宜干活又快的初级员工。怎么把这些初级员工用好,是一个管理问题。

我的导师在我刚开始读博的第一次会议上,就让我们学一些管理。当时我还不太理解为啥做研究还要学管理,现在我觉得导师讲得太好了。现在重要的研究项目基本上都是团队作战,就必须要管理了。有了大模型之后,我们的团队中又增加了一些AI 员工,这些 AI 员工还不太靠谱,管理就更重要了。

AutoGPT 就是按照德鲁克的管理学方法,把这些 AI 员工组织成一个项目,分工合作完成目标。但 AutoGPT的流程还是相对僵化的,因此经常在一个地方原地转圈圈,或者走进死胡同里。如果把企业中管理初级员工的一套机制、项目从立项到交付的一套流程引入AutoGPT,可以让 AI 员工干得更好,甚至有可能做成像 Sam Altman 说的那样,只有一个人的公司。

点击图片看原样大小图片

当前有用的 AI Agent 大致可以分成两类:个人助理和商业智能。

个人助理类的 AI Agent,其实已经存在很多年了,比如手机上的Siri、小度智能音箱。最近一些智能音箱产品也接入了大模型,但是由于成本问题还不够聪明,语音响应延迟还比较高,而且也没有办法做 RPA跟手机 App 或者智能家居设备互动。但这些技术问题最终都是能解决的。

很多创业公司都想做通用的语音助手或者智能音箱,但我觉得这些大厂还是有入口优势。大厂不做是因为成本、隐私等多方面的考虑,一旦大厂哪一天下场了,创业公司有什么竞争优势?反倒是结合一些品牌IP 做智能互动手办,或者 Rewind、AI Pin 这些有设计感的智能硬件,可能有一些空间。

商业智能类的 AI Agent,数据和行业 know-how是护城河。数据是大模型的关键,特别是行业知识,公开语料中可能根本没有。OpenAI 不仅强在算法上,更是强在数据上。

在产品方面,我认为基础模型公司应该学习OpenAI 的 1P-3P产品法则。什么意思呢?只要一两个人(1P)开发的产品就自己(firstParty)做,需要三个人(3P)以上开发的产品就让第三方(third Party)做。

比如 OpenAI API、ChatGPT、GPTs Store 这些产品,都不是特别复杂,一个人做个 demo足够了。就算是比较成熟的产品,也不需要一个很大的团队。这种就是 1P 产品。

而比较复杂的行业模型、特定场景下复杂任务的规划求解、复杂的记忆系统,就不是一两个人能够搞定的。这种 3P产品就适合让第三方去做。

基础模型公司应该专注于基础模型能力和 infra,相信 scalinglaw,而不是不断打补丁。基础模型公司最忌讳的就是投入大量高级工程师和科学家去做雕花的事情,搞了一堆 3P产品,最后又没有相关的客户关系,卖不出去。3P 产品最重要的可能是数据、行业 know-how 和客户资源,不一定是技术。

这就是为什么上一波 AI 创业公司很难赚钱,因为上一波 AI 不够通用,最后都是一些需要大量定制的 3P产品,坐拥大量高薪科学家的明星创业公司反倒不一定打得过雇了一堆大专程序员的接地气公司,后者虽然估值上不去,甚至都入不了投资人的法眼,但现金流每年都是正的。

下面几个 “有用 AI” 的例子都是一两个人可以开发的 1P 产品,其实也很有用了。

有用 AI 的 1P 产品例子

点击图片看原样大小图片

第一个有用 AI 的例子是导游,这也是我开始创业之后尝试做的第一个 AI Agent。

当时我一个人来美国出差,同住的几个朋友要么工作很忙要么比较宅,而我很喜欢出去玩。我在 LA 的朋友也不多,所以我就想做一个 AIAgent 陪我一起出去玩。

我发现GPT-4真的知道很多著名景点,甚至还能帮你做行程规划。比如说我要去约书亚树国家公园玩一天,就可以规划出早上去哪、中午去哪、下午去哪,每个地方的停留时间还都比较合理。当然要用英文问,用中文的效果就会差一些。可以说网上有旅游攻略已经包含了这些信息,但用搜索引擎把合适的攻略找出来并不容易。之前我每次出去玩都要提前一天做攻略,现在路上跟AI Agent 聊几句就都搞定了。

我去 USC 玩的时候,刚进校园就遇到了一波游客,他们想找个学生带他们逛校园。我就说我也是第一次来 USC,但是我是做 AIAgent 的,可以让 AI Agent 带我们转一转。老外游客们很 nice 的就跟我一起走了。AI Agent 给我们推荐了USC 校园最著名的几个建筑。每到一个景点,我会让 AI Agent 语音讲讲这里的历史,大家觉得就像请了个导游一样靠谱,说ChatGPT 也应该增加这个功能。第二天的 OpenAI dev day 上展示的应用场景果然就有旅行助理。

朋友带我去约书亚树国家公园玩的时候,门口有一个 “禁止露营” 的标志,我们不知道是啥意思,就分别用 GPT-4V 和我们公司的AI Agent 去做图片识别,结果 GPT-4V 答错了,我们的 AI Agent 反而答对了。当然这不是说我们的 AI Agent比 GPT-4V 还厉害,对错都是有概率的。一些知名的地标 AI Agent 也是可以识别出来的,比如斯坦福校园的纪念教堂。

不要小看大模型知道很多著名景点这个能力。论知识面,没有人能够比得过大模型。比如 2022年,有个朋友跟我说住在尔湾,我那时候甚至没有听说过尔湾。我问尔湾在哪,朋友说尔湾在橙县,橙县在加州,我查了半天地图和 Wiki才搞清楚尔湾、橙县到底是个什么关系,为啥不直接说是在洛杉矶。我老婆前段时间也分不清尔湾和湾区。我们也不算信息特别闭塞的人,但每个地方的生活常识并不是看起来那么显然。

去过这些地方的人会觉得这些常识很容易记住,那是因为人输入的是多模态数据。现在的大模型可没有地图和图片可看,仅靠文本训练语料就能够上知天文,下知地理,已经很不容易了。

点击图片看原样大小图片

第二个有用 AI 的例子,也是我在华为探索过的项目,是企业 ERP 助手。

用过 ERP 系统的都知道,从复杂的图形界面里找到一个功能非常困难,而且有些需求很难点点图形界面就能完成,因此要么把数据导出到Excel 表里面处理,甚至还得用 Pandas 这类专门的数据处理工具。

我们知道大多数人都能把需求用自然语言描述清楚。大模型就提供了一种全新的自然语言用户界面(LUI),用户描述自己的意图,AIAgent 就可以把活干完。GUI 是所见即所得,LUI 是所想即所得。

大模型并不擅长处理大量数据,因此 ERP 助手并不是让大模型处理原始数据,而是用大模型将用户的自然语言需求自动转换成 SQL语句,然后再去执行 SQL 语句。这个代码生成的路线在很多场景下都是比较靠谱的,这里的代码不一定是 SQL、C、Python这样的通用编程语言,也包括 IDL(接口描述语言),也就是特定的数据格式。比如大模型要调用API,输出的文本格式奇奇怪怪,让大模型输出特定格式的 JSON 就老实了。

我最早在华为探索企业 ERP 助手的时候,大模型的基础能力还比较差,因此生成的 SQL 语句错误率比较高,而且也不够稳定。但用GPT-4 生成 SQL 语句的准确率还是挺高的。

利用 GPT-4,我跟国科大合作的一个 AI Agent 实践课题,没有很多 AI 基础的本科和研究生同学也能从头独立实现企业ERP 助手,不仅能支持这一页 PPT 上左边显示的这 10 个只读查询,同学们还自己实现了增加、删除、修改数据的支持,右边这 7个修改查询也都支持了。




还没有人评论



    还可输入500个字!
    ©2023 wailaike.net,all rights reserved
    0.023298978805542 is seconds