马云要达摩院自负盈亏结果语音技术就吊打专业收银员

阿里首创了流式多意图口语理解引擎，极大地提升了对人类随意、自然的口语表达的理解力，能够做到免唤醒的自然的人机交流式的语音交互。

文章配图

“五个巧克力两个香草拿铁巧克力加奶油两个中杯焦糖拿铁一个热的一个冷的算了巧克力不要了再要六个小杯少冰摩卡三杯加焦糖三杯加香草再加一个大的冷的拿铁去冰半糖加脱脂奶打包。”

想象一下，当有一位语速如华少一般的顾客，在咖啡店做着上述的点单动作时，咖啡师是什么心态？

“我放弃。太快了，记不下来。”资深咖啡师选择中途放弃。

而自助点单机以每秒5个字的速度，把最后顾客点的23杯咖啡悉数确认。

这并不是玩笑或想象，而是正在发生的真实事件。

鄢志杰，阿里巴巴机器智能技术实验室语音交互首席科学家。

在今天阿里云栖大会・武汉峰会现场，鄢志杰把阿里最新的语义识别技术在咖啡自助点单上的应用，向观众进行了极限对比展示。

人类咖啡师在听了鄢志杰第二次复述后完成了订单，用时2分37秒。而机器只用了49秒！实力吊打！

文章配图

“今天，我们将机器对人类口语的理解能力带到了新的高度。”鄢志杰说。

也许我们听到这句话，不免会认为他在夸口。毕竟人工智能发展到现在，我们对语义理解也并不陌生。

像阿里天猫精灵，小米小爱同学等智能音箱，已经开始陆续走到我们生活中，真正被我们所熟知。

但“新的高度”，却是事实。为什么？

因为，这种交互方式完全打破了“语音唤醒+语音指令”的传统交互方式。

我们看到，上述点单环节包含了修改、删除、加单等多轮对话。在整个交流过程中，顾客不需要说“hi点单机”之类呆板的唤醒词，而是直接下单，更符合人与人的自然对话。

也就是说，你根本不需要像唤醒智能音箱一样，非要说出一个唤醒词才能和它交互。你要做的只要正常点单就可以了。

鄢志杰表示，阿里首创了流式多意图口语理解引擎，极大地提升了对人类随意、自然的口语表达的理解力，能够做到免唤醒的自然的人机交流式的语音交互。

需要强调的是，这些模块并非简单级联，而是深度融合而形成了多模态语音交互方案。

包括公共场所强噪声环境下的信号处理和语音识别、视频识别与面部识别、场景感知等多模态融合的感知智能。同时也融合了流式对话、多轮多意图口语理解、业务知识图谱自适应等认知智能。

拓扑社了解到，依托于业务知识图谱自适应的技术，这套方案能够快速的在更多场景落地。

目前已经落地的场景还有车内语音助手、电话智能客服、可免遥控器操作的远场语音电视、可精准区分多人对话的智能麦克风等。

为何阿里能够做出吊打人工的语音识别系统？这与去年阿里巴巴成立达摩院有相当密切的关系。

去年10月，马云在杭州云栖大会上宣布阿里巴巴达摩院成立，重点进行人工智能、量子计算等技术应用研发，并且强调“达摩院要自负盈亏”。

而在采访中鄢志杰透露，亮相此次云栖大会的点单机，背后的语音识别语义理解技术，正是来自阿里巴巴达摩院。

“未来，我们希望实现公众空间里的万物皆能对话。无论是咖啡点餐还是地铁售票，我们都是让AI在真实的产业场景下发挥价值。这比那些在实验室里炫技的AI更有意义，更具生命力。”阿里云产品总监何云飞说。

据了解，除了解决方案之外阿里云还推出了ET大脑，包含ET城市大脑、ET工业大脑、ET医疗大脑等。

目前，ET工业大脑已经帮助工业制造企业创造利润数十亿，ET城市大脑在杭州、澳门、吉隆坡等城市落地，承担着交通优化、平安城市等职责。

马云要达摩院自负盈亏 结果语音技术就吊打专业收银员