当前位置：首页 >新媒易动态 >抖音号购买

语音交互是一种简单、自然的人机交互方式，也是人类最基本的沟通方式

2021-01-11

“语音交互是一种简单、自然的人机交互方式，也是人类最基本的沟通方式。”

说起语音交互、语音助手，我相信大家一定不陌生。

如今，各种科技公司、互联网公司、车企，甚至是房地产企业都在做语音助手；你已经很难找到一台新发布，且不带语音助手的手机 or 汽车了。

我最早感受到语音交互的魅力是在16年，当时在做全屋智能的产品经理，公司调研产品买了一台亚马逊的echo，第一次体验到远场的语音交互，很惊艳，远场语音交互技术给了居家场景太多的想象空间。

后来国内陆续出了小爱同学、天猫精灵、小度音箱… 我基本都是第一时间买回了家。

18年5月，我去了猎户星空做服务机器人“豹小秘”，机缘巧合的负责起了它的对话能力，有幸伴随它从需要“一字不差的吼着交互”，到在全国各地的落地，我可能是最清楚它的对话能力是怎么做起来的人。

19年8月，我去了滴滴，一年多过去了，也算是从0到1做了一个给司机用的语音助手（遗憾是还没有做到全国全量…）。

到现在我也算是行业老兵了，想结合过往的经历和思考，跟大家聊一聊语音交互。

这次主要想聊下面几个话题：

一、语音交互是什么？

交流是人们与生俱来的本能，人类大约在二岁学会说话，说话也是人与人之间主要的交互方式。

我们可以试着想一下，假如人与人之间不能说话，只能通过触摸固定的区域来交流，那世界会怎么样？我相信，你一定很难想象这会是什么样的世界；而事实上，我们现在与计算机交流的方式就是这样。

语音交互是一项人机交互技术，可以通过说话跟计算机交互来获取信息、服务等，语音交互也不是要替代触控交互，而是在一些场景中让人与计算机交互变的更简单、自然。

说起难点，我先抛几个现状：

为什么这么多顶尖的公司，投入了顶尖的资源、顶尖的人才都没做出一款 C 端用户满意的语音助手？为什么在很多用户眼中都是“人工智障”？语音助手的难点又是什么？

这些问题很大，值得从业者们一起思考，这里聊聊我的思考；我认为，导致人们经常说语音助手“智障”的原因是：用户预期与实际助手能力的 gap 过大。

就像这张图，用户预期与语音助手能力的交集少的可怜。那么有没有可能变成下面这张图的状态？

按这个思路，问题的难点还可以继续拆解：

语音助手背后的技能、内容其实都已小具规模（在19年，Alexa 集市就已经有了9万多个技能），但很多用户也就只会使用听歌、查天气、订闹钟这么几个技能（有屏音箱里充满了各种引导、推荐，就是试图在解决这个问题）。

而我认为这个问题最根本的原因是，大多语音助手还没有打透一个刚需场景。