智能语音设备会是下一代计算平台吗

艾欧体(Aiouti)物联网资讯:关于下一代计算平台的讨论一直经久不衰,AR/VR刚刚偃旗息鼓,今年又冒出了智能语音设备。号称“做手机就是交个朋友,重要的是抢占下一代计算平台”的锤子科技最近也在捣鼓智能音箱,更不用提国内一二三线的其它厂商。美国智能音箱的领头羊Amazon到今年底的总出货量大概是2500万台,苹果和谷歌今年也纷纷加入战局,掀起一波波的宣传攻势。国内的天猫精灵赶着双十一赔本卖出去了100万台,也引发了很多关注。智能音箱市场的快速增长,是不是代表着智能语音设备就是下一代计算平台呢?

我们先探讨一下智能语音设备爆发的几点原因:

1.首先,当下语音技术可以用日新月异来形容,相关行业正在享受技术高速发展带来的红利。去年年底,讯飞、百度、搜狗三家公司几乎同时宣布,他们语音识别的准确率已经达到97%。人耳的识别率也就在99%左右,机器语音识别准确率超过人类指日可待。语音识别在过去相当长的一段时间是停滞不前的,也遇到了人才断层的问题。传统的机器学习方法在上世纪九十年代已经达到瓶颈,而当时语音识别的准确率远远没有达到大范围使用的门槛。2009年前后”神经网络(Neural Networks)”借”深度学习(Deep Learning)”之名涅槃重生,首先在图像识别领域取得突破。语音研究者们也发现了一块儿新大陆,新的方法层出不穷。错误率从几年前的30%下降到今天的3%,这期间的进步还是很让人兴奋的。

2.其次,以手机为主的电子消费品的产业链的成熟和完备,让推出智能硬件的门槛大大降低了。大量的元器件都可以以极地的价格买到。从千元以上的叮咚一代到499的天猫精灵,再到299的小米小爱同学,各大厂商不断刷用户对于智能语音设备的心理价位。

3.风起于青萍之末,新业务总是最有想象空间的。马云说过,能打败淘宝的肯定不会是第二个淘宝。上世纪九十年代,微软和Intel组成Wintel联盟,是PC时代不可撼动的霸主。当它们在PC市场上一手遮天的时候,Google的搜索引擎只是一个高成本的检索工具,亚马逊只是一个在线书店,苹果的智能移动设备还在孕育中,社交网络还是小札脑子里面的一个想法。现在Google、亚马逊、苹果和Facebook的收入大概是Wintel的三倍。新兴业务总有机会比现有的业务赚的更多。

4.智能手机并不是一个类似于浏览器的中立的平台。手机硬件和操作系统厂商对于移动互联网的控制已经远远超过微软在PC时代对于互联网的控制。即使微信和支付宝已经占据国内移动支付的半壁江山,他们还要警惕类似Apply Pay这样来自硬件厂商的逆袭。流量入口是互联网公司的咽喉命脉,每一处都是兵家必争之地。这也是各大公司推出智能音箱甚至低价倾销的主要原因。

以上几点都是各家公司推出智能音箱的背后逻辑,但是终端用户是不是真的能够接受甚至习惯这一类的语音智能呢?

首先,语音识别只是智能服务的冰山一角,最核心的工作是建立一个服务引擎,来匹配用户的各项需求。我们通过语音识别引擎可以把语音转成文字,但在训练模型之前,这些文字对机器来说就是一堆乱码。哪怕我们教会了机器去识别每一句话中的“对象”和“意图”,机器仍然无法满足用户的需求,我们还需要为用户提出的每一项需求都对接一套服务系统,比如说订餐、订票、叫车等等。这是一个巨大的市场缺口也是机会。

这里涉及到一个重要的技术问题,就是我们如何构建这样大规模的服务。一种方法是通过专家系统,这种方法试图模拟人脑的决策行为,把这些行为用关键词和规则的方法表示出来。这种系统的好处是在特定问题上准确率非常高。 事实上这种方法在几十年前已经被试验过了,各行各业的专家建立起各种各样的专家模型。但是,这种构建“智能“系统的方法最后以失败告终。这种方法没有学习能力,而我们无法为世界上的每一个问题准备一个答案。另一种方法是通过机器学习,目前效果最好的机器学习分支是有监督的机器学习,本质上是一个分类器。我们可以在一个问题上让机器从数据中自动学习,不断提高准确率,但是目前机器的自动生成能力和迁移学习能力还很差,这也让我们陷入了跟专家系统一样的境地,我们无法为每一个问题开发一个机器学习模型。

我们假设用户接受”智能音箱无法回答所有问题“这一现实,下一个问题就是,用户知道他们能问什么么?在手机上,用户可以快速浏览图形界面找到需要的服务,但是他们会愿意听智能音箱把这些服务一个个的念出来么? 有搜索业务的公司会有一定的优势。他们可以从大量的历史问答数据中总结规律。统计意义上,我们所有人的问题加在一起,一半以上都落在搜索的500个常见问题里。但是我们每个人不是统计数字,对于不确定性的容忍度也非常有限。

这也意味着对于大部分公司来说,想要语音智能真正地起作用,还得有一个足够细分的场景。在这种场景下,机器知道用户会问什么,用户也知道他们能问什么。这也是很多智能音箱的结构性问题。今天智能音箱在无法回答用户问题的时候,主要有两种解决方案,要么跟用户说对不起,要么把用户的问题扔到搜索引擎里面找结果。这两种方法的体验都不好,用户在经历几次之后,对产品的信心就没了。

假设上述所有技术问题都被解决了,机器可以准确的识别人说的话,把文字翻译成意图和指令,和背后的服务引擎无缝对接。那语音就会变成最主流的用户交互接口(User Interface)了么?

当然不是。多媒体的信息量远远超过了语音能表达的极限。通过IVR来买衣服是一个非常糟糕的用户体验,通过语音来描述上车地点也没有手机地图来的精准快捷。语音最大的问题还不在于AI不够好,而是语音的限制条件太多了。语音作为一种输入输出,它的信息传递速率是很低的,这受限于人的生理特征和语言语义中的诸多冗余。最近亚马逊的Echo也加了一块儿屏幕,也是在解决语音作为系统输出的局限性。我们不认为语音能够替代图形用户界面(GUI)成为主流的交互方式。

当然有一些任务是适合语音来完成的。这些任务又分为两种情况。第一类任务是有明确场景的。在这个场景下,手和眼睛作为输入输出设备,已经被占用了,比如说开车或者在厨房里面工作等等;另一类任务属于轻量级的目标明确的任务,比如说开个灯、电视调节音量等等。对于这些任务来说,最大的难点在于让用户能想起来用,这里面涉及到培养或改变用户习惯,也是一个语音产品需要跨越的鸿沟。

世界范围内,手机的出货量明显放缓,但是智能手机的浪潮让世界上每两个人就拥有了一部手机,是没有争议的当前最大的计算平台。我们认为智能语音设备替代手机成为下一代计算平台的可能性不大。语音作为一种输入/输出,不会替换现有的交互方式,只会是现有交互方式的补充,就好像鼠标的发明并没有淘汰键盘,触摸屏的发明并没有淘汰前两者一样。

欢迎转载,转载请注明作者和出处!:IOT-艾欧体 » 智能语音设备会是下一代计算平台吗

赞 (0)
分享到:更多 ()

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址