语音作为人机交互的重要方式,要能够形成一个闭环
——信息搜索,服务获取,任务达成。
贺文/文
除了调侃解闷,语音作为人与智能设备的交互方式之一,现在能做什么?
思必驰创始人、CEO高始兴拿起手机,没有直接解锁屏幕,而是按下一个语音键说,“给浩然发短信”,一秒钟左右,手机里传来温柔女声“短信内容写什么”,“告诉他我已经到北京了,明天会到深圳,我们见个面,帮我订机票”。
原本我们发短信或者打电话,都得先解屏手机,再点击“短信”或拨号,数个步骤后才能完成,而思必驰提供的这个针对智能硬件的解屏语音产品,即便设备没有可触摸的屏,发短信/打电话也相当便捷。
“你再想想,未来搜索会怎么‘搜’?”高始兴很有兴趣采访先从这个话题开始。在他看来,会影响到未来搜索的主要因素有几个:
一是整个硬件时代的迭代,从PC互联网到智能手机移动互联网,再到智能硬件的物联网,硬件端已经发生了翻天覆地的变化;相应地,人机交互的媒介也变化巨大,从键盘、鼠标,到触屏,再到语音、手势、虹膜等;在这样的大背景下,未来用户的搜索会越发的场景化,搜索的目的从传统的信息查询,转变为服务的获取、任务的完成。
思必驰希望能够实现的是,语音作为人机交互的重要方式,要能够形成一个闭环——信息搜索,服务获取,任务达成。
装上“大脑”
高始兴相信,搜索再往下走,特别在智能硬件端、在物联网上,语音交互一定是核心人机交互手段之一。“语音是唯一能传递复杂信息的交互手段,人脸、虹膜、手势,现在来看还只能够作为身份验证,或者做一个简单的搜索,要输入复杂的信息一定是通过语音。”
在感知智能时代,语音交互更多的是简单的语音识别,加自然语言理解,能够实现简单的搜索和控制;在认知智能时代,人机交互时机器更懂用户,懂用户的历史、懂用户的上下文,而且机器听不懂可以去问,允许用户打断,允许用户纠正,机器既有耳朵又有嘴巴更有大脑。这些是在感知智能时代做不到的。高始兴和思必驰团队认为,在垂直领域里面,机器的认知智能应该能做到,听不懂会问、知道怎么问、问什么,核心目的是帮用户快速地完成任务,这是人机对话的下一个阶段,也是思必驰要做到的事情。
高始兴介绍,思必驰现在主要做两款产品:一是AIOS(AISpeechOperatingSystem)人机对话的智能操作系统,把思必驰全面的语音技术整合到操作系统里,把人机对话逻辑整合进去,把后端服务比如高德导航、音乐、天气、聊天等服务整合进去,基于现在主流的操作系统,开发者(智能硬件方向上的合作伙伴)基于思必驰AIOS的标准化接口再做相应开发,让智能硬件产品能说会道,拥有了人机交互的能力;
一是核心硬件模组的研发,比如智能芯片、麦克风阵列,这样能配合思必驰的AIOS软件,因为有些场景里的语音交互需要硬件的配合,才能让交互的体验、交互的效率更好。比如声源定位,就需要环形麦克风阵列这样的硬件支持。
去年10月,苹果收购了一家英国软件创业公司VocalIQ,加强Siri语音助手服务。高始兴称其为“全球做人机对话最棒的公司”。而该创业公司的创始人之一俞凯,就是高始兴创业思必驰的搭档。
“苹果为什么要收购它,为了加强对话。未来通过语音和智能硬件物联网之间进行人机交互的体验,就应该像在智能手机上一样。”高始兴说,不恰当地把智能硬件物联网的爆发类比做智能手机,手机在功能机时只是通信的工具,打电话发短信,交互非常难,但是在智能机时代,触摸交互非常爽,在智能手机上可以听音乐看视频可以购物,能够承载丰富的场景,更多的服务涉及到生活的方方面面,“人机能够对话起来,是实现这种美妙体验的第一步”。