作者|王
制作|雷锋网产业集团
三岁的天猫精灵,五岁的心,让它在智能音箱圈里显得有点早熟。
9月17日,阿里将今年的云起发布会搬到线上,天猫精灵将秋季发布会搬到阿里云发布会。这次天猫精灵发布会的场景是这样的:
往年发布会的主角酷威、易如、杜海涛成为评委,一场阿里风味的程序员辩论赛取代了往年严肃的秋毛。
会后魏表示,这是我们团队自导自演的一次新尝试,目的是让它更容易在C端观众中传播。
不过,在会后的采访中,天猫精灵事业部总经理库威和天猫精灵首席科学家聂在庆对今年秋季亮相的三款新品进行了深度解读:天猫精灵CC10电池版家庭智慧屏、天猫精灵CC MINI、In Sugar 2。
就是这三款新品,看起来是在原有产品线的基础上升级迭代。其实它们包含了阿里今年在智能助手和智能交互领域的新思维和新尝试。
相比新品,真正凝聚天猫精灵这一时期战斗力的,是其背后全新的AliGenie 5.0系统。
多模态交互不再只是用唤醒词唤醒智能音箱.今年AliGenie 5.0系统强调的新技能,看似没有什么新意,却蕴含玄机。
甚至可以说,这样的新技能其实让智能语音技术衍生出来的天猫精灵开始显得有点早熟了。
天猫精灵的全新尝试
尝试一:「微内核」
如果说10寸屏天猫精灵CC10的电池版更多的是基于今年上半年天猫精灵CC10的一次“动员”,天猫精灵CC MINI则是由内而外的重新设计。
从头部来看,天猫精灵CC MINI首次采用4英寸屏幕;
从内核来看,库威特别强调了天猫精灵CC MINI是首个搭载阿里自研微内核操作系统的带屏智能音箱。
什么是微内核?
其实这是物联网操作系统中的一个技术概念。
如今,物联网终端应用的操作系统基本分为三类:
第一种是相对简单的无屏幕设备,使用基于RTOS的操作系统;
二是一些没有屏幕的复杂设备或者一些有屏幕的简单设备使用基于Linux的操作系统;
第三类,屏幕更大的设备用安卓。
应用和适配这三类操作系统,无论是成本还是研发难度,都是一个耗时耗力的过程。
魏告诉雷锋网。com认为微内核的含义是相对于宏内核而言的。由于过去几代天猫精灵中既有带屏幕的产品,也有简单或复杂的产品,也有不带屏幕的产品,所以我们希望可以使用一个微内核和其他系列的组件来适应不同的硬件形态。
目前天猫精灵的目标是首先将这样的微内核应用于带屏幕的简单设备(比如天猫精灵CC MINI,首次应用微内核)和不带屏幕的设备。
对此,酷威也承认,这个难度非常大,不可能一步到位。天猫精灵CC MINI上的这个应用是我们的第一次尝试。通过简单的屏幕适配这样的设备,我们可以看到应用程序可以运行,并且通过批量商业出货测试了微核操作系统的能力。这样的微核未来肯定会用在更多的设备上(尤其是没有屏幕的产品)。
这种微内核的应用将在一定程度上解决操作系统碎片化的问题,使部分设备能够从操作系统层面实现互联互通。
这也是阿里基于自身基因尝试物联网设备互联的新思路。
尝试二:「云应用」
在本次阿里云论坛上,阿里发布了新物种——云电脑“无影”,备受关注。
在天猫精灵CC MINI,R & ampd团队还开发了“云应用”。
这里是“云应用”。天猫精灵有一些应用和云电脑研发的底层技术;d队,而且两人都有翻盘。
事实上,无论是“云电脑”还是“云应用”,二者都在尝试践行阿里的“云融合”理念。
“云应用”相当于把大量的计算、渲染等工作放到了云端。本地做的更多的是显示和应用处理,即使是天猫精灵CC MINI这样本地计算能力不强的智能音箱,也可以体验到大规模的教育、游戏等应用。
R & amp;d人员用天猫精灵CC10电池版测试云应用。
值得注意的是,今天
年5月天猫精灵春季发布会上,天猫精灵市场运营总经理杜海涛曾指出,天猫精灵将与支付宝小程序打通,今年7月将有170万+支付宝小程序进入天猫精灵设备。时隔四个月,此次发布的天猫精灵CC MINI搭载的云化应用均为基于支付宝小程序搭建的,“本质上,这是一个‘微内核+小程序’的数码产品。”
微内核、云应用,这些创新应用背后其实都是基于今年全新升级的AliGenie 5.0系统,而此次5.0版本的AliGenie,官方更极力强调的是「多模态交互」。
AliGenie 5.0:多模态自然交互
过往三年里,天猫精灵AliGenie系统已经经历了四个大的版本迭代,从AliGenie 1.0到AliGenie 4.0四个大的版本中,官方依次强调的是「语音交互」、「视觉交互」、「行动力」、「平台化」四个技术关键词,今年的AliGenie 5.0强调的则是多模态交互。
回顾智能音箱这两年的发展,不难发现,视觉识别、手势识别等多模态交互技术并不是天猫精灵此次发布的智能音箱首次应用的技术,也不是AliGenie 5.0首次提到的概念,甚至早在2018年发布AliGenie 2.0时,天猫精灵就在语音交互技术的基础上引入了AI视觉技术,并发布了“天猫精灵火眼”。
而交互能力作为智能音箱最基础的能力,早在带屏智能音箱出现后,谷歌、亚马逊、阿里、百度等就开始想尽办法为带屏智能音箱加入更多交互方式。
包括天猫精灵此前已经上市产品天猫精灵CC、天猫精灵CC10均已有加入视觉识别、隔空手势等交互能力。
这次的多模态技术与以往的有何不同?
聂再清告诉雷锋网,AliGenie 5.0上的多模态自然交互是“多路感知,一路认知。”
2018年,天猫精灵AliGenie 2.0面世,与此同时,一个名为“天猫精灵火眼”的产品一同面世,这一产品意味着天猫精灵的智能音箱开始尝试视觉交互能力。
不过,聂再清解释称,现在的视觉能力和当时的视觉能力有些不同,关键在于“融合”二字。
实际上,AliGenie 2.0中的视觉能力还是对于单独视觉信号的处理和应用,现在的多模态交互,其实我们已经把视觉信号、语音信号、上下文的语义信号的特征综合到一个空间里做决策。
如果说之前的多模态交互是三路输入分别对应三路不同的输出,今天的多模态交互则意味着将三路输入信号信息一起进行分析,最终分析出一个结果,并再以多模态的形式输出给用户。
以唇动唤醒为例,天猫精灵需要通过视觉能力识别出唇动的动作,再通过语音技术识别出的语音是否与视觉识别到的唇动是否匹配,再结合上下文的语义理解这个命令是给天猫精灵的,还是这个人和其他人的对话。
识别的最终识别结果和输出结果为:
分析结果:不是在和天猫精灵说话;输出结果:不应答。
分析结果:是和天猫精灵说话,响应相应的指令;输出结果:同时输出语音、文字等多模态内容。
这样的多模态自然交互技术,不仅使得用户不再只能通过唤醒词唤醒智能音箱,更能适应多种应用场景下的交互需求。
聂再清对这样的多模态交互有更深刻的认识:
在我看来,多模态自然交互是一个特别重要的交互升级,重要性相当于我们在移动互联网时代的手机从键控交互到触屏交互的升级,多模态自然交互将会是一种非常自然的交互方式。
随着更接近人感官的多模态自然交互方式的深入应用,智能音箱在交互体验上也将变得更成熟。
重新唤醒天猫精灵
智能音箱之争,早已成为巨头之争;智能音箱之争,本质其实是智能助手之争。2020年,智能助手的战火从智能助手蔓延到智能耳机。随着科大讯飞、百度先后进入TWS智能耳机领域,阿里会不会是下一个进入这一赛道的玩家?
至少,在采访中,库伟并没有否认。
库伟提到:
耳机在本质上和音箱有点像,在过去一段时间里我们也在想,音箱是放在家里的硬件,随身携带没那么方便,耳机可以伴身随行,如果你能够和它交互实现一些应用,是挺好的一个场景。
我们想了很长时间,而且也和OEM厂商尝试推出了一些产品,实话说,因为一些技术问题,产品用户体验还达不到我们内部产品上市要求。
库伟也提到:
今天我们在做天猫精灵的时候,不是简单把它当作一个3C产品来看,而是把它作为承载未来在5G、AIoT时代的智能硬件一个打磨重要产品阵地的实验场来看,我们希望用越来越多的新技术、新平台,去实验、去打磨,从而能够在更广泛的范围内把这些平台推广开。
随着此次AliGenie 5.0的推出和应用,多模态自然交互、微内核、云应用带来了更新的思路和理念的同时,也带来了些许不一样的用户体验。
2020年,阿里还将如何重新唤醒天猫精灵?你又将如何唤醒你手中的天猫精灵?