这是 Neon,三星旗下子公司 STAR Labs 在 CES 2020 上发布的“人造人”项目。

只不过,它没有实体,而是以真人尺寸存活在屏幕中。三星在 CES 展区展示的预期效果极其逼真、足以跨越恐怖谷,让 Neon 成为了今年 CES 的话题中心之一。

(三星在 CES 的展区展示 Neon 的预期效果)

之前也有类似的数字人,比如数字王国制作的数字邓丽君,以及搜狗和新华社联合制作的 AI 合成主播。但它们的定位更加功能性,而三星把 Neon 塑造得更具人性,不惜牺牲功能性来塑造人性。

(搜狗和新华社联合制作的 AI 合成主播)

STAR Labs 希望 Neon 有着像人一样言行举止和智慧程度,它的定位不是舞台上的明星,也不仅是新闻直播间的替班,而是可以和人类直接互动的“朋友”。

有个性、有专长的虚拟人

在 STAR Labs 的设定中,Neon 能张口和人对话交流,并且在和人的互动中,持续学习对方说话做事的方式,以做出更加自然的回应,就好像一个真正的朋友。

“Neon 就像我们一样,是一个独立的个体,但身体是虚拟的。”STAR Labs CEO Pranav Mistry 介绍说,“每一个 Neon 都是独一无二的,有自己的个性。”2019 年 10 月,Pranav Mistry 成为了 STAR Labs 的 CEO,此外他曾工作过的项目有微软 Xbox、Galaxy Gear 手表以及 Gear VR。

在这样的设定下,每个 Neon 都有自己独特的记忆。用户每和一个新的 Neon 对话,都像交新朋友那样,一切重新开始。

听起来就像增加了实体形象、更加个性化的智能语音助手,但三星强调说,Neon 的定位和智能语音助手无关,它和 Siri、小度以及 Bixby(三星自己的语言助手)不是同一类产品。Neon 无法告诉你,今天天气怎么样,或者亚伯翰·林肯什么时候去世的。

(三星强调 Neon 和 Bixby 没有任何关系)

STAR Labs 希望它能扮演一些职场中的专业角色,帮助人类完成一些需要接触人的任务,比如瑜伽老师、财务顾问、门童、电视新闻主持人,甚至电影演员。

“Neon 不是全知全能的,每个 Neon 都有自己的特长。比如,你可以让擅长瑜伽的 Neon 教你练瑜伽。去马德里旅游时,你可以让另一个会讲西班牙语的 Neon 帮你交流。”Pranav Mistry 说。

Neon 提供服务的方式也很特别。个人用户通过订阅的方式获得 Neon 的服务,企业用户要像雇佣人类员工一样雇佣 Neon,而且不能指定 Neon 的个性,就好像企业不能指定人类员工个性一样。

甚至,Neon 会像人类员工一样感到疲倦,因此它不能像智能语音助手一样 24 小时不停地工作。

总而言之,Neon 不是智能语音助理,而是一个有自己个性和特长的虚拟人类。

背后的技术仍是个谜

Neon 是一个有野心的产品,它可以让人联想到很多影视剧里的 AI 角色,比如《Her》里面的萨曼莎。问题在于,三星 SRAR Labs 是怎么实现这个科幻电影般的角色的?

首先,Neon 需要模拟出跟人一样的外表。在接受外媒采访时,Pranav Minstry 说 ,Neon 可以从无到有生成一个虚拟人,但没有解释具体的实现原理。

他只是在发布活动上笼统地介绍了 Neon 背后两个的核心技术:Core R3 以及 Spectra。Core R3 的“R3”代表了 Reality、Realtime、Responsive,负责让 Neon 快速响应用户的对话以及像人一样自然地说话做事。Spectra 负责智能、学习、情感和记忆。

搜狗的 AI 虚拟主播技术是一个可以参照的对象。首先由真人主播录制一段播报新闻的视频,然后基于这段视频将真人主播的声音、唇动、表情动作等特征进行提取,接着通过语音合成、唇形合成、表情合成以及深度学习等技术,“克隆” 出 AI 虚拟主播。

合成过程有两个难点,一个是唇形合成,一个是声音、唇动、表情的协调匹配。唇形合成是三维的,比技术原理相似的语音合成要难得多,而且还要和声音、表情匹配在一条时间线上。

简而言之,三星并没有在技术实现上透露太多信息,Neon 依然是个谜。

Neon 目前表现远达不到宣传效果

三星通过宣传给了外界极大的期望,但 Neon 目前的实际表现还达不到宣传的高度。

展馆所展示的动画,都是预渲染的,人物动作也是循环播放的。甚至,这些预渲染的画面,都不是 NEON 目前的真实效果。据外媒报道,三星证实展区以及宣传物料中展现的情景都是虚构的,只是作为说明用途。

(三星在 CES 的展区展示 Neon 的预期效果)

有外媒记者亲身体验了一下和 NEON 互动。令人意外的是,他不能直接和 Neon 进行对话,而是要由一个工作人员把他的话复述一遍。记者问了 Neon 几个简单的问题,Neon 有的回答得不错,有的回答则不太像人类的反应。

比如问“你最喜欢的食物是什么”,它的回答是披萨。问“你喜欢足球吗”,它能模拟人类的语气回答“不~,完全不。”但接着问“为什么不(喜欢足球)”,它完全接不上话。

这说明,Neon 还没有根据上下文进行持续对话的能力。而这个能力已经在很多智能语音助手上实现了,比如 Google Assistant、亚马逊的 Alex 和百度的小度。

在整个对话过程中,Neon 的反应也谈不上迅速,回答前总会“思索”个一秒。Neon 和人类互动时的状态,也没有三星宣传的那么好——唇动和表情配合起来不太自然,观者甚至会跌入恐怖谷。

正如 Pranav Minstry 所说,Neon 还处于非常早期的阶段,甚至连 Beta 版本都算不上。它是一个有野心的产品,但要走的路还有很长。