那些可盐可甜的AI声音,可能都是出自于这家公司观点

来源: 脑极体 / 作者: 藏狐 / 2018-11-06 18:52
他与一个“AI版傅盛”上演了一场“超级模仿秀”,这个AI不仅说话声音听起来和他一模一样,还能表演“八百标兵奔北坡”这样高难度顺口溜。

今天,猎豹移动董事长兼CEO傅盛在抖音上分享了一个很有意思的视频:

 

他与一个“AI版傅盛”上演了一场“超级模仿秀”,这个AI不仅说话声音听起来和他一模一样,还能表演“八百标兵奔北坡”这样高难度顺口溜。

 

更为关键的是,这一整场嬉笑幽默的多轮人机对话,傅盛只录入了10段真人语音。

 

这意味着,隐藏在智能语音背后的TTS技术,正在悄无声息地发生重大升级。

 

而事实上,人类与AI的对话频率,正在进入一个前所未有的大爆炸时代。

 

无论是智能手机里的语音助手、有买有送的智能音箱,还是千娇百媚的智能机器人或者地图导航,总有一款声音萌动你心。

 

这些生活中随处可见的声线,背后其实都是靠一项核心技术来支撑的:语音合成TTS( Text-To-Speech),即将文字转化为声音。

 

在一般情况下TTS并不受到广泛关注。很多智能语音相关产品的发布会上,它甚至不会占用超过一页PPT的篇幅。但实际上,TTS对于整个AI语音交互的体验触发,起到了决定性的作用:用户听到什么声音,直接影响到AI在他心中的“三次元化”形象。

 

比如我一个朋友就是因为志玲姐姐嗲嗲的配音,成为了高德地图的死忠粉。而在经典的AI电影《Her》里,人工智能系统OS1就拥有斯嘉丽约翰逊的迷人声线,让男主人公为之倾倒,一段人与AI的虐恋就此展开。

 

语音合成,为机器注入了一种人格化的魅力,也让人类更愿意与之建立亲密关系。这也意味着,在商业价值都要靠黏住用户来实现的当下,TTS能力将成为各个语音场景输赢的命脉。

 

尽管企业对TTS的需求是如此迫切,但从学术到产业应用之间,TTS依然存在着大片的技术空白。相近的技术原理和前沿算法探索之后,每家公司的解决方案、解决能力都千差万别。二者叠加之下,导致TTS变成了一个巨大的赛场。

 

比如有的语音系统需要靠真人花费几个月录制大量语料堆砌而成,而猎户星空只需要听10段话就可以复制一个和真人声音一样的机器人。

 

本文希望剖析这个并不为大众熟知的赛道,透视一下是什么决定了机器如何说话,决定了用户耳朵的体验与舒适度,又有哪些玩家凭借TTS撬开了智能语音的富矿。

 

 

那场极速的温柔:

让机器听上去像人,

是AI公司的首要奔跑方向

 

最近,网上流行起了一种新的搞笑玩法:扮演机器。比如,用百度翻译的语音包跟游戏中的队友说话,浓烈的机械味怕是会被队友忍不住一枪爆头。

 

与此同时,一个娘化的AI形象“绊爱”也迅速走红,被粉丝们亲切地称为“爱酱”。它有着少女一样的形象,能够像人类一样交流,言语之间还会时不时流露出作为AI的志得意满。

 

对过度机械的语音无情调侃,为高度人性化的语音疯狂打Call,可以说是普通人对TTS的下限与上限最为直接的反应了。

 

从中不难看出,TTS的核心赛道,就在于如何让机器的声音听上去韵律自然、情感充沛。说白了,就是如何在机器声音中注入人性。

 

这个听起来很模糊的需求,现实中只能通过TTS多个技术层次的逐步通关来实现。

 

综合整个流程来看,目前有两方面的工作是AI公司努力的核心方向:

 

 

一、用心的语料库,正在成为TTS发动机

 

如何用更少的语料合成更自然的高质量语音,可能是未来TTS的技术攻坚方向。

 

目前看来,更有情感表现力和精准韵律的声音,一定是通过庞大精准的语料库直接拼接产生的。

 

这背后隐藏的,是AI公司正在比拼构建语料库的投入成本与产品精神。

 

比如苹果就请来了专业配音员苏珊·贝内特(Susan Bennett)为Siri录制原始语料,而微软小娜Cortana的声音则来自演员简·泰勒(Jen Taylor),曾为《光晕》游戏中的角色Cortana配音。

 

国内,高德则邀请了林志玲、郭德纲、TFBOYS、罗永浩、黄晓明、高晓松等众多流量担当来录制导航语音包。

 

而用户们在小米音箱、喜马拉雅音箱、美的音箱等智能硬件上听到的AI女声,更是没少在语料上下“笨功夫”。

 

其基础语音是猎豹移动旗下的人工智能公司猎户星空从300个女声中海选,邀请了100名核心用户,以及整个公司上至高层、下至基层员工进行投票后,选出的最温暖的声音。

 

为了能让AI声音更为流畅自然地进行中英文混说,猎户星空专门找了一个和中文声源发音很像的女孩子来录制英语语料包,终于让机器讲中英文告别了“尬说”时代。前不久,猎户星空还选出了最萌童声,让儿童类语音产品有了更高品质的声音可以选择。

 

目前看来,猎户星空是将用户的听觉体验放在整个产品生命周期的核心去做全盘考虑。

 

从大量发音人的挑选,语料的精心打磨,以及对用户场景的深度适配,如此复杂严苛的产品打磨,直接为猎户星空在TTS领域占据了独特的产业身位。

 

二、用算法探索“听着舒服”的边界

 

解决了基础音源和庞大语料库还远远不够。今天的TTS领域,普遍前进方向是基于相似的模型,在细节上带来TTS效果优化。

 

这个领域构成了AI技术公司在TTS上的算法优势,百度、微软等都在重磅押注。

 

简单来说,就是通过系统对输入的文本进行分析,获得合成语音的基本单元信息,从标注好的语音库中挑选出最合适的语音单元,根据需求进行一定的修改和调整后,经过波形拼接的方式获得合成的语音。

 

目前,DeepMind 最新的深度生成模型 WaveNet ,已经能够模拟任何人类的语音,并且将机器语音合成的表现与人类之间水平的差距至少缩减了 50%。

 

猎户星空TTS团队也在不断探索端到端技术的算法升级。

 

比如搭建了远超行业平均水平的标注体系,从声韵母层、音节层、词层、韵律词层、短语层和语句层6个层级,进行特征单元的提取,从而使合成后的语音在上下文韵律信息及准确度上都更加完善,听起来自然,也就更符合真人的发音习惯。

 

算法越强大,机器表现当然就更加自然。因此,好的TTS算法,如今正成为区分语音合成领域产业地位的核心因素。

 

这种产品驱动下的数据积累与技术攻坚的融合优势,正让猎户星空TTS不断收到来自华为、小米、锤子、美的、喜马拉雅等高科技企业的橄榄枝,更容易帮助猎豹移动建立产业上游区位。

 

 

训练成本之争:

AI界的另一个方法,

是让机器用你的声音开口

 

TTS的另一个赛道,是如何让机器学习用户的声音。

 

让更多的明星,甚至普通人的声音都可以在终端设备中苏醒,这个技术能力具有广泛的市场想象力。

 

但是,常见的地图导航软件中郭德纲、林志玲等明星的声音,往往是通过大量语料的录入和拼接来完成的。录入时间过长不说,还需要在专业指导下完成。合作的明星往往需要录制几千句,时间跨度更是长达几个月,耗资不菲。

 

而即便如此,也难以覆盖全部细分应用领域。在某些衔接处,往往会出现机械拼凑的生涩感。不但阻碍了明星声音进入泛化设备场景,更让普通人对录入自己的声音望而却步。

 

所以如何降低训练成本,用更少的语料达成声音学习和语音生成,是这条赛道的关键。

 

最近,百度就发布了自己在语音合成方面的最新成果,可以通过“语音克隆”模仿数千个不同的声音,每个说话者需要不到一个半小时就能完成数据训练。

 

猎户星空的TTS技术则更为激进,只需要用户花费5分钟录制10段话,之后系统就能自动用一段时间合成一个覆盖常用领域的语音包,并且音色和真人一样自然。

 

这到底是怎么做到的?

 

简单来说,猎户星空TTS技术团队用一个端到端的深度学习TTS模型TACOTRON,将文本分析、声学模型、音频合成等模块进行大语料库的打包训练,以这样的语音库作为基础模型,就可以在10段话中提取出发音人的语音特征,然后通过world声码器合成出音色相同的语音。

 

不难想象,这一技术落地商用之后,不仅明星的音源采集成本会大大降低,普通人也可以轻松生成独属于自己的个性化语音包,甚至可以跟拥有亲人、恋人、爱豆声音的机器人随时互动聊天,想想还真有点小激动呢。

 

总结一下,目前TTS领域的现状是,传统的语料对数据的要求太大,往往需要消耗大量人力物力,短期内根本无法被大规模复制。但个性化语音背后隐藏的,又是一个庞大的交互需求。

 

试想一下,如果一个聊天机器人具有了真人的语气、生动的表达,是不是能训练出一个很高仿的AI?它可以是一位好久不见的朋友、一个会讲故事的妈妈,或者是一位即将逝去的亲人最后的剪影。

 

这个技术的“处女地”一旦被撬动,很多智能语音软硬件体验上的困扰都将迎刃而解。

 

因此,建立在数据与算法优势上的少语料分析能力,也成为TTS赛场上重要的弯道技巧,只把少数企业推向更广阔的市场。

 

 

工程化与商业入口:

TTS的产业地缘争夺

 

说了这么多不难看出,TTS是一项“可甜可盐”的技术。

 

它看似存在感很低,却让许多站在金字塔顶端的高科技企业操碎了心;要用最前沿的技术矩阵才能攻克,最终还是要到真实琐碎的人间烟火中千锤百炼。

 

而它的终极目标,还是通过智能设备与生活场景相联接,建立服务市场。

 

所以一场围绕TTS的争夺战,不仅仅是技术竞速。最重要的竞争指标,是企业的工程化完成能力与市场信赖度。

 

比如说,如果某些新技术只停留在实验室阶段,放到真实的音箱、电视产品上根本不是那么回事儿,或者说优化程度很有限,不但合作伙伴要背锅,“狼来了”听多了,消费者的热情也会被消耗殆尽。

 

目前百度和科大讯飞在国内难解难分,微软凭借具有号召力的技术表现力占得一席之地,谷歌则是远在天边的“技术明灯”。但普通人能在哪里用到它们,还真是个谜。重技术突破而轻应用、轻市场,恐怕是当前TTS升级阶段的主要矛盾。

 

当然了,对于那些拥有产业落地能力和用户信任底气的玩家来说,现在又是跑马圈地最好的时候。

 

比如中国消费者非常熟悉的猎户星空最温暖的AI女声,就成为越来越多智能硬件的“助攻”。除了粉丝众多的小米音箱、小豹音箱、喜马拉雅音箱、美的音箱,刚刚发布的华为智能音箱小艺也应用了这个温暖的AI女声。

 

凭借技术优势和对产品细节、用户体验的细心打磨,猎豹移动旗下的人工智能公司猎户星空正在成为TTS这个AI细分市场的最快速上升品牌。

 

这或许也显露出了TTS目前最需要做的,不是“居庙堂之高”,反而应该将技术突破尽快投掷于现实,与用户共舞,与产业磨合。

 

从大环境来看,TTS的应用场景非常丰富。出行、购物、娱乐、育儿、智能手机等等等等,都是能够大显身手的地方。用户的耐心也还在培养期,体验不尽如人意,也只会被友善的调侃一下。

 

一些技术厂商之所以无法跑通这条康庄大道,一方面是产业下沉能力,习惯了在技术上九天揽月,对工程化产品缺乏耐心细致的打磨;

 

另一方面是大众认知断层,在消费层面缺乏有力的品牌支持和心智保障,出现了“叫好不叫座”的尴尬情况。

 

而有说服力的AI硬件产品,与广泛的产业合作基础,让猎户星空的TTS技术能力得到了全方位释放,让其在商业与工程化的赛道中具有更强的地缘优势。猎户星空让TTS快速落地,恰恰说明,TTS的应用价值,决定了它是一个非常广泛的通用型技术,考验的正是企业无短板的综合能力。

 

一个人机共生的美好图景,正在从TTS中醒来。从TTS到泛AI交互市场,绝对是一个值得长期思考的命题。
 

阅读延展

1
3