账号:
密码:
最新动态
产业快讯
CTIMES/SmartAuto / 產品 /
以DeepMind WaveNet为基础 Google推出Cloud Text-to-Speech服务
 

【CTIMES/SmartAuto 报导】   2018年04月02日 星期一

浏览人次:【10707】

许多Google产品(像是Google Assistant、Google搜寻、Google地图等)都内建了高品质的Text-to-Speech服务,可以产生如人声般自然的发音。我们收到许多开发者的意见,表示希??能将Text-to-Speech的服务结合到他们的应用程式中,所以Google特别将这项Cloud Text-to-Speech技术加入Google云端平台(Google Cloud Platform, GCP)中。

/news/2018/04/02/1046234300S.jpg

使用者可以将Cloud Text-to-Speech服务运用在不同的情境中,如为电话语音服务(Interactive Voice Response, IVR)中心提供语音回应系统,并启用即时自然语言对话功能,另外,此服务可与物联网设备,如电视、汽车、机器人等进行对话。将文字格式的媒体内容(如新闻文章、书籍)转为囗语形式(如Podcast、有声书)。

Cloud Text-to-Speech服务提供了12种不同语言中的32种不同声音供使用者选择。即使是复杂的文字内容,例如姓名、日期、时间、地址等,Cloud Text-to-Speech服务也可以立刻发出准确且道地的发音,并支援多种音档格式,包含MP3和WAV等,不仅如此,使用者还可以自己调整音调、语速和音量。

Cloud Text-to-Speech服务更以DeepMind所建构的原始音档生成模型WaveNet为基础,透过运用WaveNet将一系列高保真度的声音转化为语音。整体而言,WaveNet可以合成并产出更自然的语音细节,而且相较於其他Text-to-Speech技术所产生的语音内容,WaveNet所产出的语音内容也更受使用者喜爱。

在2016年底,DeepMind推出了第一版的WaveNet,透过神经网路架构来训练大量的语音样本并创造原始音频的波形。在训练过程中,神经网路会撷取语音的基本架构,像是语调的连接和语音波形的形状等。当输入特定的文字内容时,经过训练的WaveNet模型会产生相对应的语音波形,藉由一次产生一个样本的方式,达到比其他方法更高的准确度。

现在,我们使用的运行於Google云端TPU基础架构上的更新版WaveNet。全新且升级的WaveNet模型所生成的原始音频波形比原本的模型快了1,000倍,而且只需50毫秒即可生成一秒钟的语音讯息。事实上,这个新模型不仅更快速而且具有高保真度,且每秒能创造出24,000个音频波形的样本。为了制作出更好、更拟真的音质,我们也将每个样本的解析度从8位元提高到16位元。

如图所示,新的WaveNet模型可以制作出更自然的语音讯息。在测试过程中,使用者在1到5级的平均意见分数(Mean-opinion-score, MOS)量表中,给予新版美式英文WaveNet语音4.1的高分,其中有超过20%的人认为比标准的人声更好,而超过70%的人肯定它能降低人类语言的隔阂。由於WaveNet音讯仅需较少录制音频,就能制作出高音质模型,因此我们预计在未来几个月内,将持续改善WaveNet音讯的多样性与品质,并提供给云端客户使用。

Cloud Text-to-Speech已经协助很多我们的客户,像是思科(Cisco)和Dolphin ONE,提供更好的终端使用者体验。

「身为提供协作解决方案的领导者,思科长久以来致力於为企业提供最新的技术。Google的Cloud Text-to-Speech服务协助我们提供给客户他们所期待的自然人声。」━思科认知协作技术长 Tim Tuttle

Dolphin ONE Jason Berryman指出:「Calll by Dolphin ONE的电信平台在几??全球各地都能提供使用者多重设备的连接服务。我们将Cloud Text-to-Speech工具与我们的产品结合,为顾客能体验到最自然的语音客服。透过使用Google Cloud的机器学习工具,我们能即时将最新科技提供给我们的使用者。」

關鍵字: DeepMind  Google 
相关产品
英飞凌雷达技术助力Google Pixel 4实现手势控制功能
经济部推动「高中职生AI扎根系列活动」 偕同微软与Google培育高中职生
Microchip云端物联网核心开发板几分钟内将PIC MCU应用连接到Google Cloud
Fortinet安全织网支援Google云端平台 提供混合云环境安全防护
Google帐户让使用者获得更高的透明度、更易掌控
  相关新闻
» 工研院O-RAN RIC研发生态系研讨会 台日共创5G专网新契机
» Lumens 捷扬光电正式推出全新 4K 解码器,将 Dante 视讯导入会议室应用
» 昕力资讯展现台湾科技实力 叁与台湾、波兰卫星应用合作发展MOU
» 电信服务调查:云端服务及AI未来贡献 6年将提升全球GDP逾数兆美元
» 智慧校园 ICT+AI 把关 7-11未来超商X-STORE 8启动
  相关文章
» 从能源?电网到智慧电网
» 以无线物联网系统监测确保室内空气品质
» VSAT提高卫星通讯灵活性 驱动全球化连接与数位转型
» 智慧制造移转错误配置 OT与IT整合资安防线
» AI时代常见上网行为的三大资安隐??

刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK8CBA5T62SSTACUKM
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: [email protected]