AlphaGo团队出新款AI，像素级模仿人类讲话--中关村多媒体创意产业园官方网站-中关村国家自主创新示范区专业科技园┆中关村博雅留学人员创业园┆首批文化科技园区和孵化器┆中关村海外人才创业园┆北京多媒体产业基地┆多媒体企业孵化器┆北京市海淀区文化创意产业协会副会长单位┆中关村海淀专业园联盟发起单位┆北京多媒体行业协会理事长单位┆Zhongguancun Multimedia Creative Industry Park┆留学人员创业园┆高新技术科技园区

媒体报道

AlphaGo团队出新款AI，像素级模仿人类讲话

http://www.bjmmedia.cn 发布日期：2016-09-14 中关村多媒体创意产业园关注度：
http://www.bjmmedia.com.cn

谷歌的人工智能部门DeepMind之前帮助AlphaGo击败围棋大师。现在DeepMind透露，它已经研发了新款AI，这款被称为WaveNet的AI，是一种深层神经网络，可以通过对人类语音进行实时采样形成原始音频波形，从而最终创造一些机器所能达到的，最接近于真人的语音。

英语用户和普通话用户测试发现，WaveNet性能已经比现有的文本到语音系统更好，但仍然缺乏让用户认为是真人讲话的说服力。WaveNet，采用真人语音输入，但学习和模仿这些人的讲话，WaveNet可以捕捉不同用户的声音，并且模拟他们的身份和说话语调。

同样令人印象深刻的是，WaveNet甚至可以模拟人类说话时候嘴部气流产生的杂音，以及模拟语调，情感和口音。

彭博报道，在英文和中文进行的盲测中，听者普遍认为，相比谷歌任何现存的运用不同科技手段的文字-语音转换程序，WaveNet生成的语音都更加自然。

据公司相关人员透露，WaveNet还没被应用到谷歌任何产品中。该系统需要强大的计算能力来合成语音，所以近期之内应该不会被用到“现实场景”中去。

DeepMind是一家专注于人工智能的公司，于2010年成立于伦敦，并在2014年被谷歌以4亿英镑(约合5.32亿美元)收购。

WaveNet所采用的技术和现存人工声音合成器有根本性的不同。WaveNet通过的是实际产生的声波而非语言本身，将文本转换成声音。该系统通过神经网络来模拟人脑，直接用音频的原始波形建模。这背后来自每秒高达16000个样本波形的强大数据库的支持。此外，每一个样本都需要基于之前的样本来建立对于声波样式的预测。DeepMind的工作人员表示，“这确实是非常有挑战性的任务。”

很多现有的人工声音合成器多是先录制大量的人声语音片段，建立一个大型数据库，并将这些语音片段重新组合成完整的话语。这样生成的声音接近真实人声，但并不完全自然。而缺点在于如此产生的声音并不能被简单地更改。据DeepMind透露，另外一些系统可以完全电子化地生成声音，这样尽管声音可简单地被操作修改，但并不接近真实的人声。

在人工智能里，尽管人们似乎一直以来对语音识别更有兴趣，而冷淡了计算机语音合成这一冷门的领域。但各大科技公司都不放过应用越来越普遍的人机交互。亚马逊、苹果、微软和谷歌的母公司Alphabet都投入了个人数字化助手同客户进行互动。

今年早些时候，DeepMind的人工智能AlphaGo击败了韩国围棋大师李世石，引起了人们广泛的关注。谷歌一直都对将如何运用其人工智能技术守口如瓶，称已经利用这些技术降低了其数据中心40%的电量，剩下的钱足以让谷歌收购来自伦敦的DeepMind。谷歌还表示，DeepMind使得从YouTube到谷歌广告产品的一系列服务得到了明显的改善。

摘声：

“围绕内容、用户平台、变现三个纬度趋势预判，我们认定内容和制作已经进入了全民参与的时代。”

——古永锵

“其实华为的成功很简单，没有什么复杂的道理，我们就是正正经经的为客户服务，我们眼睛就是看到客户口袋里面的钱。你能不能给我点钱？你能不能再给我点钱？你能不能多给我点钱？我们真心为客户服务，客户就把口袋里面的钱掏出来给我们。我们没有什么复杂的价值观，特别是小公司，不要这么多方法论，认认真真地把豆腐磨好就有人买。”

——任正非

（来源：钛媒体）

上一篇：市值破万亿之争：Alphabet为何被看好？
下一篇：“高精尖”人才需要什么样的制度土壤