加拿大初创公司Dessa开发了一个语音合成系统RealTalk,它不同于以往基于语音输入学习人类语音的系统。它可以仅基于文本输入生成完美接近真人的声音。然而,出于伦理和社会方面的考虑,Dessa没有公布该项目的研究细节、模型和数据集。
加拿大初创公司Dessa最近发布了一项新的研究:使用其新开发的RealTalk系统,仅使用文本输入就可以生成完美接近真人的声音。它的demo展示了美国著名脱口秀喜剧演员兼主持人乔罗根的声音(乔罗根是节目中让马斯克尴尬的主持人)。
所有音频都是由机器学习模型使用文本输入生成的。音频包括诸如呼吸声之类的词。嗯和啊还有噪音。
在文章中,乔罗根使用他通常的语气和风格谈论黑猩猩曲棍球队,快速绕口令,甚至模拟一种情况乔罗根被人工智能研究人员困在一台机器里.
乔罗根自己听了模拟音频后说:它它既吓人又准确。一些推特用户评论说你应该接受艾乔罗根的采访,lol .
乔罗根发来消息:我的立场是惊讶地耸肩摇头,然后接受。未来越来越陌生,朋友们。」
复制罗根的项目的声音是由Dessa公司的机器学习工程师哈希姆卡希姆、乔帕勒莫和雷汉尼马马组成的团队创造的。他们使用了一个文本到语音的深度学习系统RealTalk,该系统可以仅基于文本输入生成逼真的语音。
不是很疯狂吧?Alex Krizhevsky,Dessa的首席机器学习架构师(没错,就是那个没错,他是AlexNet的发明者)认为这是人工智能领域我见过的最酷最恐怖的事件之一。与理论上40100年后才会出现的奇点不同,语音合成已经成为现实。可能大家和他想的一样吧。
这是什么意思?会产生什么社会影响?
想想看,Dessa的工程师们合法地创造出了乔罗根的逼真复制品,这是多么不可思议。艾一戈的声音。而且,这个模型可以复制任何人的声音,只要能获得足够的训练数据。
作为构建现实世界应用的AI从业者,Dessa也考虑到了这一点:这项技术会带来什么影响?
显然,语音合成等技术的社会影响是巨大的。会影响到每一个人:不管是不是有钱,不管是企业还是政府。
目前需要技术知识,需要原创,需要计算能力,需要数据,才能创造出像RealTalk这样性能良好的模型。所以,不是谁都能意识到的。但在未来几年(甚至更短的时间)内,这项技术可能会发展到只需要几秒钟的音频就可以再现世界上任何人的声音。
这太可怕了。
如果这项技术落入坏人之手,可能会发生以下情况:
垃圾邮件发送者冒充你的母亲或情人获取你的个人信息;
以欺凌或骚扰为目的冒充他人;
冒充政府官员进入绝密区域;
利用政客"音频深度假操纵选举或引发社会骚乱;
……
除了负面影响,Dessa还考虑了这项技术的积极方面。
如果正确使用这项技术,那么:
和语音助手说话感觉很自然,就像和朋友聊天一样。
您可以自定义语音应用程序。比如健身app里鼓励人们运动的个性化文字,就出自阿诺德施瓦辛格。
为那些只能通过文本到语音转换设备进行交流的人提供了一种交流方式,例如那些使用卢格里克的疾病(ALS)。
自动为任何语言的任何媒体文件配音。
牛津大学人类未来研究所最近的一份报告《The Malicious Use of Artificial Intelligence》中提到,人工智能领域的进步不仅扩大了现有的威胁,还带来了新的威胁。
德萨没有对于如何从伦理的角度构建这项技术,我还没有完全给出答案。但在未来几年内,这种技术必然会建立并应用于现实世界。因此,除了提高认识和承认问题,Dessa表示希望这项研究可以开启关于语音合成技术的对话和讨论。
大家应该知道随着语音合成技术的发展可能会发生什么。正如我们所看到的,当Deepfake技术出现时,公众意识和对话促使政府、决策者和立法者迅速采取行动,制定对策。
Dessa在相关博客中表示:作为一家应用型人工智能公司,Dessa的一个重要职责就是要明白在研究领域探索AI和在现实中应用AI之间存在着巨大的差异。为了负责任地对待这项技术,他们认为在开放这个项目的源代码之前,公众应该首先意识到语音合成模型的影响。
因此,Dessa目前并未透露研究细节、模型或数据集。
德萨表示,将发表博客介绍RealTalk的工作原理和构建过程。
标签:语音Dessa技术