AI语音克隆技术引发争议
【今日视点】
◎本报 张佳欣
1970年4月,披头士乐队解散,数百万歌迷们伤心不已。50多年后的今天,人工智能(AI)正在将逝去的记忆复活,重新创作和重新想象披头士乐队的演唱。
AI声音模拟得如此逼真,也引发了一系列伦理和法律问题,甚至导致了电信诈骗的出现。据澳大利亚Insider Guides网站报道,最新报告显示,2022年澳大利亚人因诈骗损失了创纪录的31亿美元。
声音克隆易被骗子利用
在电信诈骗中,骗子用AI软件扫描语音记录并复制,准确率高达99%。他们可以从社交媒体的视频和其他上传音频中提取片段,将其输入AI软件,重现声音并说出不同短语或句子。
澳大利亚悉尼科技大学电气与数据工程学院副教授迪普·阮晋勇表示,AI模型可以将相对较短的语音片段和字符串片段重建为连贯的句子。有些模型和算法只需一分钟甚至更短时间,就能合成一段相当高质量的克隆声音。
阮晋勇表示,先进的AI模型和算法可以很好地合成声音,以至于普通人很难区分克隆的声音和真实的声音。
美国《时代》周刊报道称,几个月前,亚利桑那州的一个家庭以为接到了绑架电话,电话里的声音听起来与亲人的声音别无二致,结果发现这是一个完全由AI制造的骗局。越来越多骗局的出现让人们担心AI可能成为威胁人们的技术,而且这种技术很容易获得。
AI让普通人变歌星
AI声音克隆也扩展到音乐领域,人们用该技术创作出与明星的声音完全相同的歌曲。最近,一位名叫Dae Lims的创作者在社交媒体发布了几首用AI创作的歌曲。
好听哭了!这太美了!一位听众在《New》歌曲下评论道,这首歌是保罗·麦卡特尼2013年的单曲,它在AI的帮助下被重新制作,并由麦卡特尼的朋友、1980年已故的约翰·列侬演唱其中的部分桥段。
类似的例子还有今年4月,国外网友Ghostwriter977用知名说唱歌手Drake和R&B歌手The Weeknd的声音对AI进行训练,模仿两人音乐风格生成了合唱歌曲《我袖子上的心》。这首歌一经发布,便在社交媒体疯传。
我们真的进入了一个新时代。一位听众在评论中回应道,甚至无法分辨什么是合法的,什么是假的。
作曲家、美国斯坦福大学音乐与声学计算机研究中心助理教授帕特里夏·亚历桑德里尼表示,最近大量的AI曲目代表了一项技术的成熟,该技术一直在呈指数级发展,但在过去十年中基本不为公众所关注。这意味着,现在人们可以对AI进行任何方面的训练,但我们不能指望它会取代人类创造艺术和文化的丰富历史。
给音乐行业带来威胁
对于音乐行业来说,AI克隆声音生成音乐的影响是巨大的。随着技术进步,在不久的将来,人们可以利用某款软件很容易地将自己的歌声转换为自己最喜欢的歌手的声音。
事实已经证明,AI对版权界产生了巨大影响。
在《我袖子上的心》案例中,作为两位歌手签约的唱片公司,环球音乐集团(UMG)很快提出了版权主张,并要求从流媒体服务中撤下这首歌曲。
纽约的音乐版权律师马克·奥斯特罗则表示,AI生成的音乐是一个灰色地带。
版权如何界定?什么程度的复制才是合理使用?又怎么阻止其不合理性使用的扩大化?
美国国家音乐出版商协会(NMPA)主席兼首席执行官大卫·伊斯雷特表示,应允许词曲作者和音乐出版商更好地保护他们的作品免受未经授权的使用,这在AI时代将受到前所未有的挑战。
来源: 科技日报
正因为之前一直比较关注智能语音在教育领域的应用这块,所以这一次蹲到了希沃交互智能平板有关AI语音功能的评测时,个人是相当雀跃的。这可是业内AI语音功能进课堂的首秀!试想下,把一个类似于Siri的小机灵带到了课堂,那将是多么有意思的画面!接下来,我们就一一来看希沃交互智能平板的小沃同学,在人工智能进校园第一课上的表现。
打开or关闭软件有条不紊,贴心小助教在线待命
打开希沃白板、打开暴风影音、关闭视频…… 在接连对小沃同学发出上述语音指令后,其未出现任何的卡顿情况,均快速完成了这些课堂常见的操作。并且在教室的多个位置测试,小沃同学也保持身手敏捷。要知道在课堂上,老师对视、听、说等教学应用软件的使用、切换操作是相当高频的,这个时候的小沃同学有点像一位反应敏捷、任劳任怨的助教,将老师从繁琐费时的教学工具操作中解放出来。
AI语音进课堂:希沃交互智能平板AI语音功能评测

语音识别技术是指机器自动将人的语音转成文字的技术,又称Automatic Speech Recognition,即ASR技术。
语音识别是近几年来发展最快的技术之一,随着数据处理技术的进步以及深度学习技术的不断发展,语音识别技术得到了质的飞跃,已广泛运用于智能手机、语音智能交互等各个领域。
目前常用的语音识别技术方法主要有四种:(1)基于语言学和声学的方法(2)随机模型法(3)利用人工神经网络的方法(4)概率语法分析,其中最主流的方法是随机模型法,如动态时间规整(DTW),隐马尔科夫模型(HMM)理论和矢量量化(VQ )技术等。

语音合成(Text-To-Speech)是计算机将机器内部的文字信息转变为可听懂且流利的语言输出的技术。简单来说,语音识别技术是人对机器的输入,而语音合成则是机器的输出过程。

在人工智能领域,AI语音是最重要的入口之一。智能音箱并不是唯一的语音入口,语音交互能力正逐步向物联网终端全面扩散。语音交互作为人与机器进行交互方式的第三代,相比于前两代(第一代通过按键来实现交互,第二代通过触摸屏来交互)将会更加的智能与便利。
未来在智能家居领域,AI语音被视为最适用的人机交互入口。
远场语音识别应用方兴未艾,行业龙头抢占先机前景广阔。语音技术的应用主要分为近场识别以及远场识别。目前主流所运用的语音技术主要是近场识别技术如手机智能语音等,技术相对成熟。
远场识别由于受到距离、噪音等因素的影响,是现阶段语音技术的挑战方向,包括智能家居、智能车载语音、智能音箱等。
AI语音的应用场景非常丰富,市场前景光明。未来,AI语音主要将运用在如智能家居、智能车载、智能客服、智能金融、智能教育及智能医疗等领域。
据中商产业研究院发布报告称,全球AI语音市场规模将从2018年的80亿美元增长至2024年的227亿美元。