1987WEB视界-分享互联网热点话题和事件

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

【大赛推荐工具】AI语音——帮你实现声文互转的智能工具

1987web2023-08-05人工智能AI79

AI语音

帮你实现声文互转

以音视频形式展现作品,分享作品理念是设计大赛中的重要环节,大赛组委会梳理了一系列AI语音类工具和资源,助力参赛者通过音视频更有效地展现才华与创意。本期小编将根据AI语音的不同功能进行分类,推荐6款包含语音识别以及语音合成的工具。推荐资源均为开源免费或存在免费额度,参赛者可基于创作需求,充分发挥创造力快速实现音视频的创作。

点击文末阅读原文跳转到设计大赛官网,可获取本期AI语音类工具资源的下载以及教程链接。

讯飞听见

实现音视频文件的快速转写

1

推荐理由

讯飞听见操作简单,具有一定免费额度,国内用户可快速上手使用。该工具依托自然语言处理、声纹识别、语音识别等技术,形成了以转文字、拍字幕、AI硬件等为核心的服务平台,功能众多,准确度较高,有利于提高学习以及办公效率。

2

使用技巧

新用户可领取30~60分钟不等的免费额度,其后根据界面指示操作即可。例如转文字功能,用户上传音/视频后,选择音频语言(包含国内方言、少数民族语言等)、出稿类型、专业领域后即可提交转写,还可以添加关键词,使转写能够结合语境、提高识别准确率。

3

下载方式与教程

浏览器检索讯飞听见 转文字,可访问官网进行体验。

Otter.ai

英文会议实时转录小助手

1

推荐理由

Otter.ai是一款具有多人语音识别、音频转录等功能的工具,具有一定的免费额度,该工具能够帮助用户更轻松地转录英文会议(例如ZOOM)的内容,并自动生成笔记。由于该工具依托自然语言处理和机器学习技术来改进文本识别质量,因此具有延迟度低,准确率高的特点。

2

使用技巧

用户注册后可以领取每个月300min的免费额度,之后可进入home界面进行操作。界面右侧为日历,用户可以通过Google Calendar置入会议信息,Otter会议助手将自动捕获屏幕,与日历活动邀请对象共享笔记。用户也可以手动操作:粘贴会议URL、实时录音或导入音视频文件后进行转写,在我的对话处获得相关记录。

3

下载方式与教程

浏览器检索Otter.ai,可访问官网进行体验。

Whisper

通用语音识别模型助力语音转录与翻译

1

推荐理由

Open AI的Whisper提供的自动语音辨识(Automatic Speech Recognition,ASR)模型用于语音辨识与翻译,其核心功能为语音识别,能够以较高的准确率帮助用户更快捷地将会议、录音转化为文本,也能进行翻译并自动生成字幕。Whisper还支持本地运行,无需联网即可进行语音识别。

2

使用技巧

用户需要配置环境并进行安装,之后可借助Whisper WebUI进行相关操作。用户需要选择模型和语言,粘贴音频URL或从电脑端/手机端上传音频,之后调节语音活性检测(Voice Activity Detector,VAD)的相关参数(建议大于10min的非英文音频选择Silero VAD),提交后即可等待文本以及三种字幕文件的生成。

3

下载方式与教程

GitHub中检索whisper可获取下载地址,内含安装教程,该页面下More examples一栏中的Show and tell含其他使用教程。

Speech Studio

通过自然语音为内容创作注入生命力

1

推荐理由

Microsoft Azure的Speech Studio为用户提供生成自然语音生成的应用和服务。通过自定义真实AI语音生成器,能够满足用户生成具有不同风格、不同情感语调的语音的需求,帮助用户创作出更具准确性、表现力以及更个性化的声音输出。

2

使用技巧

用户首先创建Azure账户,需要提供VISA或Master Card的相关信息,创建完成后才能免费试用相关功能。用户打开Speech Studio界面,点击音频内容创建后,选择文本转语音以及相关语音库进行创作。用户也可以调整发音、中断、语调等内容改善音频输出效果,最后可以导出优化调整后的音频。

3

下载方式与教程

浏览器检索Speech Studio,可访问官网进行体验,官网界面中的如何开始使用含使用教程。

Murf.ai

一款智能的文本到语音转换工具

1

推荐理由

Murf.ai界面简单直观,操作便捷,且支持语言(包含口音)众多,能够提供逼真自然AI语音。用户通过对重音、发音速度等进行微调能够合成具有更高质量的音频,进一步提高音视频作品的制作水平。该工具可以在教育、营销、动画制作等领域广泛应用。

2

使用技巧

用户注册时无需填写信用卡信息,但可以免费体验的功能与额度有限。在进行文本语音转换时,用户可以输入/粘贴文本或上传文本文档上传到Murf Studio,再从众多语言和口音中选取适合的AI语音,用户可使用语音自定义调整音调、速度等,在时间轴处对音视频进行微调。用户还可以使用Murf的音乐库添加配乐,进一步完善音视频的内容。

3

下载方式与教程

浏览器检索Murf,可访问官网进行体验,官网界面中Products下的Text to Speech含介绍以及简单使用教程。

Inworld.ai

帮助你创建AI角色,实现关于角色背景的

语音互动

1

推荐理由

该网站能够创建用于游戏和沉浸式体验的AI角色,创建完成后用户可以在工作室中进行文本到语音的互动,也可以借助Unity和UE等通用引擎的综合包进一步创作,将AI角色部署到游戏和虚拟世界中进一步互动体验。教育环境下,可应用于历史、语文等学科名人生平事迹的学习,或在学习空间中实现AI学伴的设定。

2

使用技巧

用户注册登录后即可免费试用。用户能够与平台方提供的不同个性的AI角色进行聊天体验,还能够创建属于自己的AI角色。创建角色时,用户需要确定名称并输入核心描述,之后可以通过调试参数等方式为其设计身份、个性、声音和对话风格等,使之自动形成高级NPC行为和无脚本对话。

3

下载方式与教程

浏览器检索Inworld.ai,可访问官网进行体验,使用界面中的Documentation含使用教程。

扫描二维码或登录大赛官网(http://gcd4fe.bnu.edu.cn/或点击阅读原文)报名参赛,更多赛事详情请关注官网最新信息。

北京师范大学智慧学习研究院(简称研究院)是一个综合性科学研究、技术开发和教育教学实验平台,由北京师范大学设立,并与网龙华渔联合共建。研究院专注于研究信息化环境下的学习规律,打造支持终身学习的智慧学习环境和平台,以切实支持数字一代学习者多样性、个性化和差异化的学习。

北京师范大学智慧学习研究院公众号

为您提供研究院的最新资讯与科研动态。研究院广纳贤才,加入我们请发简历至邮箱:smartlearning@bnu.edu.cn