维护啦：提供专业网站维护服务，以实惠、方便、快捷著称！一次服务，终身朋友！

网站维护热线：

网站维护：

网站建设：

当前位置：网站维护 > 行业动态 > 行业动态

微软的新人工智能VALL-E可以用3秒的音频模拟任何人的声音

来源：网站维护

作者：www.weihula.com

人气：

2023-1-11


	内容提示：微软研究人员宣布了一种名为VALL-E的新文本转语音人工智能模型，当给它一个三秒钟的音频样本时，它便可以模拟一个人的声音。

微软研究人员宣布了一种名为VALL-E的新文本转语音人工智能模型，当给它一个三秒钟的音频样本时，它便可以模拟一个人的声音。一旦它学会了一种特定的声音，VALL-E就可以合成这个人说任何话的音频——而且是以一种试图保留说话者的情绪语调的方式。

这是文本语音系统朝着更自然的声音迈出的重要一步。它的创造者推测，VALL-E可用于高质量的文本转语音应用、语音编辑，在这种情况下，一个人的录音可以从文本记录中进行编辑和修改（让他们说一些他们原来没有说过的话），当与GPT-3等其他生成性人工智能模型相结合时，还可以进行音频内容创作。

微软称VALL-E为「神经编解码语言模型」，它建立在一项名为EnCodec的技术之上，Meta在2022年10月宣布了这项技术。与其他通常通过操纵波形合成语音的文本到语音方法不同，VALL-E从文本和声音提示中生成离散的音频编解码码。它基本上分析了一个人的声音，通过EnCodec将该信息分解成离散的组件，并使用训练数据来匹配它所「知道」的那个声音如果在三秒钟的样本之外说其他短语会是什么声音。

微软在一个由Meta组建的名为LibriLight的音频库上训练VALL-E的语音合成能力。它包含了6万小时的英语语音，来自7000多名发言者，大部分来自LibriVox公共领域的有声读物。

VALL-E示例网站：https://valle-demo.github.io/

【声明】本文章系本站编辑转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容！


	上一篇：京东科技发布“产业回暖”计划让利数亿元助力中小企业上云
	下一篇：网易与央视网达成合作，搭建网络春晚元宇宙分会场
	返回行业动态

网站维护套餐介绍


	·入门型网站维护服务	申请>>
	·标准型网站维护服务	申请>>
	·经济型网站维护服务	申请>>
	·商务型网站维护服务	申请>>
	·豪华型网站维护服务	申请>>
	·专业型网站维护服务	申请>>
	·订制型网站维护服务	申请>>

网站维护案例


	积木人展览展示
	海德睿工程
	创际门窗
	天津雷公
	利君云商

网站维护知识


	·域名知识	·空间知识
	·网页知识	·程序知识
	·数据库知识	·邮件知识
	·安全知识	·优化知识
	·营销知识	·其他知识

网站维护申请点此进入

反馈意见

返回顶部