维护啦：提供专业网站维护服务，以实惠、方便、快捷著称！一次服务，终身朋友！

网站维护热线：

网站维护：

网站建设：

当前位置：网站维护 > 行业动态 > 行业动态

阿里巴巴推大规模音频语言模型Qwen-Audio

来源：网站维护

作者：www.weihula.com

人气：

2023-11-23


	内容提示：阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架，成功解决了有限的预训练音频模型面临的多样化任务的挑战。

阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架，成功解决了有限的预训练音频模型面临的多样化任务的挑战。

相比之前专注于语音的工作，Qwen-Audio不仅包含人类语音，还涵盖了自然声音、音乐和歌曲，实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色，而无需进行特定任务的修改。

Qwen-Audio的多任务框架有助于减轻干扰，实现了在基准任务上的显著性能。Qwen-Audio-Chat作为扩展，不仅支持多轮对话，还适用于各种音频中心场景，展示了在大规模音频语言模型中全面的音频交互能力。

项目地址:https://github.com/qwenlm/qwen-audio

尽管大规模语言模型在通用人工智能方面表现出色，但它们缺乏对音频的理解。Qwen-Audio系列的推出填补了这一空白，将预训练扩展到30个任务和多种音频类型。

Qwen-Audio系列的训练方法分为两种:Qwen-Audio采用多任务预训练方法，优化音频编码器同时冻结语言模型权重;相反，Qwen-Audio-Chat采用监督微调，优化语言模型同时固定音频编码器权重。这一训练过程包括多任务预训练和监督微调，使Qwen-Audio-Chat具有多样的人际交互能力，支持从音频和文本输入中的多语言、多轮对话。

Qwen-Audio在各种基准任务上表现出色，明显优于没有特定任务微调的对照组。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终超越基线，同时在CochlScene、ClothoAQA和VocalSound上取得了最先进的结果，展示了其在挑战性音频任务中的有效性和能力。

Qwen-Audio系列未来的探索方向包括扩展不同音频类型、语言和特定任务的能力。通过优化多任务框架或探索替代的知识共享方法，可以解决协同训练中的干扰问题。

研究人员还计划通过不断更新基于新基准、数据集和用户反馈的内容，提高通用音频理解水平。Qwen-Audio-Chat将进一步优化以符合人类意图，支持多语言互动，并实现动态多轮对话。

【声明】本文章系本站编辑转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容！


	上一篇：分享开发使用电商网站的优势
	下一篇：建设网站的目的及对网页设计的影响
	返回行业动态

网站维护套餐介绍


	·入门型网站维护服务	申请>>
	·标准型网站维护服务	申请>>
	·经济型网站维护服务	申请>>
	·商务型网站维护服务	申请>>
	·豪华型网站维护服务	申请>>
	·专业型网站维护服务	申请>>
	·订制型网站维护服务	申请>>

网站维护案例


	积木人展览展示
	海德睿工程
	创际门窗
	天津雷公
	利君云商

网站维护知识


	·域名知识	·空间知识
	·网页知识	·程序知识
	·数据库知识	·邮件知识
	·安全知识	·优化知识
	·营销知识	·其他知识

网站维护申请点此进入

反馈意见

返回顶部