2025年9月24日,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列。该模型在36个音视频基准测试中22项达到SOTA,32项创下开源模型最佳表现,语音识别与音频理解能力媲美Gemini2.5-Pro。Qwen3-Omni支持全模态输入输出,通过混合单模态与跨模态数据训练,首次实现音频、音视频强性能的同时保持文本与图像能力稳定。模型具备类似人类的‘听’‘说’‘写’多模态交互能力,标志着多模态AI技术的重要进展。
本文来自投稿,不代表AI界Plus立场,如若转载,请注明出处:https://www.aijieplus.com/1129.html