Qwen2.5-Omni : Révolution dans la perception multimodale

Le 27 mars 2025, l’équipe de Qwen a lancé Qwen2.5-Omni, un modèle révolutionnaire d’intelligence artificielle multimodale. Ce modèle, capable de traiter simultanément le texte, les images, l’audio et la vidéo, offre des réponses en temps réel grâce à sa technologie avancée de synthèse vocale naturelle.

Conçu pour une perception multimodale complète, Qwen2.5-Omni gère divers types d’entrées de manière fluide, générant du texte et des réponses vocales naturelles instantanément. Les utilisateurs peuvent tester ce modèle via Qwen Chat, où il est disponible sous la désignation Qwen2.5-Omni-7B.

Les caractéristiques clés de Qwen2.5-Omni incluent l’architecture Thinker-Talker, qui permet une perception et une réponse en temps réel à travers différentes modalités. Le modèle utilise un nouvel encodage de position, TMRoPE, pour synchroniser les entrées vidéo et audio.

En termes de performance, Qwen2.5-Omni se distingue dans les tâches d’intégration multimodale et excelle dans les tâches spécifiques à une seule modalité, telles que la reconnaissance vocale, la traduction, la compréhension audio, le raisonnement d’image, la compréhension vidéo et la génération de la parole. Ces performances surpassent celles de modèles à modalité unique de taille similaire et de certains modèles fermés comme Qwen2.5-VL-7B et Gemini-1.5-pro.

Qwen2.5-Omni est disponible sur diverses plateformes, dont Hugging Face, ModelScope, DashScope et GitHub, avec une documentation technique accessible via leur publication. Les utilisateurs peuvent également explorer ses capacités interactives à travers une démo et participer à des discussions sur Discord.

L’équipe de Qwen est impatiente de recevoir des retours sur ce modèle et d’observer les applications innovantes qui en découleront. Les objectifs futurs incluent l’amélioration de la compréhension collaborative audio-visuelle et l’intégration de nouvelles modalités pour atteindre un modèle véritablement omni.