OpenAI a lancé son nouveau mode vocal avancé de ChatGPT, offrant des réponses audio hyperréalistes. Cette version alpha est disponible pour un groupe restreint d'utilisateurs de ChatGPT Plus.
Une technologie vocale impressionnante
En mai 2024, OpenAI a présenté pour la première fois la voix de GPT-4o. Cette fonctionnalité a surpris par sa rapidité et sa ressemblance troublante avec une voix humaine. D'ailleurs, la voix ressemblait à celle de Scarlett Johansson, actrice célèbre. Toutefois, Johansson a rapidement réagi en refusant l'utilisation de sa voix et en engageant un avocat. OpenAI a nié ces allégations mais a retiré la voix incriminée de la démonstration. En juin, OpenAI a reporté la sortie de ce mode pour améliorer ses mesures de sécurité.
Maintenant, l'attente touche à sa fin. La version alpha de GPT-4o sera progressivement déployée pour les utilisateurs de Plus cet automne. Cependant, les fonctionnalités de vidéo et de partage d'écran présentées ne sont pas encore incluses. Ainsi, les utilisateurs premium découvriront le mode vocal avancé de ChatGPT.
ChatGPT peut désormais parler et écouter
Le mode vocal actuel de ChatGPT utilise trois modèles distincts. Un modèle convertit la voix en texte, GPT-4 traite l'invite, et un troisième modèle génère la voix de réponse. Mais GPT-4o simplifie ce processus. Ce modèle multimodal traite ces tâches sans l'aide de modèles auxiliaires, réduisant considérablement la latence des conversations. De plus, GPT-4o détecte les intonations émotionnelles, comme la tristesse ou l'excitation.
Les utilisateurs de ChatGPT Plus pourront bientôt tester cette nouvelle fonctionnalité. OpenAI surveillera de près l'utilisation de la nouvelle voix, informant les utilisateurs alpha par alerte dans l'application et par e-mail.
Sécurité et éthique
Depuis la démonstration, OpenAI a testé les capacités vocales de GPT-4o avec plus de 100 membres externes. Ces tests incluaient 45 langues différentes. Un rapport sur ces efforts de sécurité sera publié début août. OpenAI limite les voix de ChatGPT à quatre voix prédéfinies : Juniper, Breeze, Cove, et Ember, créées en collaboration avec des comédiens.
OpenAI prend des mesures pour éviter les controverses liées aux deepfakes. En janvier, la technologie de clonage de voix d'ElevenLabs a été utilisée pour imiter le président Biden, causant une tromperie lors des primaires du New Hampshire. Pour éviter cela, ChatGPT ne peut pas imiter d'autres voix et bloquera les sorties non conformes aux voix prédéfinies.
Prévenir les violations de droits d'auteur
OpenAI a introduit des filtres pour bloquer les demandes de création de musique ou de fichiers audio protégés par des droits d'auteur. En effet, les modèles audio comme GPT-4o ont suscité de nouvelles préoccupations juridiques. Les maisons de disques, en particulier, ont déjà poursuivi les générateurs de chansons IA comme Suno et Udio. OpenAI souhaite ainsi éviter les litiges et garantir une utilisation éthique de sa technologie.
OpenAI continue d'avancer dans l'innovation vocale, tout en tenant compte des enjeux éthiques et légaux. La nouvelle voix hyperréaliste de ChatGPT promet de transformer les interactions utilisateur tout en respectant les normes de sécurité et de propriété intellectuelle.
- Partager l'article :