L’intelligence artificielle vole votre voix en trois secondes

L’intelligence artificielle ressemblera de plus en plus à des personnes réelles, des humains en chair et en os. Après l’algorithme ChatGPT, qui converse de manière fluide et crédible avec les utilisateurs, après Dall-E, qui à partir d’un simple texte crée une image telle qu’elle est décrite, Microsoft annonce maintenant le nouveau bot Vall-E qui, en trois secondes seulement, est capable de reproduire le timbre et la manière de parler d’une personne en écoutant sa voix.

Vall-E, l’IA veut devenir de plus en plus humaine

Microsoft appelle cette nouvelle technologie basée sur l’intelligence artificielle et un “modèle linguistique de codec neuronal”. Vall-e, en fait, est dérivé d’EnCodec, un codec audio développé par Meta en 2022 et basé sur l’apprentissage automatique. La véritable différence de Vall-E par rapport aux autres méthodes de synthèse vocale est qu’il est capable de générer du son à partir de petits échantillons de voix.

Dans un document publié par Microsoft, les développeurs de Vall-E décrivent en détail le remarquable processus d’entraînement de l’algorithme utilisé. Ils ont pu s’appuyer sur 60 000 heures de discours en anglais provenant de plus de 7 000 personnes différentes dans la bibliothèque audio LibriLight de Meta.

Pour que Vall-E réussisse à imiter la voix désirée qui lui est fournie, celle-ci doit encore être similaire à l’une de celles de la base de données utilisée pour son entraînement. S’il le trouve, l’algorithme est alors capable d’imiter le timbre de la voix et la façon dont parlerait une personne ayant les mêmes caractéristiques vocales en lisant un texte. Et comme mentionné, tout cela en seulement trois secondes.

Vall -E préserve non seulement le timbre de la voix et le ton émotionnel de l’orateur, mais peut également reproduire l'”environnement auditif” de l’échantillon audio. En bref, si quelqu’un réécoute l’imitation d’un appel téléphonique effectué avec cette technologie, le résultat est très similaire à une véritable conversation téléphonique.

Les risques de Vall-E

Si les applications de Vall-E dans le domaine du jeu ou du divertissement sont certainement intéressantes, Microsoft sait qu’au niveau éthique, cette révolution pourrait créer de sérieux problèmes. En effet, la société de Redmond a décidé de garder le code secret, en raison des risques liés à la technologie de l’IA et à sa capacité à imiter les voix.

En effet, nous ne serions pas surpris que, si ce code était accessible à tous, quelqu’un l’utilise pour se faire passer pour quelqu’un d’autre à des fins illicites : attribuer de fausses déclarations à un politicien, rendre des vidéos deep-fake encore plus réalistes, déguiser la voix d’un fraudeur au téléphone, et bien plus encore.

En fait, anticipant le risque de ces problèmes, les développeurs du projet mentionnent la possibilité de développer un système de détection pour indiquer si un audio a été généré par Vall-E ou provient directement de la personne et de sa voix réelle.

Maxime Le Moine
Maxime Le Moine
Grand amateur et passionné de technologie, j'ai un faible pour les machines en tout genre. Je vous partage les nouveautés tech pour vous permettre de vous garder à jour dans l'évolution qui ne s'arrête jamais!

Hot news

A ne pas manquer