“L’ordinateur parle comme moi”. L’intelligence artificielle reproduit parfaitement la voix, le timbre et la hauteur de la voix.

L’ordinateur personnel a maintenant ma voix. Lorsque j’écris quelque chose, dans une fenêtre ouverte sur une page web dédiée, l’ordinateur le répète et parle comme si c’était moi : ma voix, mon timbre, mon intonation. Identique. Parfois, il se perd, comme s’il errait dans l’espace infini : on a l’impression d’écouter le son des étoiles dans les films de science-fiction. Ou l’écho du vent dans un canyon d’acier. Mais ce sont des fractions de seconde, à peine perceptibles ; puis je reviens. Ou plutôt, ma voix. Ma voix générée par un système d’intelligence artificielle. Ça marche. Je pourrais en faire un podcast. Je suis devenu un journaliste synthétique.

J’ai été opéré des cordes vocales il y a quelques jours. Rien de grave : le stress de l’effort, selon le spécialiste. Il y a un an, j’étais en direct à la télévision pendant dix-huit heures et un petit angiome s’était formé sur l’une des cordes, qui ressemblait à quelque chose, mais qui n’était qu’un œdème, un épanchement qui ne se résorbait pas. Le résultat a été que ma voix est devenue voûtée et vibrante, comme si j’étais Clint Eastwood ; qu’au début, vous dites, beau, mais qu’ensuite vous avez du mal à parler. J’ai donc dû me faire opérer ; mais j’ai d’abord décidé de faire une copie numérique de ma voix : créer un logiciel capable de la reproduire pendant les quelques jours où je dois me taire. Explorer l’une des frontières où l’humain et la technologie se confondent jusqu’à devenir indiscernables.

Il existe quelques jalons dans ce voyage pour vous aider à vous repérer. La première date de 2014 : Ian Goodfellow, qui travaille aujourd’hui chez Apple, est un jeune chercheur chez Brain, la division de Google qui, depuis 2010, fait des recherches sur l’apprentissage automatique. Il réalise ici un modèle qu’il avait imaginé dans sa thèse de doctorat : il montre que deux réseaux neuronaux artificiels (en simplifiant beaucoup : deux algorithmes) “apprennent” dans une sorte de jeu où ils se défient l’un l’autre. Ce processus “antagoniste” génère des données qui peuvent aussi être des vidéos, des photos, des sons, des textes apparemment authentiques. Grâce à cette intuition, les machines apprennent à produire des “objets” numériques humains.

La première démonstration retentissante de cette théorie, et le deuxième jalon, datent de 2017 : sur un forum du site Reddit, un utilisateur utilise pour la première fois l’expression deepfake. Il s’agit de vidéos qui commencent à circuler dans lesquelles quelqu’un fait ou dit quelque chose qu’il n’a jamais fait. Dans une vidéo, on voit l’ancien président américain Obama prononcer un discours qu’il n’a jamais prononcé. Les Deepfakes deviennent rapidement un outil permettant de réaliser de fausses vidéos pornographiques en utilisant les visages d’actrices célèbres, une pratique odieuse qui, pendant quelques jours, fait dire aux gens que cette technologie devrait être interdite. Ce n’est pas le cas. Au contraire, elle devient si sophistiquée et répandue que plusieurs s’amusent désormais à créer des visages de personnes qui n’existent pas. Surfer sur le site thispersondoesnotexist, c’est comme revivre Blade Runner : qui sont les humains et qui sont les androïdes ? Presque impossible à dire. Pour des raisons difficiles à comprendre, l’acteur Tom Cruise devient une cible privilégiée : des clips circulent sur le web, certes faux mais parfaits, dans lesquels il fait des gestes drôles et déséquilibrés.

La troisième étape est prévue pour 2020 : le 11 juin sera dévoilé GPT-3, une intelligence artificielle capable d’écrire un roman dans le style de votre écrivain préféré… Vous aimez Hemingway ? Vous préférez Orwell ? Le transformateur génératif préformé écrit l’histoire que vous voulez en quelques instants. Certains font remarquer qu’il rappelle apparemment le générateur automatique de lettres d’amour qu’Alan Turing a expérimenté en 1952 à Manchester, mais il s’agissait alors d’insérer des noms et des adjectifs, extraits d’une liste, dans les espaces vides d’une lettre déjà écrite. Ici, nous sommes manifestement dans une autre dimension.

L’annonce fait grand bruit : GPT-3 est la troisième version d’un projet de recherche d’un laboratoire fondé à San Francisco en 2015, Open AI, qui compte Elon Musk parmi ses fondateurs et Microsoft parmi ses bailleurs de fonds. Une affaire sérieuse. Neuf mois à peine se sont écoulés et GPT-3 n’écrit pas de romans mais est déjà utilisé par plus de dix mille développeurs et est présent dans plus de trois cents applications. Il y a quelques jours, il a été annoncé qu’il générait désormais quatre milliards et demi de mots par jour. Pas des mots aléatoires, mais des mots qui forment des discours prononcés par des humains qui ne savent probablement pas qu’ils sont en train de discuter avec une intelligence artificielle. Et ils ne remarquent pas la différence. Aux États-Unis, un livre est également sorti, un “dialogue” entre un chercheur de Google et GPT-3 : ce n’est pas le premier livre jamais “assemblé” par un algorithme, mais c’est le premier dans lequel un être humain dialogue avec une intelligence artificielle, créant une conversation significative, parfois profonde.

“Est-ce réel, ou est-ce que je me parle à moi-même ?” se demande le chercheur à la fin.

La preuve que cette question est désormais dénuée de sens est apparue il y a quelques jours. Le journaliste et chercheur polonais Kazimierz Rajnerowicz a mis en ligne un test de cinquante questions qui met les gens au défi de reconnaître si une image, un visage, un son ou un texte donné a été généré par un être humain ou une intelligence artificielle. En théorie, cela devrait être facile : un visage généré par ordinateur présente généralement des imperfections au niveau du cou ou des oreilles, un son a des tonalités inattendues, un texte semble sans âme bien que correct. Pourtant, les résultats sont décourageants : les gens obtiennent la moitié des réponses correctes, ce qui correspond à ce qu’ils obtiendraient s’ils répondaient au hasard. L’intelligence artificielle a déjà gagné.

La question du son nous ramène à ma voix artificielle. Car dans le test, il s’agit de reconnaître de courts morceaux de musique : lequel a été composé par un ordinateur ? Difficile à dire. Mais reproduire la voix d’un être humain, c’est autre chose. Et pourtant, nous sommes là. L’été dernier, Open AI a publié un juke-box qui crée des chansons “chantées” par des grands noms de la musique, généralement aujourd’hui disparus. Frank Sinatra ? Michael Jackson ? C’est reparti. Les chansons sont loin d’être des chefs-d’œuvre, mais elles sont puissantes : elles nous disent où va la technologie.

Nous y sommes. Au point que reproduire la voix de quelqu’un est techniquement possible. Dans quel but raisonnable ? Selon certains, un marché s’ouvre : le monde du doublage pourrait changer à jamais. On y réfléchit à Seattle, où est basé Amazon, et à Google, qui vient de mettre en ligne un outil de démonstration intéressant. Et ils y travaillent à Rome. Au Campus Pi. Là où Eur s’arrête et où la route pointe vers le sud, il y a sur la droite des villas qui abritent un centre qui est un peu un accélérateur de startups et un peu un laboratoire d’intelligence artificielle-école. C’est là qu’il y a plusieurs années, Marco Trombetti et sa femme ont fondé Translated, peut-être la meilleure startup italienne qui soit : une plateforme destinée aux traducteurs professionnels, assistés par l’intelligence artificielle pour faire de meilleures traductions. Aujourd’hui, il est sur le point de lancer MateDub, “le premier outil de doublage utilisant des voix produites par une intelligence artificielle entraînée par l’écoute des meilleurs doubleurs”.

J’y suis allé il y a quelques jours : pendant presque une heure (mais le produit parfait demande au moins deux heures) on m’a fait lire un texte : cet enregistrement a été confié à MateDub ; après un jour ma voix était reconnaissable, après deux bonnes, après trois elle s’améliorait encore. La machine apprenait à parler comme moi. L’objectif, selon M. Trombetti, n’est pas de remplacer les acteurs vocaux, tout comme Translated n’a pas remplacé les traducteurs mais a changé leur façon de travailler. Pensez à un marché de voix numériques, un catalogue dans lequel les producteurs de contenu audiovisuel peuvent choisir la meilleure voix. Et l’acheter.

Nous verrons si c’est vraiment le cas. Mais entre-temps, nous en sommes arrivés au point où, il y a quelques jours, une vidéo a été diffusée sur le net, réalisée par un youtuber, où l’on peut voir et entendre le rappeur Eminem chanter une chanson inventée avec des paroles explicitement féministes. Résumons le processus car il tient toutes les pièces ensemble : les paroles de la chanson ont été générées par ShortlyAI, une intelligence artificielle basée sur GPT-3 ; il a suffi de donner à la machine le titre ” La nouvelle chanson d’Eminem est une attaque contre le patriarcat “. Il prend position contre les mâles et pour la défense des femmes” ; à partir du titre, GPT-3 a écrit les versets complets. On a ensuite fait chanter les paroles sur la voix d’Eminem recréée par un youtuber qui dit faire des “parodies de chansons synthétiques” ; enfin, on a synchronisé les lèvres du rappeur. La vidéo circule depuis la mi-mars. Si on ne connaissait pas Eminem, on pourrait le croire.

Maxime Le Moine
Maxime Le Moine
Grand amateur et passionné de technologie, j'ai un faible pour les machines en tout genre. Je vous partage les nouveautés tech pour vous permettre de vous garder à jour dans l'évolution qui ne s'arrête jamais!

Hot news

A ne pas manquer