Deepfakes en direct, la menace futuriste qui frappe déjà à nos portes – Site officiel de la Fédération du Parti Socialiste des Hauts-de-Seine

Une partie de mon quotidien consiste à anticiper les menaces avant qu’elles ne se concrétisent, à organiser des exercices, à sensibiliser les collègues. On n’est pas mauvais sur le sujet des deepfakes, la détection de contenus générés par l’IA progresse, les remontées d’alertes fonctionnent bien, les équipes sont entraînées. On s’en sort plutôt bien sur ce que l’on connaissait jusqu’ici.

Mais aujourd’hui, j’ai assisté à une démonstration qui m’a mis un sérieux coup derrière la tête. On reçoit régulièrement des entreprises spécialisées pour nous présenter les nouvelles menaces et les outils qui existent pour y répondre. L’une d’entre elles nous a présenté quelque chose d’une nature différente de tout ce qu’on avait vu jusqu’ici : la capacité de générer, en temps réel et en direct, la voix et le visage d’un membre du top management d’une organisation, dans un appel téléphonique ou une visioconférence.

Et pour rendre le tout encore plus convaincant, le système s’appuie sur une collecte de données extrêmement poussé sur les personnes imitées : leurs expressions habituelles et leur façon de parler via l’analyse d’interview ou de vidéos disponibles sur YouTube, les sujets dont ils s’occupent en ce moment, leurs informations personnelles et les noms de leurs collègues les plus pertinents tirés de LinkedIn. Résultat, lors de la démo, le faux dirigeant parlait d’un rachat d’entreprise en cours, nommait des collaborateurs réels, utilisait exactement le bon niveau de langage et les bons codes internes. Même quelqu’un d’averti, au courant que c’est une démonstration, doit faire un effort conscient pour ne pas y croire.

Les deepfakes qu’on connaissait avait une fenêtre de détection. Une vidéo fabriquée peut être analysée, comparée, soumise à des outils de vérification. Il y a un moment entre la création du contenu et sa réception qui laisse une chance à notre bouclier technique.

Là, cette fenêtre n’existe plus. L’appel se passe en direct, la voix ne dit plus uniquement qu’il faut virer des fonds, mais répond en temps réel aux interrogations de sa cible. Le destinataire n’a pas le temps de prendre du recul, juste sa perception en direct d’un interlocuteur qui ressemble parfaitement à son patron et qui connaît tous les détails pour brouiller les pistes. Les mécanismes classiques de vérification, rappeler sur un autre canal, attendre confirmation par écrit, sont encore efficaces mais ils supposent que la personne ciblée ait le réflexe de s’en servir malgré la pression d’une situation qui semble urgente et légitime. Dire non devient presque impossible.

Le vecteur d’attaque ici, c’est précisément la confiance. Et lorsque l’on parle de confiance, les implications vont au-delà des entreprises En politique, les dirigeants, élus, responsables de partis sont des cibles naturelles pour ce type d’attaque. Un faux appel convaincant au mauvais moment, une fausse déclaration lors d’une réunion, et ce sont des décisions qui peuvent être influencées, des relations de confiance qui peuvent être sabotées, des rumeurs qui peuvent être lancées avec une crédibilité nouvelle. Dans un contexte électoral ou de tension interne à une organisation, l’outil devient une arme de déstabilisation redoutable.

Ce qu’on peut faire

Du côté des organisations, la réponse passe par plusieurs choses. D’abord, établir des protocoles de vérification systématique pour toute demande sensible transmise par voie orale ou vidéo, quelle que soit la confiance accordée à l’interlocuteur apparent. Ensuite, travailler sur des codes de confirmation internes, des mots ou des formulations convenus à l’avance qui ne figurent dans aucune donnée publique et qui permettent de valider qu’on parle bien à la bonne personne. Enfin, réduire la surface d’attaque en limitant ce qui est accessible publiquement sur les membres sensibles d’une organisation : moins de données exposées, c’est un système moins bien alimenté.

Mais il faut être honnête, ces mesures ne font que compliquer l’attaque, elles ne l’empêchent pas. La vraie défense est culturelle autant que technique. Elle repose sur une forme de scepticisme organisé depuis le plus jeune âge, une culture du « je vérifie avant d’agir » qui doit être suffisamment ancrée pour résister à la pression d’une situation qui semble urgente.

Du côté des pouvoirs publics, la question de la régulation de ces technologies se pose avec une acuité nouvelle. Les outils de génération de voix et de visage synthétiques ont des usages légitimes, en production audiovisuelle, en accessibilité, en formation. Mais leur capacité à être détournés à des fins de manipulation appelle un cadre juridique clair : obligations de marquage des contenus synthétiques, responsabilité des éditeurs, sanctions pour les usages frauduleux. Le règlement européen sur l’IA pose des bases, mais l’application et la vitesse d’adaptation à ces nouvelles technologies resteront des enjeux majeurs.

Je savais que les deepfakes constituaient une menace sérieuse. Ce que j’ai vu aujourd’hui m’a montré que nous sommes en train de franchir un palier supplémentaire, celui où la technologie devient suffisamment accessible, suffisamment convaincante et suffisamment contextuelle pour tromper des gens compétents et vigilants dans des conditions réelles.

Sébastien GIRARDOT, Délégué fédéral à la communication – Suivi technique, datas et IA