"Il faut être conscient que toutes nos données sont réexploitées":

Whatsapp, Instagram, Tiktok, sur les réseaux sociaux, à qui appartiennent les contenus que nous publions? A quoi servent-ils?

INTERVIEW. Depuis le 3 novembre, LinkedIn utilise officiellement textes, photos et vidéos pour alimenter son IA générative. Mais le réseau n’est pas le seul à le faire, un usage souvent critiqué pour son opacité, comme le souligne Félix Balmonet, ingénieur IA collaborant régulièrement avec Nvidia et OpenAI, pour Tech & Co.
Vous vous êtes sans doute déjà posé la question. Sur Instagram, Snapchat, Facebook ou TikTok, à qui appartiennent les contenus que nous publions? Texte, photos, vidéos… toutes ces données peuvent être utilisées par les plateformes pour entraîner leurs intelligences artificielles.
Depuis lundi 3 novembre, par exemple, LinkedIn a officiellement commencé à exploiter les données de ses utilisateurs pour alimenter son IA générative. La plateforme avait annoncé ce changement dans un billet publié le 18 septembre, suivi d’une notification envoyée pendant le week-end pour informer ses membres d’une modification de ses conditions générales d’utilisation.
En France, la collecte des données par les plateformes est en théorie encadrée par le règlement européen sur la protection des données (RGPD): toute collecte ou traitement de données personnelles doit reposer sur une base légale, comme le consentement, un contrat, une obligation légale, une mission d’intérêt public ou un intérêt légitime. Le consentement doit être “libre, spécifique, éclairé et univoque”.
Aux États‑Unis, il n’existe toutefois pas de loi fédérale unique aussi stricte que le RGPD. Beaucoup dépend du contrat d’utilisateur et des protections offertes par chaque État. La Federal Trade Commission (FTC) surveille et sanctionne cependant les pratiques abusives liées à la collecte, l’usage et le partage des données personnelles.
En définitive, la réalité est souvent loin d'être limpide. C'est cette gestion opaque et floue des plateformes que Félix Balmonet, ingénieur IA travaillant régulièrement avec Nvidia et OpenAI et également président de Chat3D, une entreprise française de logiciel d'image 3D destinée au monde du cinéma et du jeu vidéo, décrypte pour Tech & Co.
Tech&Co : Lorsqu’un utilisateur publie un texte, une photo ou une vidéo, à qui appartiennent vraiment ces contenus: au créateur ou à la plateforme qui les exploite ?
Félix Balmonet: “En réalité, tout dépend de la plateforme. En principe, quand vous produisez du contenu, ça vous appartient. Maintenant, quand vous le mettez sur une plateforme… Je prends l'exemple des réseaux sociaux de Meta: WhatsApp, Messenger, Facebook, Instagram et toute la galaxie autour. Quand vous y mettez une image ou même du texte, Meta a le droit de se servir de ces données pour entraîner ses propres intelligences artificielles. C'est le cas aussi de X, de Reddit, notamment avec OpenAI, parce que Sam Altman possède une petite partie du réseau.
Donc pour une grosse partie des réseaux sociaux très utilisés aujourd'hui, oui nos données sont exploitées. Ces entreprises, souvent des GAFAM, ont tout intérêt à le faire, car elles cherchent des données pour entraîner leurs modèles.
Certaines plateformes ont même changé leur politique de confidentialité pour élargir cet usage. Par exemple, avec certaines parties premium, comme sur X ou Instagram aux États-Unis, elles essaient de limiter l'entraînement et la réutilisation.
Mais le premier business des plateformes, on dit souvent que quand c'est gratuit, c'est vous le produit, reste la publicité. Pour vendre efficacement de l'espace publicitaire, elles ont besoin de données. Meta, par exemple, travaille avec beaucoup de psychologues et est capable de prédire des événements comme une rupture amoureuse avec une grande précision, et cela jusqu'à deux ans à l'avance. Ces données sont ensuite utilisées pour entraîner des modèles d'intelligence artificielle.
Les œuvres/publications des utilisateurs utilisées pour entraîner l’IA devraient-elles être rémunérées ou attribuées, comme toute création soumise au droit d’auteur?
Sur Meta, cela m’étonnerait fortement. Pour nous, dans notre entreprise, on a une politique éthique: nos logiciels 3D pour cinéma et jeux vidéo travaillent avec des données acquises légalement auprès de créateurs rémunérés. Certaines entreprises achètent ces données. Mais pour le grand public, ce n’est pas encore le cas. Les contenus personnels et intimes poseront problème pour toute forme de rémunération.
Les réseaux sociaux informent-ils suffisamment leurs utilisateurs sur la manière dont leurs données servent à l’IA?
Non, c’est à leur avantage de le mettre en avant le moins possible. Globalement, quand on consent aux politiques de données, on sait qu'elles vont utiliser nos informations, mais pas nécessairement pour l'IA. C'est presque similaire à l'utilisation pour la publicité ciblée.
Avant, les plateformes utilisaient nos données pour développer des outils internes. Aujourd'hui, elles produisent avec nos données des outils qui sont ensuite commercialisés, comme Gemini pour Google ou les IA de Meta. Ce qui est délicat, c'est qu'il y a une forme d'opacité: on se demande si une photo privée pourrait être réutilisée ailleurs…
Jeff Bezos d'Amazon et Sam Altman, d'OpenAI © Florian Gaertner et Marco Bertorello
Cette exploitation massive des données à des fins d’IA risque-t-elle d’amplifier la défiance envers les grandes plateformes numériques?
Oui, complètement. Par exemple, par rapport à WhatsApp, il y a eu d’énormes vagues en Europe de personnes qui l'ont quitté à cause de rumeurs sur l'utilisation des conversations. Cette défiance touche surtout les plus de 50 ans. Les moins de 50 ans consentent plus facilement à tout ça.
On constate aussi une évolution des comportements: les moins de 20 ans publient surtout des “stories” sur Instagram. Même si les stories sont sauvegardées par Meta, cela change la perception de l'utilisateur. Bereal, par exemple, est l'antithèse du réseau social classique: contenu non permanent et visible uniquement si l’utilisateur le décide. C’est un des exemples de défiance vis-à-vis des réseaux sociaux.
Une défiance certes, mais aussi des usages qui interrogent: ce sont souvent nos données les plus personnelles, publiées sur ces plateformes, qui se retrouvent les plus exploitées…
Aujourd’hui, il n’y a effectivement quasiment aucune éducation à ce sujet. Quand on parle des plateformes, mais aussi des outils d’intelligence artificielle comme ChatGPT, beaucoup de gens y mettent tout et n’importe quoi, y compris des informations très personnelles, de l’ordre de la psychologie ou de l’intime. Et là, ces données sont quasiment systématiquement réutilisées. Cela pose donc question.
Il faut vraiment être attentif à la politique de partage des données sur les réseaux sociaux, que ce soit pour l’IA ou pas. Avec l’IA, c’est encore plus critique, mais même avant l’IA, il faut être conscient que toutes nos données sont réexploitées.
Ces données sont d’autant plus recherchées qu’elles sont rares. Par exemple, avoir accès à une réflexion personnelle profonde, comme celle que vous pourriez partager avec ChatGPT, ce n’est pas quelque chose qu’on trouve facilement sur internet. Les entreprises ont donc du mal à accéder directement à ce que vous avez dans la tête.
En revanche, quand elles ont accès à une IA conversationelle, elles ont parfois accès à votre meilleur ami, car certaines personnes y confient presque tout. Et de ce point de vue, c’est extrêmement valorisable pour ces entreprises.
On assiste en fait au développement d’un système assez “toxique”, où le business de ces plateformes consiste à aspirer un maximum de conversations avec leurs utilisateurs. À terme, on peut s’attendre à ce que les plateformes cherchent à maximiser l’intérêt de l’utilisateur en lui fournissant toujours plus de réponses, en l’incitant à prolonger ses interactions.
Si on observe Instagram ou TikTok, ce sont des processus de maximisation du temps d’écran. Les applications analysent votre usage: elles prédisent quand vous allez vous lasser et, juste avant que cela n’arrive, elles vous proposent une publication captivante pour prolonger votre cycle. On peut s’attendre à ce que des mécanismes similaires apparaissent dans les logiciels d’intelligence artificielle.
Le réseau social Tiktok. © LI HONGBO / CFoto / CFOTO via AFP
On évoque surtout les GAFAM, mais pour une entreprise chinoise comme TikTok, est-ce la même logique ou un tout autre modèle?
On parlait effectivement des entreprises occidentales, même si en réalité, ce sont quasiment uniquement des entreprises américaines. En Europe, nous n’avons pas de leader sur ces sujets.
Aujourd’hui, ce qu’on constate beaucoup, c’est que les Chinois sont très forts dans le domaine de l’intelligence artificielle. Même si on en utilise un peu moins, ces technologies émergent encore davantage chez eux. Et sur la partie éthique, elle est absolument inexistante.
Souvent, on critique Google, OpenAI ou Meta, mais en Chine, il n’y a pas cette considération. Avec une population d’un milliard et demi de personnes, cela représente une quantité de données colossale, ultra triable, qui nourrit directement l’industrie. Et d’un point de vue étatique, il y a une réelle volonté de l’État de soutenir ce développement.
Si nos données sont aspirées par des entreprises américaines ou chinoises, la question de la souveraineté numérique européenne ne devient-elle pas urgente ?
Oui, cette question devrait se poser, c’est une évidence. Mais aujourd’hui, elle ne se pose pas vraiment. On a vu que l’AI Act a été voté au niveau européen. Beaucoup d’entreprises estiment que c’est un peu trop tôt: lorsqu’on régule en Europe, le problème, c’est que cela tend à freiner les industries qui commençaient à se développer, au profit d’acteurs américains ou chinois qui, eux, ne sont pas régulés et viennent vendre leurs produits en Europe. Cela crée donc une concurrence un peu déloyale.
Selon moi, ce qu’il faudrait mettre en avant aujourd’hui, c’est aussi une forme de protectionnisme. Par exemple, dans différentes régions françaises ou dans différents pays européens, on lance des appels d’offres pour développer des logiciels intégrant de l’IA, pour l’Éducation nationale, etc. Et la majorité du temps, ce sont des entreprises américaines ou chinoises qui sont choisies. On ne favorise même pas notre propre industrie, y compris avec les appels d’offres publics.
De ce point de vue-là, de gros efforts pourraient être faits. Et cela, même sans légiférer davantage: si on voulait aller plus loin dans la loi, ce serait possible. Réguler pour protéger le consommateur, c’est très bien. Mais il faut aussi s’assurer que les entreprises européennes puissent évoluer à armes égales avec les autres.”
https://www.bfmtv.com/tech/actualites/reseaux-sociaux/il-faut-etre-conscient-que-toutes-nos-donnees-sont-reexploitees-whatsapp-instagram-tiktok-sur-les-reseaux-sociaux-a-qui-appartiennent-les-contenus-que-nous-publions-a-quoi-servent-ils_AN-202511080079.html