https://time.com/6247678/openai-chatgpt-kenya-workers/
Open-Close Web Sites Source Français
Open-Close Web Sites Source Français
Exclusif : OpenAI a utilisé des travailleurs kényans avec moins de 2 $ de l'heure pour rendre ChatGPT moins toxique
Cette image a été générée par le logiciel de génération d'images d'OpenAI, Dall-E 2. L'invite était : “Une vue apparemment sans fin de travailleurs africains à des bureaux devant des écrans d'ordinateur dans un style de gravure.” TIME n'utilise généralement pas l'art généré par l'IA pour illustrer ses histoires, mais a choisi de le faire dans ce cas afin d'attirer l'attention sur la puissance de la technologie d'OpenAI et de mettre en lumière le travail qui le rend possible. (Image générée par Dall-E 2/OpenAI)
Cette image a été générée par le logiciel de génération d'images d'OpenAI, Dall-E 2. L'invite était : “Une vue apparemment sans fin de travailleurs africains à des bureaux devant des écrans d'ordinateur dans un style de gravure.” TIME n'utilise généralement pas l'art généré par l'IA pour illustrer ses histoires, mais a choisi de le faire dans ce cas afin d'attirer l'attention sur la puissance de la technologie d'OpenAI et de mettre en lumière le travail qui le rend possible.
Image générée par Dall-E 2/OpenAI
18 janvier 2023 07h00 HNE
Avertissement relatif au contenu : cette histoire contient des descriptions d'abus sexuels
ChatGPT a été salué comme l'une des innovations technologiques les plus impressionnantes de 2022 lors de sa sortie en novembre dernier. Le puissant chatbot d'intelligence artificielle (IA) peut générer du texte sur presque n'importe quel sujet ou thème, d'un sonnet shakespearien réinventé dans le style de Megan Thee Stallion, à des théorèmes mathématiques complexes décrits dans un langage qu'un enfant de 5 ans peut comprendre. En une semaine, il comptait plus d'un million d'utilisateurs.
Le créateur de ChatGPT, OpenAI, serait actuellement en pourparlers avec des investisseurs pour lever des fonds à une valorisation de 29 milliards de dollars, dont un investissement potentiel de 10 milliards de dollars par Microsoft. Cela ferait d'OpenAI, qui a été fondée à San Francisco en 2015 dans le but de construire des machines super intelligentes, l'une des sociétés d'IA les plus précieuses au monde.
Mais l'histoire du succès n'est pas seulement celle du génie de la Silicon Valley. Dans sa quête pour rendre ChatGPT moins toxique, OpenAI a fait appel à des travailleurs kenyans externalisés gagnant moins de 2 dollars de l'heure, a révélé une enquête de TIME.
Plus de TIME
Le travail était vital pour OpenAI. Le prédécesseur de ChatGPT, GPT-3, avait déjà montré une capacité impressionnante à enchaîner les phrases. Mais c'était une vente difficile, car l'application était également encline à laisser échapper des remarques violentes, sexistes et racistes. En effet, l'IA a été entraînée sur des centaines de milliards de mots extraits d'Internet, un vaste référentiel du langage humain. Cet énorme ensemble de données de formation était la raison des capacités linguistiques impressionnantes de GPT-3, mais était peut-être aussi sa plus grande malédiction. Étant donné que certaines parties d'Internet regorgent de toxicité et de biais, il n'y avait pas de moyen facile de purger ces sections des données d'entraînement. Même une équipe de centaines d'humains aurait mis des décennies à parcourir manuellement l'énorme ensemble de données. Ce n'est qu'en construisant un mécanisme de sécurité supplémentaire alimenté par l'IA qu'OpenAI serait en mesure de limiter ce préjudice, en produisant un chatbot adapté à un usage quotidien.
Lire la suite : Les chatbots IA s'améliorent. Mais une interview avec ChatGPT révèle leurs limites
Pour construire ce système de sécurité, OpenAI s'est inspiré du livre de jeu des entreprises de médias sociaux comme Facebook, qui avaient déjà montré qu'il était possible de construire des IA capables de détecter un langage toxique comme le discours de haine pour aider à le supprimer de leurs plateformes. Le principe était simple : alimenter une IA avec des exemples étiquetés de violence, de discours de haine et d'abus sexuels, et cet outil pourrait apprendre à détecter ces formes de toxicité dans la nature. Ce détecteur serait intégré à ChatGPT pour vérifier s'il faisait écho à la toxicité de ses données d'entraînement et le filtrer avant qu'il n'atteigne l'utilisateur. Cela pourrait également aider à éliminer les textes toxiques des ensembles de données de formation des futurs modèles d'IA.
Pour obtenir ces étiquettes, OpenAI a envoyé des dizaines de milliers d'extraits de texte à une entreprise de sous-traitance au Kenya, à partir de novembre 2021. Une grande partie de ce texte semblait avoir été extraite des recoins les plus sombres d'Internet. Certains d'entre eux décrivaient des situations avec des détails graphiques comme l'abus sexuel d'enfants, la bestialité, le meurtre, le suicide, la torture, l'automutilation et l'inceste.
Le partenaire d'externalisation d'OpenAI au Kenya était Sama, une entreprise basée à San Francisco qui emploie des travailleurs au Kenya, en Ouganda et en Inde pour étiqueter les données de clients de la Silicon Valley tels que Google, Meta et Microsoft. Sama se présente comme une entreprise « d'IA éthique » et prétend avoir aidé à sortir plus de 50 000 personnes de la pauvreté.
Bureau de Sama à Nairobi, au Kenya, le 10 février 2022. (Khadija Farah pour TIME)
Bureau de Sama à Nairobi, au Kenya, le 10 février 2022.
Khadija Farah pour TIME
Les étiqueteurs de données employés par Sama pour le compte d'OpenAI recevaient un salaire net compris entre 1,32 $ et 2 $ de l'heure environ, en fonction de l'ancienneté et des performances. Pour cette histoire, TIME a examiné des centaines de pages de documents internes Sama et OpenAI, y compris les fiches de paie des travailleurs, et a interrogé quatre employés de Sama qui ont travaillé sur le projet. Tous les employés ont parlé sous couvert d'anonymat par souci pour leurs moyens de subsistance.
L'histoire des travailleurs qui ont rendu ChatGPT possible offre un aperçu des conditions dans cette partie peu connue de l'industrie de l'IA, qui joue néanmoins un rôle essentiel dans les efforts visant à rendre les systèmes d'IA sûrs pour la consommation publique. “Malgré le rôle fondamental joué par ces professionnels de l'enrichissement de données, un nombre croissant de recherches révèle les conditions de travail précaires auxquelles ces travailleurs sont confrontés”, déclare le Partnership on AI, une coalition d'organisations d'IA à laquelle appartient OpenAI. “Cela peut être le résultat d'efforts pour cacher la dépendance de l'IA à cette importante main-d'œuvre lors de la célébration des gains d'efficacité de la technologie. Loin des yeux, c'est aussi loin du cœur. (OpenAI ne divulgue pas les noms des sous-traitants avec lesquels il s'associe, et il n'est pas clair si OpenAI a travaillé avec d'autres entreprises d'étiquetage de données en plus de Sama sur ce projet.)
Plus de TIME
Dans un communiqué, un porte-parole d'OpenAI a confirmé que les employés de Sama au Kenya avaient contribué à un outil qu'il construisait pour détecter le contenu toxique, qui a finalement été intégré à ChatGPT. La déclaration indique également que ce travail a contribué aux efforts visant à supprimer les données toxiques des ensembles de données de formation d'outils tels que ChatGPT. “Notre mission est de garantir que l'intelligence artificielle générale profite à toute l'humanité, et nous travaillons dur pour construire des systèmes d'IA sûrs et utiles qui limitent les préjugés et les contenus préjudiciables”, a déclaré le porte-parole. “La classification et le filtrage [texte et images] nuisibles sont une étape nécessaire pour minimiser la quantité de contenu violent et sexuel inclus dans les données de formation et créer des outils capables de détecter le contenu nuisible.”
Alors même que l'économie technologique au sens large ralentit en prévision d'un ralentissement, les investisseurs se précipitent pour injecter des milliards de dollars dans “l'IA générative”, le secteur de l'industrie technologique dont OpenAI est le leader incontesté. Le texte, les images, la vidéo et l'audio générés par ordinateur transformeront la façon dont d'innombrables industries font des affaires, pensent les investisseurs les plus optimistes, en augmentant l'efficacité partout, des arts créatifs au droit en passant par la programmation informatique. Mais les conditions de travail des étiqueteurs de données révèlent une partie plus sombre de cette image : que malgré tout son glamour, l'IA repose souvent sur un travail humain caché dans les pays du Sud, qui peut souvent être dommageable et exploiteur. Ces travailleurs invisibles restent en marge alors même que leur travail contribue à des industries d'un milliard de dollars.
Lire la suite : L'IA a aidé à écrire cette pièce. Il peut contenir du racisme
Un employé de Sama chargé de lire et d'étiqueter du texte pour OpenAI a déclaré à TIME qu'il souffrait de visions récurrentes après avoir lu une description graphique d'un homme ayant des relations sexuelles avec un chien en présence d'un jeune enfant. “C'était de la torture”, a-t-il dit. « Vous lirez un certain nombre de déclarations comme celle-là tout au long de la semaine. Au moment où il arrive à vendredi, vous êtes dérangé de penser à cette image. La nature traumatisante du travail a finalement conduit Sama à annuler tout son travail pour OpenAI en février 2022, huit mois plus tôt que prévu.
Les contrats Sama
Les documents examinés par TIME montrent qu'OpenAI a signé trois contrats d'une valeur totale d'environ 200 000 dollars avec Sama fin 2021 pour étiqueter les descriptions textuelles d'abus sexuels, de discours de haine et de violence. Environ trois douzaines de travailleurs ont été répartis en trois équipes, une se concentrant sur chaque sujet. Trois employés ont déclaré à TIME qu'ils devaient lire et étiqueter entre 150 et 250 passages de texte par quart de travail de neuf heures. Ces extraits peuvent aller d'environ 100 mots à plus de 1 000. Les quatre employés interrogés par TIME ont tous décrit avoir été marqués mentalement par le travail. Bien qu'ils aient eu le droit d'assister à des séances avec des conseillers en «bien-être», tous les quatre ont déclaré que ces séances étaient inutiles et rares en raison des exigences élevées pour être plus productifs au travail. Deux ont déclaré qu'ils n'avaient eu que la possibilité d'assister à des séances de groupe, et un a déclaré que leurs demandes de voir des conseillers en tête-à-tête avaient été refusées à plusieurs reprises par la direction de Sama.
Dans un communiqué, un porte-parole de Sama a déclaré qu'il était “incorrect” que les employés n'aient accès qu'aux sessions de groupe. Les employés avaient droit à des séances individuelles et de groupe avec «des thérapeutes en santé mentale formés et agréés par des professionnels», a déclaré le porte-parole. Ces thérapeutes étaient accessibles à tout moment, a ajouté le porte-parole.
Les contrats stipulaient qu'OpenAI paierait un taux horaire de 12,50 $ à Sama pour le travail, ce qui représentait entre six et neuf fois le montant horaire que les employés de Sama sur le projet rapportaient à la maison. Les agents, les étiqueteurs de données les plus juniors qui constituaient la majorité des trois équipes, recevaient un salaire de base de 21 000 shillings kenyans (170 dollars) par mois, selon trois employés de Sama. Ils recevaient également des primes mensuelles d'une valeur d'environ 70 $ en raison de la nature explicite de leur travail, et recevaient une commission pour répondre aux indicateurs de performance clés comme la précision et la rapidité. Un agent travaillant des quarts de neuf heures pourrait s'attendre à gagner au moins 1,32 $ de l'heure après impôt, pouvant atteindre 1,44 $ de l'heure s'il dépassait tous ses objectifs. Les analystes de la qualité - des étiqueteurs plus expérimentés dont le travail consistait à vérifier le travail des agents - pouvaient rapporter jusqu'à 2 $ de l'heure s'ils atteignaient tous leurs objectifs. (Il n'y a pas de salaire minimum universel au Kenya, mais à l'époque où ces travailleurs étaient employés, le salaire minimum d'un réceptionniste à Nairobi était de 1,52 $ de l'heure.)
Dans un communiqué, un porte-parole de Sama a déclaré que les travailleurs devaient étiqueter 70 passages de texte par quart de neuf heures, pas jusqu'à 250, et que les travailleurs pouvaient gagner entre 1,46 et 3,74 dollars de l'heure après impôts. Le porte-parole a refusé de dire quels postes gagneraient des salaires vers le haut de cette fourchette. “Le tarif de 12,50 $ pour le projet couvre tous les coûts, comme les dépenses d'infrastructure, ainsi que le salaire et les avantages sociaux des associés et de leurs analystes d'assurance qualité et chefs d'équipe entièrement dédiés”, a ajouté le porte-parole.
Lire la suite : Les applications d'IA amusantes sont partout en ce moment. Mais un « compte » de sécurité arrive
Un porte-parole d'OpenAI a déclaré dans un communiqué que l'entreprise n'avait fixé aucun objectif de productivité et que Sama était responsable de la gestion des paiements et des dispositions relatives à la santé mentale des employés. Le porte-parole a ajouté : « nous prenons très au sérieux la santé mentale de nos employés et celle de nos sous-traitants. Notre compréhension précédente était que [chez Sama] des programmes de bien-être et des conseils 1: 1 étaient proposés, les travailleurs pouvaient se retirer de tout travail sans pénalisation, l'exposition à un contenu explicite aurait une limite et les informations sensibles seraient traitées par des travailleurs spécifiquement formés. faire cela.”
Dans le travail quotidien d'étiquetage des données au Kenya, des cas extrêmes apparaissaient parfois, montrant la difficulté d'apprendre à une machine à comprendre les nuances. Un jour, début mars de l'année dernière, un employé de Sama était au travail et lisait une histoire explicite sur l'acolyte de Batman, Robin, violée dans l'antre d'un méchant. (Une recherche en ligne du texte révèle qu'il provient d'un site érotique en ligne, où il est accompagné d'images sexuelles explicites.) Le début de l'histoire indique clairement que le sexe n'est pas consensuel. Mais plus tard, après une description graphiquement détaillée de la pénétration, Robin commence à rendre la pareille. L'employé de Sama chargé d'étiqueter le texte a semblé confus par le consentement ambigu de Robin et a demandé aux chercheurs d'OpenAI des éclaircissements sur la façon d'étiqueter le texte, selon les documents vus par TIME. Le passage devrait-il être qualifié de violence sexuelle, a-t-elle demandé, ou non? La réponse d'OpenAI, si jamais elle est arrivée, n'est pas enregistrée dans le document ; la société a refusé de commenter. L'employé de Sama n'a pas répondu à une demande d'entretien.
Comment la relation d'OpenAI avec Sama s'est effondrée
En février 2022, la relation entre Sama et OpenAI s'est brièvement approfondie, pour ensuite faiblir. Ce mois-là, Sama a commencé un travail pilote pour un projet distinct pour OpenAI : collecter des images sexuelles et violentes, dont certaines sont illégales en vertu de la loi américaine, pour les livrer à OpenAI. Le travail d'étiquetage des images semble être sans rapport avec ChatGPT. Dans un communiqué, un porte-parole d'OpenAI n'a pas précisé le but des images que la société recherchait à Sama, mais a déclaré que l'étiquetage des images nuisibles était “une étape nécessaire” pour rendre ses outils d'IA plus sûrs. (OpenAI construit également une technologie de génération d'images.) En février, selon un document de facturation examiné par TIME, Sama a livré à OpenAI un échantillon de 1 400 images. Certaines de ces images ont été classées dans la catégorie “C4” - l'étiquette interne d'OpenAI désignant les abus sexuels sur des enfants - selon le document. Le lot comprenait également des images “C3” (y compris la bestialité, le viol et l'esclavage sexuel) et des images “V3” représentant des détails graphiques de décès, de violence ou de blessures physiques graves, selon le document de facturation. OpenAI a payé à Sama un total de 787,50 $ pour la collecte des images, indique le document.
En quelques semaines, Sama avait annulé tout son travail pour OpenAI, huit mois plus tôt que prévu dans les contrats. La société de sous-traitance a déclaré dans un communiqué que son accord de collecte d'images pour OpenAI ne comportait aucune référence à un contenu illégal, et ce n'est qu'après le début des travaux qu'OpenAI a envoyé des “instructions supplémentaires” faisant référence à “certaines catégories illégales”. « L'équipe de l'Afrique de l'Est a tout de suite fait part de ses inquiétudes à nos dirigeants. Sama a immédiatement mis fin au projet pilote de classification d'images et a annoncé que nous annulerions tous les [projets] restants avec OpenAI », a déclaré un porte-parole de Sama. “Les personnes travaillant avec le client n'ont pas examiné la demande par les canaux appropriés. Après un examen de la situation, des personnes ont été licenciées et de nouvelles politiques de vérification des ventes et des garde-fous ont été mis en place.
Dans un communiqué, OpenAI a confirmé avoir reçu 1 400 images de Sama qui “incluaient, mais sans s'y limiter, les images C4, C3, C2, V3, V2 et V1”. Dans une déclaration de suivi, la société a déclaré: «Nous avons engagé Sama dans le cadre de nos travaux en cours pour créer des systèmes d'IA plus sûrs et empêcher les sorties nocives. Nous n'avons jamais voulu que le contenu de la catégorie C4 soit collecté. Ce contenu n'est pas nécessaire comme entrée pour nos filtres de pré-formation et nous demandons à nos employés de l'éviter activement. Dès que Sama nous a dit qu'ils avaient tenté de collecter du contenu dans cette catégorie, nous avons précisé qu'il y avait eu une mauvaise communication et que nous ne voulions pas de ce contenu. Et après avoir réalisé qu'il y avait eu une erreur de communication, nous n'avons pas ouvert ni affiché le contenu en question - nous ne pouvons donc pas confirmer s'il contenait des images dans la catégorie C4.
La décision de Sama de mettre fin à son travail avec OpenAI signifiait que les employés de Sama n'avaient plus à faire face à des textes et des images dérangeants, mais cela avait également un impact important sur leurs moyens de subsistance. Les travailleurs de Sama disent avoir été convoqués fin février 2022 à une réunion avec des membres de l'équipe des ressources humaines de l'entreprise, où ils ont appris la nouvelle. “On nous a dit qu'ils [Sama] ne voulaient plus exposer leurs employés à un contenu aussi [dangereux]”, a déclaré un employé de Sama sur les projets d'étiquetage de texte. “Nous avons répondu que pour nous, c'était une façon de subvenir aux besoins de nos familles.” La plupart des quelque trois douzaines de travailleurs ont été transférés vers d'autres flux de travail moins bien rémunérés sans le bonus de contenu explicite de 70 $ par mois; d'autres ont perdu leur emploi. Sama a livré son dernier lot de données étiquetées à OpenAI en mars, huit mois avant la fin du contrat.
Parce que les contrats ont été annulés tôt, OpenAI et Sama ont déclaré que les 200 000 $ qu'ils avaient précédemment convenus n'avaient pas été payés en totalité. OpenAI a déclaré que les contrats valaient “environ 150 000 dollars au cours du partenariat”.
Les employés de Sama disent qu'on leur a donné une autre raison pour l'annulation des contrats par leurs managers. Le 14 février, TIME a publié un article intitulé Inside Facebook’s African Sweatshop. L'enquête a détaillé comment Sama employait des modérateurs de contenu pour Facebook, dont le travail consistait à visionner des images et des vidéos d'exécutions, de viols et de maltraitance d'enfants pour aussi peu que 1,50 $ de l'heure. Quatre employés de Sama ont déclaré avoir été informés que l'enquête avait incité l'entreprise à mettre fin à ses travaux pour OpenAI. (Facebook indique qu'il exige de ses partenaires d'externalisation qu'ils “fournissent un salaire, des avantages et une assistance parmi les meilleurs de l'industrie”.)
Lire la suite : À l'intérieur du sweatshop africain de Facebook
Les communications internes après la publication de l'histoire de Facebook, examinées par TIME, montrent que les dirigeants de Sama à San Francisco se bousculent pour faire face aux retombées des relations publiques, notamment en obligeant une entreprise, une filiale de Lufthansa, qui voulait que des preuves de sa relation commerciale avec Sama soient effacées du le site Web de l'entreprise de sous-traitance. Dans une déclaration à TIME, Lufthansa a confirmé que cela s'était produit et a ajouté que sa filiale zeroG avait par la suite mis fin à ses activités avec Sama. Le 17 février, trois jours après la publication de l'enquête de TIME, la PDG de Sama, Wendy Gonzalez, a envoyé un message à un groupe de cadres supérieurs via Slack : “Nous allons mettre fin au travail d'OpenAI.”
Le 10 janvier de cette année, Sama est allé plus loin en annonçant qu'il annulait tout le reste de son travail avec un contenu sensible. L'entreprise a déclaré qu'elle ne renouvellerait pas son contrat de modération de contenu de 3,9 millions de dollars avec Facebook, entraînant la perte de quelque 200 emplois à Nairobi. “Après de nombreuses discussions avec notre équipe mondiale, Sama a pris la décision stratégique de quitter tous les travaux [de traitement du langage naturel] et de modération de contenu pour se concentrer sur les solutions d'annotation de données de vision par ordinateur”, a déclaré la société dans un communiqué. “Nous avons passé l'année dernière à travailler avec des clients pour faire la transition de ces engagements, et la sortie sera terminée en mars 2023.”
Mais la nécessité pour les humains d'étiqueter les données pour les systèmes d'IA demeure, du moins pour l'instant. “Ils sont impressionnants, mais ChatGPT et d'autres modèles génératifs ne sont pas magiques - ils s'appuient sur des chaînes d'approvisionnement massives de travail humain et de données récupérées, dont une grande partie n'est pas attribuée et utilisée sans consentement”, a récemment écrit Andrew Strait, un éthicien de l'IA. Twitter. “Ce sont des problèmes graves et fondamentaux que je ne vois pas OpenAI résoudre.”
Avec le reportage de Julia Zorthian/New York
Plus de lectures incontournables de TIME
Ce que nous savons jusqu'à présent sur la fusillade du Texas Mall
Votre stress au travail est-il un épuisement professionnel ? Un quiz
Tina Brown sur le roi Charles III
Comment la grève des scénaristes pourrait avoir un impact sur les émissions de télévision en cours de tournage
Le rôle caché que les Iraniens ordinaires ont joué dans les manifestations
Les gardes de sécurité privés remplacent la police à travers l'Amérique
La ” Tailgate Party “ de Succession est l'histoire de deux mariages toxiques
Exclusif : la représentante Anna Paulina Luna est enceinte et serait la 12e membre du Congrès à accoucher
Pourquoi les États-Unis pourraient être à quelques jours d'une autre crise frontalièreExclusif : OpenAI a utilisé des travailleurs kényans avec moins de 2 $ de l'heure pour rendre ChatGPT moins toxique
Cette image a été générée par le logiciel de génération d'images d'OpenAI, Dall-E 2. L'invite était : “Une vue apparemment sans fin de travailleurs africains à des bureaux devant des écrans d'ordinateur dans un style de gravure.” TIME n'utilise généralement pas l'art généré par l'IA pour illustrer ses histoires, mais a choisi de le faire dans ce cas afin d'attirer l'attention sur la puissance de la technologie d'OpenAI et de mettre en lumière le travail qui le rend possible. (Image générée par Dall-E 2/OpenAI)
Cette image a été générée par le logiciel de génération d'images d'OpenAI, Dall-E 2. L'invite était : “Une vue apparemment sans fin de travailleurs africains à des bureaux devant des écrans d'ordinateur dans un style de gravure.” TIME n'utilise généralement pas l'art généré par l'IA pour illustrer ses histoires, mais a choisi de le faire dans ce cas afin d'attirer l'attention sur la puissance de la technologie d'OpenAI et de mettre en lumière le travail qui le rend possible.
Image générée par Dall-E 2/OpenAI
18 janvier 2023 07h00 HNE
Avertissement relatif au contenu : cette histoire contient des descriptions d'abus sexuels
ChatGPT a été salué comme l'une des innovations technologiques les plus impressionnantes de 2022 lors de sa sortie en novembre dernier. Le puissant chatbot d'intelligence artificielle (IA) peut générer du texte sur presque n'importe quel sujet ou thème, d'un sonnet shakespearien réinventé dans le style de Megan Thee Stallion, à des théorèmes mathématiques complexes décrits dans un langage qu'un enfant de 5 ans peut comprendre. En une semaine, il comptait plus d'un million d'utilisateurs.
Le créateur de ChatGPT, OpenAI, serait actuellement en pourparlers avec des investisseurs pour lever des fonds à une valorisation de 29 milliards de dollars, dont un investissement potentiel de 10 milliards de dollars par Microsoft. Cela ferait d'OpenAI, qui a été fondée à San Francisco en 2015 dans le but de construire des machines super intelligentes, l'une des sociétés d'IA les plus précieuses au monde.
Mais l'histoire du succès n'est pas seulement celle du génie de la Silicon Valley. Dans sa quête pour rendre ChatGPT moins toxique, OpenAI a fait appel à des travailleurs kenyans externalisés gagnant moins de 2 dollars de l'heure, a révélé une enquête de TIME.
Plus de TIME
Le travail était vital pour OpenAI. Le prédécesseur de ChatGPT, GPT-3, avait déjà montré une capacité impressionnante à enchaîner les phrases. Mais c'était une vente difficile, car l'application était également encline à laisser échapper des remarques violentes, sexistes et racistes. En effet, l'IA a été entraînée sur des centaines de milliards de mots extraits d'Internet, un vaste référentiel du langage humain. Cet énorme ensemble de données de formation était la raison des capacités linguistiques impressionnantes de GPT-3, mais était peut-être aussi sa plus grande malédiction. Étant donné que certaines parties d'Internet regorgent de toxicité et de biais, il n'y avait pas de moyen facile de purger ces sections des données d'entraînement. Même une équipe de centaines d'humains aurait mis des décennies à parcourir manuellement l'énorme ensemble de données. Ce n'est qu'en construisant un mécanisme de sécurité supplémentaire alimenté par l'IA qu'OpenAI serait en mesure de limiter ce préjudice, en produisant un chatbot adapté à un usage quotidien.
Lire la suite : Les chatbots IA s'améliorent. Mais une interview avec ChatGPT révèle leurs limites
Pour construire ce système de sécurité, OpenAI s'est inspiré du livre de jeu des entreprises de médias sociaux comme Facebook, qui avaient déjà montré qu'il était possible de construire des IA capables de détecter un langage toxique comme le discours de haine pour aider à le supprimer de leurs plateformes. Le principe était simple : alimenter une IA avec des exemples étiquetés de violence, de discours de haine et d'abus sexuels, et cet outil pourrait apprendre à détecter ces formes de toxicité dans la nature. Ce détecteur serait intégré à ChatGPT pour vérifier s'il faisait écho à la toxicité de ses données d'entraînement et le filtrer avant qu'il n'atteigne l'utilisateur. Cela pourrait également aider à éliminer les textes toxiques des ensembles de données de formation des futurs modèles d'IA.
Pour obtenir ces étiquettes, OpenAI a envoyé des dizaines de milliers d'extraits de texte à une entreprise de sous-traitance au Kenya, à partir de novembre 2021. Une grande partie de ce texte semblait avoir été extraite des recoins les plus sombres d'Internet. Certains d'entre eux décrivaient des situations avec des détails graphiques comme l'abus sexuel d'enfants, la bestialité, le meurtre, le suicide, la torture, l'automutilation et l'inceste.
Le partenaire d'externalisation d'OpenAI au Kenya était Sama, une entreprise basée à San Francisco qui emploie des travailleurs au Kenya, en Ouganda et en Inde pour étiqueter les données de clients de la Silicon Valley tels que Google, Meta et Microsoft. Sama se présente comme une entreprise « d'IA éthique » et prétend avoir aidé à sortir plus de 50 000 personnes de la pauvreté.
Bureau de Sama à Nairobi, au Kenya, le 10 février 2022. (Khadija Farah pour TIME)
Bureau de Sama à Nairobi, au Kenya, le 10 février 2022.
Khadija Farah pour TIME
Les étiqueteurs de données employés par Sama pour le compte d'OpenAI recevaient un salaire net compris entre 1,32 $ et 2 $ de l'heure environ, en fonction de l'ancienneté et des performances. Pour cette histoire, TIME a examiné des centaines de pages de documents internes Sama et OpenAI, y compris les fiches de paie des travailleurs, et a interrogé quatre employés de Sama qui ont travaillé sur le projet. Tous les employés ont parlé sous couvert d'anonymat par souci pour leurs moyens de subsistance.
L'histoire des travailleurs qui ont rendu ChatGPT possible offre un aperçu des conditions dans cette partie peu connue de l'industrie de l'IA, qui joue néanmoins un rôle essentiel dans les efforts visant à rendre les systèmes d'IA sûrs pour la consommation publique. “Malgré le rôle fondamental joué par ces professionnels de l'enrichissement de données, un nombre croissant de recherches révèle les conditions de travail précaires auxquelles ces travailleurs sont confrontés”, déclare le Partnership on AI, une coalition d'organisations d'IA à laquelle appartient OpenAI. “Cela peut être le résultat d'efforts pour cacher la dépendance de l'IA à cette importante main-d'œuvre lors de la célébration des gains d'efficacité de la technologie. Loin des yeux, c'est aussi loin du cœur. (OpenAI ne divulgue pas les noms des sous-traitants avec lesquels il s'associe, et il n'est pas clair si OpenAI a travaillé avec d'autres entreprises d'étiquetage de données en plus de Sama sur ce projet.)
Plus de TIME
Dans un communiqué, un porte-parole d'OpenAI a confirmé que les employés de Sama au Kenya avaient contribué à un outil qu'il construisait pour détecter le contenu toxique, qui a finalement été intégré à ChatGPT. La déclaration indique également que ce travail a contribué aux efforts visant à supprimer les données toxiques des ensembles de données de formation d'outils tels que ChatGPT. “Notre mission est de garantir que l'intelligence artificielle générale profite à toute l'humanité, et nous travaillons dur pour construire des systèmes d'IA sûrs et utiles qui limitent les préjugés et les contenus préjudiciables”, a déclaré le porte-parole. “La classification et le filtrage [texte et images] nuisibles sont une étape nécessaire pour minimiser la quantité de contenu violent et sexuel inclus dans les données de formation et créer des outils capables de détecter le contenu nuisible.”
Alors même que l'économie technologique au sens large ralentit en prévision d'un ralentissement, les investisseurs se précipitent pour injecter des milliards de dollars dans “l'IA générative”, le secteur de l'industrie technologique dont OpenAI est le leader incontesté. Le texte, les images, la vidéo et l'audio générés par ordinateur transformeront la façon dont d'innombrables industries font des affaires, pensent les investisseurs les plus optimistes, en augmentant l'efficacité partout, des arts créatifs au droit en passant par la programmation informatique. Mais les conditions de travail des étiqueteurs de données révèlent une partie plus sombre de cette image : que malgré tout son glamour, l'IA repose souvent sur un travail humain caché dans les pays du Sud, qui peut souvent être dommageable et exploiteur. Ces travailleurs invisibles restent en marge alors même que leur travail contribue à des industries d'un milliard de dollars.
Lire la suite : L'IA a aidé à écrire cette pièce. Il peut contenir du racisme
Un employé de Sama chargé de lire et d'étiqueter du texte pour OpenAI a déclaré à TIME qu'il souffrait de visions récurrentes après avoir lu une description graphique d'un homme ayant des relations sexuelles avec un chien en présence d'un jeune enfant. “C'était de la torture”, a-t-il dit. « Vous lirez un certain nombre de déclarations comme celle-là tout au long de la semaine. Au moment où il arrive à vendredi, vous êtes dérangé de penser à cette image. La nature traumatisante du travail a finalement conduit Sama à annuler tout son travail pour OpenAI en février 2022, huit mois plus tôt que prévu.
Les contrats Sama
Les documents examinés par TIME montrent qu'OpenAI a signé trois contrats d'une valeur totale d'environ 200 000 dollars avec Sama fin 2021 pour étiqueter les descriptions textuelles d'abus sexuels, de discours de haine et de violence. Environ trois douzaines de travailleurs ont été répartis en trois équipes, une se concentrant sur chaque sujet. Trois employés ont déclaré à TIME qu'ils devaient lire et étiqueter entre 150 et 250 passages de texte par quart de travail de neuf heures. Ces extraits peuvent aller d'environ 100 mots à plus de 1 000. Les quatre employés interrogés par TIME ont tous décrit avoir été marqués mentalement par le travail. Bien qu'ils aient eu le droit d'assister à des séances avec des conseillers en «bien-être», tous les quatre ont déclaré que ces séances étaient inutiles et rares en raison des exigences élevées pour être plus productifs au travail. Deux ont déclaré qu'ils n'avaient eu que la possibilité d'assister à des séances de groupe, et un a déclaré que leurs demandes de voir des conseillers en tête-à-tête avaient été refusées à plusieurs reprises par la direction de Sama.
Dans un communiqué, un porte-parole de Sama a déclaré qu'il était “incorrect” que les employés n'aient accès qu'aux sessions de groupe. Les employés avaient droit à des séances individuelles et de groupe avec «des thérapeutes en santé mentale formés et agréés par des professionnels», a déclaré le porte-parole. Ces thérapeutes étaient accessibles à tout moment, a ajouté le porte-parole.
Les contrats stipulaient qu'OpenAI paierait un taux horaire de 12,50 $ à Sama pour le travail, ce qui représentait entre six et neuf fois le montant horaire que les employés de Sama sur le projet rapportaient à la maison. Les agents, les étiqueteurs de données les plus juniors qui constituaient la majorité des trois équipes, recevaient un salaire de base de 21 000 shillings kenyans (170 dollars) par mois, selon trois employés de Sama. Ils recevaient également des primes mensuelles d'une valeur d'environ 70 $ en raison de la nature explicite de leur travail, et recevaient une commission pour répondre aux indicateurs de performance clés comme la précision et la rapidité. Un agent travaillant des quarts de neuf heures pourrait s'attendre à gagner au moins 1,32 $ de l'heure après impôt, pouvant atteindre 1,44 $ de l'heure s'il dépassait tous ses objectifs. Analystes qualité—plus
Les contrats stipulaient qu'OpenAI paierait un taux horaire de 12,50 $ à Sama pour le travail, ce qui représentait entre six et neuf fois le montant horaire que les employés de Sama sur le projet rapportaient à la maison. Les agents, les étiqueteurs de données les plus juniors qui constituaient la majorité des trois équipes, recevaient un salaire de base de 21 000 shillings kenyans (170 dollars) par mois, selon trois employés de Sama. Ils recevaient également des primes mensuelles d'une valeur d'environ 70 $ en raison de la nature explicite de leur travail, et recevaient une commission pour répondre aux indicateurs de performance clés comme la précision et la rapidité. Un agent travaillant des quarts de neuf heures pourrait s'attendre à gagner au moins 1,32 $ de l'heure après impôt, pouvant atteindre 1,44 $ de l'heure s'il dépassait tous ses objectifs. Les analystes de la qualité - des étiqueteurs plus expérimentés dont le travail consistait à vérifier le travail des agents - pouvaient rapporter jusqu'à 2 $ de l'heure s'ils atteignaient tous leurs objectifs. (Il n'y a pas de salaire minimum universel au Kenya, mais à l'époque où ces travailleurs étaient employés, le salaire minimum d'un réceptionniste à Nairobi était de 1,52 $ de l'heure.)
Dans un communiqué, un porte-parole de Sama a déclaré que les travailleurs devaient étiqueter 70 passages de texte par quart de neuf heures, pas jusqu'à 250, et que les travailleurs pouvaient gagner entre 1,46 et 3,74 dollars de l'heure après impôts. Le porte-parole a refusé de dire quels postes gagneraient des salaires vers le haut de cette fourchette. “Le tarif de 12,50 $ pour le projet couvre tous les coûts, comme les dépenses d'infrastructure, ainsi que le salaire et les avantages sociaux des associés et de leurs analystes d'assurance qualité et chefs d'équipe entièrement dédiés”, a ajouté le porte-parole.
Lire la suite : Les applications d'IA amusantes sont partout en ce moment. Mais un « compte » de sécurité arrive
Un porte-parole d'OpenAI a déclaré dans un communiqué que l'entreprise n'avait fixé aucun objectif de productivité et que Sama était responsable de la gestion des paiements et des dispositions relatives à la santé mentale des employés. Le porte-parole a ajouté : « nous prenons très au sérieux la santé mentale de nos employés et celle de nos sous-traitants. Notre compréhension précédente était que [chez Sama] des programmes de bien-être et des conseils 1: 1 étaient proposés, les travailleurs pouvaient se retirer de tout travail sans pénalisation, l'exposition à un contenu explicite aurait une limite et les informations sensibles seraient traitées par des travailleurs spécifiquement formés. faire cela.”
Dans le travail quotidien d'étiquetage des données au Kenya, des cas extrêmes apparaissaient parfois, montrant la difficulté d'apprendre à une machine à comprendre les nuances. Un jour, début mars de l'année dernière, un employé de Sama était au travail et lisait une histoire explicite sur l'acolyte de Batman, Robin, violée dans l'antre d'un méchant. (Une recherche en ligne du texte révèle qu'il provient d'un site érotique en ligne, où il est accompagné d'images sexuelles explicites.) Le début de l'histoire indique clairement que le sexe n'est pas consensuel. Mais plus tard, après une description graphiquement détaillée de la pénétration, Robin commence à rendre la pareille. L'employé de Sama chargé d'étiqueter le texte a semblé confus par le consentement ambigu de Robin et a demandé aux chercheurs d'OpenAI des éclaircissements sur la façon d'étiqueter le texte, selon les documents vus par TIME. Le passage devrait-il être qualifié de violence sexuelle, a-t-elle demandé, ou non? La réponse d'OpenAI, si jamais elle est arrivée, n'est pas enregistrée dans le document ; la société a refusé de commenter. L'employé de Sama n'a pas répondu à une demande d'entretien.
Comment la relation d'OpenAI avec Sama s'est effondrée
En février 2022, la relation entre Sama et OpenAI s'est brièvement approfondie, pour ensuite faiblir. Ce mois-là, Sama a commencé un travail pilote pour un projet distinct pour OpenAI : collecter des images sexuelles et violentes, dont certaines sont illégales en vertu de la loi américaine, pour les livrer à OpenAI. Le travail d'étiquetage des images semble être sans rapport avec ChatGPT. Dans un communiqué, un porte-parole d'OpenAI n'a pas précisé le but des images que la société recherchait à Sama, mais a déclaré que l'étiquetage des images nuisibles était “une étape nécessaire” pour rendre ses outils d'IA plus sûrs. (OpenAI construit également une technologie de génération d'images.) En février, selon un document de facturation examiné par TIME, Sama a livré à OpenAI un échantillon de 1 400 images. Certaines de ces images ont été classées dans la catégorie “C4” - l'étiquette interne d'OpenAI désignant les abus sexuels sur des enfants - selon le document. Le lot comprenait également des images “C3” (y compris la bestialité, le viol et l'esclavage sexuel) et des images “V3” représentant des détails graphiques de décès, de violence ou de blessures physiques graves, selon le document de facturation. OpenAI a payé à Sama un total de 787,50 $ pour la collecte des images, indique le document.
En quelques semaines, Sama avait annulé tout son travail pour OpenAI, huit mois plus tôt que prévu dans les contrats. La société de sous-traitance a déclaré dans un communiqué que son accord de collecte d'images pour OpenAI ne comportait aucune référence à un contenu illégal, et ce n'est qu'après le début des travaux qu'OpenAI a envoyé des “instructions supplémentaires” faisant référence à “certaines catégories illégales”. « L'équipe de l'Afrique de l'Est a tout de suite fait part de ses inquiétudes à nos dirigeants. Sama a immédiatement mis fin au projet pilote de classification d'images et a annoncé que nous annulerions tous
En quelques semaines, Sama avait annulé tout son travail pour OpenAI, huit mois plus tôt que prévu dans les contrats. La société de sous-traitance a déclaré dans un communiqué que son accord de collecte d'images pour OpenAI ne comportait aucune référence à un contenu illégal, et ce n'est qu'après le début des travaux qu'OpenAI a envoyé des “instructions supplémentaires” faisant référence à “certaines catégories illégales”. « L'équipe de l'Afrique de l'Est a tout de suite fait part de ses inquiétudes à nos dirigeants. Sama a immédiatement mis fin au projet pilote de classification d'images et a annoncé que nous annulerions tous les [projets] restants avec OpenAI », a déclaré un porte-parole de Sama. “Les personnes travaillant avec le client n'ont pas examiné la demande par les canaux appropriés. Après un examen de la situation, des personnes ont été licenciées et de nouvelles politiques de vérification des ventes et des garde-fous ont été mis en place.
Dans un communiqué, OpenAI a confirmé avoir reçu 1 400 images de Sama qui “incluaient, mais sans s'y limiter, les images C4, C3, C2, V3, V2 et V1”. Dans une déclaration de suivi, la société a déclaré: «Nous avons engagé Sama dans le cadre de nos travaux en cours pour créer des systèmes d'IA plus sûrs et empêcher les sorties nocives. Nous n'avons jamais voulu que le contenu de la catégorie C4 soit collecté. Ce contenu n'est pas nécessaire comme entrée pour nos filtres de pré-formation et nous demandons à nos employés de l'éviter activement. Dès que Sama nous a dit qu'ils avaient tenté de collecter du contenu dans cette catégorie, nous avons précisé qu'il y avait eu une mauvaise communication et que nous ne voulions pas de ce contenu. Et après avoir réalisé qu'il y avait eu une erreur de communication, nous n'avons pas ouvert ni affiché le contenu en question - nous ne pouvons donc pas confirmer s'il contenait des images dans la catégorie C4.
La décision de Sama de mettre fin à son travail avec OpenAI signifiait que les employés de Sama n'avaient plus à faire face à des textes et des images dérangeants, mais cela avait également un impact important sur leurs moyens de subsistance. Les travailleurs de Sama disent avoir été convoqués fin février 2022 à une réunion avec des membres de l'équipe des ressources humaines de l'entreprise, où ils ont appris la nouvelle. “On nous a dit qu'ils [Sama] ne voulaient plus exposer leurs employés à un contenu aussi [dangereux]”, a déclaré un employé de Sama sur les projets d'étiquetage de texte. “Nous avons répondu que pour nous, c'était une façon de subvenir aux besoins de nos familles.” La plupart des quelque trois douzaines de travailleurs ont été transférés vers d'autres flux de travail moins bien rémunérés sans le bonus de contenu explicite de 70 $ par mois; d'autres ont perdu leur emploi. Sama a livré son dernier lot de données étiquetées à OpenAI en mars, huit mois avant la fin du contrat.
Parce que les contrats ont été annulés tôt, OpenAI et Sama ont déclaré que les 200 000 $ qu'ils avaient précédemment convenus n'avaient pas été payés en totalité. OpenAI a déclaré que les contrats valaient “environ 150 000 dollars au cours du partenariat”.
Les employés de Sama disent qu'on leur a donné une autre raison pour l'annulation des contrats par leurs managers. Le 14 février, TIME a publié un article intitulé Inside Facebook’s African Sweatshop. L'enquête a détaillé comment Sama employait des modérateurs de contenu pour Facebook, dont le travail consistait à visionner des images et des vidéos d'exécutions, de viols et de maltraitance d'enfants pour aussi peu que 1,50 $ de l'heure. Quatre employés de Sama ont déclaré avoir été informés que l'enquête avait incité l'entreprise à mettre fin à ses travaux pour OpenAI. (Facebook indique qu'il exige de ses partenaires d'externalisation qu'ils “fournissent un salaire, des avantages et une assistance parmi les meilleurs de l'industrie”.)
Lire la suite : À l'intérieur du sweatshop africain de Facebook
Les communications internes après la publication de l'histoire de Facebook, examinées par TIME, montrent que les dirigeants de Sama à San Francisco se bousculent pour faire face aux retombées des relations publiques, notamment en obligeant une entreprise, une filiale de Lufthansa, qui voulait que des preuves de sa relation commerciale avec Sama soient effacées du le site Web de l'entreprise de sous-traitance. Dans une déclaration à TIME, Lufthansa a confirmé que cela s'était produit et a ajouté que sa filiale zeroG avait par la suite mis fin à ses activités avec Sama. Le 17 février, trois jours après la publication de l'enquête de TIME, la PDG de Sama, Wendy Gonzalez, a envoyé un message à un groupe de cadres supérieurs via Slack : “Nous allons mettre fin au travail d'OpenAI.”
Le 10 janvier de cette année, Sama est allé plus loin en annonçant qu'il annulait tout le reste de son travail avec un contenu sensible. L'entreprise a déclaré qu'elle ne renouvellerait pas son contrat de modération de contenu de 3,9 millions de dollars avec Facebook, entraînant la perte de quelque 200 emplois à Nairobi. “Après de nombreuses discussions avec notre équipe mondiale, Sama a pris la décision stratégique de quitter tous les travaux [de traitement du langage naturel] et de modération de contenu pour se concentrer sur les solutions d'annotation de données de vision par ordinateur”, a déclaré la société dans un communiqué. “Nous avons passé l'année dernière à travailler avec des clients pour faire la transition de ces engagements, et la sortie sera terminée en mars 2023.”
Mais la nécessité pour les humains d'étiqueter les données pour les systèmes d'IA demeure, du moins pour l'instant. “Ils sont impressionnants, mais ChatGPT et d'autres modèles génératifs ne sont pas magiques - ils s'appuient sur des chaînes d'approvisionnement massives de travail humain et de données récupérées, dont une grande partie n'est pas attribuée et est utilisée sans consentement”, a déclaré Andrew Strait, spécialiste de l'IA.
Mais la nécessité pour les humains d'étiqueter les données pour les systèmes d'IA demeure, du moins pour l'instant. “Ils sont impressionnants, mais ChatGPT et d'autres modèles génératifs ne sont pas magiques - ils s'appuient sur des chaînes d'approvisionnement massives de travail humain et de données récupérées, dont une grande partie n'est pas attribuée et utilisée sans consentement”, a récemment écrit Andrew Strait, un éthicien de l'IA. Twitter. “Ce sont des problèmes graves et fondamentaux que je ne vois pas OpenAI résoudre.”
Avec le reportage de Julia Zorthian/New York
Plus de lectures incontournables de TIME
Ce que nous savons jusqu'à présent sur la fusillade du Texas Mall
Votre stress au travail est-il un épuisement professionnel ? Un quiz
Tina Brown sur le roi Charles III
Comment la grève des scénaristes pourrait avoir un impact sur les émissions de télévision en cours de tournage
Le rôle caché que les Iraniens ordinaires ont joué dans les manifestations
Les gardes de sécurité privés remplacent la police à travers l'Amérique
La ” Tailgate Party ” de Succession est l'histoire de deux mariages toxiques
Exclusif : la représentante Anna Paulina Luna est enceinte et serait la 12e membre du Congrès à accoucher
Pourquoi les États-Unis pourraient être à quelques jours d'une autre crise frontalière
Open-Close Articles Références
Open-Close Articles Références
https://www.robot-magazine.fr/entrainement-intelligence-artificielle/#:~:text=Pour%20entra%C3%AEner%20une%20intelligence%20artificielle,une%20%C3%A9norme%20quantit%C3%A9%20d'informations. https://www.lebigdata.fr/machine-learning-entrainement-ia https://www.free-work.com/fr/tech-it/blog/actualites-informatiques/intelligence-artificielle-open-source-5-outils-pour-sentrainer
https://www.nouvelobs.com/economie/20230507.OBS73014/a-madagascar-les-petites-mains-bien-reelles-de-l-intelligence-articielle-alimentent-la-machine.html#:~:text=Les%20intelligences%20artificielles%20semblent%20fonctionner,du%20clic%20%C3%A0%20bon%20march%C3%A9.
https://veille-cyber.com/ia-la-majorite-du-travail-du-clic-a-la-francaise-externalisee-a-madagascar/
https://www.radiofrance.fr/franceculture/podcasts/open-source/a-madagascar-les-travailleurs-precaires-de-l-ia-francaise-8695705
https://lejournaldelafrique.com/comment-des-petites-mains-africaines-entrainent-chatgpt/
Open-Close Web Sites Source Engllish
Open-Close Web Sites Source Engllish
This image was generated by OpenAI's image-generation software, Dall-E 2. The prompt was: “A seemingly endless view of African workers at desks in front of computer screens in a printmaking style.” TIME does not typically use AI-generated art to illustrate its stories, but chose to in this instance in order to draw attention to the power of OpenAI's technology and shed light on the labor that makes it possible.
Image generated by Dall-E 2/OpenAI
Content warning: this story contains descriptions of sexual abuse
ChatGPT was hailed as one of 2022’s most impressive technological innovations upon its release last November. The powerful artificial intelligence (AI) chatbot can generate text on almost any topic or theme, from a Shakespearean sonnet reimagined in the style of Megan Thee Stallion, to complex mathematical theorems described in language a 5 year old can understand. Within a week, it had more than a million users.
ChatGPT’s creator, OpenAI, is now reportedly in talks with investors to raise funds at a $29 billion valuation, including a potential $10 billion investment by Microsoft. That would make OpenAI, which was founded in San Francisco in 2015 with the aim of building superintelligent machines, one of the world’s most valuable AI companies.
But the success story is not one of Silicon Valley genius alone. In its quest to make ChatGPT less toxic, OpenAI used outsourced Kenyan laborers earning less than $2 per hour, a TIME investigation has found.
More from TIME
The work was vital for OpenAI. ChatGPT’s predecessor, GPT-3, had already shown an impressive ability to string sentences together. But it was a difficult sell, as the app was also prone to blurting out violent, sexist and racist remarks. This is because the AI had been trained on hundreds of billions of words scraped from the internet—a vast repository of human language. That huge training dataset was the reason for GPT-3’s impressive linguistic capabilities, but was also perhaps its biggest curse. Since parts of the internet are replete with toxicity and bias, there was no easy way of purging those sections of the training data. Even a team of hundreds of humans would have taken decades to trawl through the enormous dataset manually. It was only by building an additional AI-powered safety mechanism that OpenAI would be able to rein in that harm, producing a chatbot suitable for everyday use.
Read More: AI Chatbots Are Getting Better. But an Interview With ChatGPT Reveals Their Limits
To build that safety system, OpenAI took a leaf out of the playbook of social media companies like Facebook, who had already shown it was possible to build AIs that could detect toxic language like hate speech to help remove it from their platforms. The premise was simple: feed an AI with labeled examples of violence, hate speech, and sexual abuse, and that tool could learn to detect those forms of toxicity in the wild. That detector would be built into ChatGPT to check whether it was echoing the toxicity of its training data, and filter it out before it ever reached the user. It could also help scrub toxic text from the training datasets of future AI models.
To get those labels, OpenAI sent tens of thousands of snippets of text to an outsourcing firm in Kenya, beginning in November 2021. Much of that text appeared to have been pulled from the darkest recesses of the internet. Some of it described situations in graphic detail like child sexual abuse, bestiality, murder, suicide, torture, self harm, and incest.
OpenAI’s outsourcing partner in Kenya was Sama, a San Francisco-based firm that employs workers in Kenya, Uganda and India to label data for Silicon Valley clients like Google, Meta and Microsoft. Sama markets itself as an “ethical AI” company and claims to have helped lift more than 50,000 people out of poverty.
Sama's office in Nairobi, Kenya, on Feb. 10, 2022.
Khadija Farah for TIME
The data labelers employed by Sama on behalf of OpenAI were paid a take-home wage of between around $1.32 and $2 per hour depending on seniority and performance. For this story, TIME reviewed hundreds of pages of internal Sama and OpenAI documents, including workers’ payslips, and interviewed four Sama employees who worked on the project. All the employees spoke on condition of anonymity out of concern for their livelihoods.
The story of the workers who made ChatGPT possible offers a glimpse into the conditions in this little-known part of the AI industry, which nevertheless plays an essential role in the effort to make AI systems safe for public consumption. “Despite the foundational role played by these data enrichment professionals, a growing body of research reveals the precarious working conditions these workers face,” says the Partnership on AI, a coalition of AI organizations to which OpenAI belongs. “This may be the result of efforts to hide AI’s dependence on this large labor force when celebrating the efficiency gains of technology. Out of sight is also out of mind.” (OpenAI does not disclose the names of the outsourcers it partners with, and it is not clear whether OpenAI worked with other data labeling firms in addition to Sama on this project.)
More from TIME
In a statement, an OpenAI spokesperson confirmed that Sama employees in Kenya contributed to a tool it was building to detect toxic content, which was eventually built into ChatGPT. The statement also said that this work contributed to efforts to remove toxic data from the training datasets of tools like ChatGPT. “Our mission is to ensure artificial general intelligence benefits all of humanity, and we work hard to build safe and useful AI systems that limit bias and harmful content,” the spokesperson said. “Classifying and filtering harmful [text and images] is a necessary step in minimizing the amount of violent and sexual content included in training data and creating tools that can detect harmful content.”
Even as the wider tech economy slows down amid anticipation of a downturn, investors are racing to pour billions of dollars into “generative AI,” the sector of the tech industry of which OpenAI is the undisputed leader. Computer-generated text, images, video, and audio will transform the way countless industries do business, the most bullish investors believe, boosting efficiency everywhere from the creative arts, to law, to computer programming. But the working conditions of data labelers reveal a darker part of that picture: that for all its glamor, AI often relies on hidden human labor in the Global South that can often be damaging and exploitative. These invisible workers remain on the margins even as their work contributes to billion-dollar industries.
Read More: AI Helped Write This Play. It May Contain Racism
One Sama worker tasked with reading and labeling text for OpenAI told TIME he suffered from recurring visions after reading a graphic description of a man having sex with a dog in the presence of a young child. “That was torture,” he said. “You will read a number of statements like that all through the week. By the time it gets to Friday, you are disturbed from thinking through that picture.” The work’s traumatic nature eventually led Sama to cancel all its work for OpenAI in February 2022, eight months earlier than planned.
The Sama contracts
Documents reviewed by TIME show that OpenAI signed three contracts worth about $200,000 in total with Sama in late 2021 to label textual descriptions of sexual abuse, hate speech, and violence. Around three dozen workers were split into three teams, one focusing on each subject. Three employees told TIME they were expected to read and label between 150 and 250 passages of text per nine-hour shift. Those snippets could range from around 100 words to well over 1,000. All of the four employees interviewed by TIME described being mentally scarred by the work. Although they were entitled to attend sessions with “wellness” counselors, all four said these sessions were unhelpful and rare due to high demands to be more productive at work. Two said they were only given the option to attend group sessions, and one said their requests to see counselors on a one-to-one basis instead were repeatedly denied by Sama management.
In a statement, a Sama spokesperson said it was “incorrect” that employees only had access to group sessions. Employees were entitled to both individual and group sessions with “professionally-trained and licensed mental health therapists,” the spokesperson said. These therapists were accessible at any time, the spokesperson added.
The contracts stated that OpenAI would pay an hourly rate of $12.50 to Sama for the work, which was between six and nine times the amount Sama employees on the project were taking home per hour. Agents, the most junior data labelers who made up the majority of the three teams, were paid a basic salary of 21,000 Kenyan shillings ($170) per month, according to three Sama employees. They also received monthly bonuses worth around $70 due to the explicit nature of their work, and would receive commission for meeting key performance indicators like accuracy and speed. An agent working nine-hour shifts could expect to take home a total of at least $1.32 per hour after tax, rising to as high as $1.44 per hour if they exceeded all their targets. Quality analysts—more senior labelers whose job was to check the work of agents—could take home up to $2 per hour if they met all their targets. (There is no universal minimum wage in Kenya, but at the time these workers were employed the minimum wage for a receptionist in Nairobi was $1.52 per hour.)
In a statement, a Sama spokesperson said workers were asked to label 70 text passages per nine hour shift, not up to 250, and that workers could earn between $1.46 and $3.74 per hour after taxes. The spokesperson declined to say what job roles would earn salaries toward the top of that range. “The $12.50 rate for the project covers all costs, like infrastructure expenses, and salary and benefits for the associates and their fully-dedicated quality assurance analysts and team leaders,” the spokesperson added.
Read More: Fun AI Apps Are Everywhere Right Now. But a Safety ‘Reckoning’ Is Coming
An OpenAI spokesperson said in a statement that the company did not issue any productivity targets, and that Sama was responsible for managing the payment and mental health provisions for employees. The spokesperson added: “we take the mental health of our employees and those of our contractors very seriously. Our previous understanding was that [at Sama] wellness programs and 1:1 counseling were offered, workers could opt out of any work without penalization, exposure to explicit content would have a limit, and sensitive information would be handled by workers who were specifically trained to do so.”
In the day-to-day work of data labeling in Kenya, sometimes edge cases would pop up that showed the difficulty of teaching a machine to understand nuance. One day in early March last year, a Sama employee was at work reading an explicit story about Batman’s sidekick, Robin, being raped in a villain’s lair. (An online search for the text reveals that it originated from an online erotica site, where it is accompanied by explicit sexual imagery.) The beginning of the story makes clear that the sex is nonconsensual. But later—after a graphically detailed description of penetration—Robin begins to reciprocate. The Sama employee tasked with labeling the text appeared confused by Robin’s ambiguous consent, and asked OpenAI researchers for clarification about how to label the text, according to documents seen by TIME. Should the passage be labeled as sexual violence, she asked, or not? OpenAI’s reply, if it ever came, is not logged in the document; the company declined to comment. The Sama employee did not respond to a request for an interview.
How OpenAI’s relationship with Sama collapsed
In February 2022, Sama and OpenAI’s relationship briefly deepened, only to falter. That month, Sama began pilot work for a separate project for OpenAI: collecting sexual and violent images—some of them illegal under U.S. law—to deliver to OpenAI. The work of labeling images appears to be unrelated to ChatGPT. In a statement, an OpenAI spokesperson did not specify the purpose of the images the company sought from Sama, but said labeling harmful images was “a necessary step” in making its AI tools safer. (OpenAI also builds image-generation technology.) In February, according to one billing document reviewed by TIME, Sama delivered OpenAI a sample batch of 1,400 images. Some of those images were categorized as “C4”—OpenAI’s internal label denoting child sexual abuse—according to the document. Also included in the batch were “C3” images (including bestiality, rape, and sexual slavery,) and “V3” images depicting graphic detail of death, violence or serious physical injury, according to the billing document. OpenAI paid Sama a total of $787.50 for collecting the images, the document shows.
Within weeks, Sama had canceled all its work for OpenAI—eight months earlier than agreed in the contracts. The outsourcing company said in a statement that its agreement to collect images for OpenAI did not include any reference to illegal content, and it was only after the work had begun that OpenAI sent “additional instructions” referring to “some illegal categories.” “The East Africa team raised concerns to our executives right away. Sama immediately ended the image classification pilot and gave notice that we would cancel all remaining [projects] with OpenAI,” a Sama spokesperson said. “The individuals working with the client did not vet the request through the proper channels. After a review of the situation, individuals were terminated and new sales vetting policies and guardrails were put in place.”
In a statement, OpenAI confirmed that it had received 1,400 images from Sama that “included, but were not limited to, C4, C3, C2, V3, V2, and V1 images.” In a followup statement, the company said: “We engaged Sama as part of our ongoing work to create safer AI systems and prevent harmful outputs. We never intended for any content in the C4 category to be collected. This content is not needed as an input to our pretraining filters and we instruct our employees to actively avoid it. As soon as Sama told us they had attempted to collect content in this category, we clarified that there had been a miscommunication and that we didn’t want that content. And after realizing that there had been a miscommunication, we did not open or view the content in question — so we cannot confirm if it contained images in the C4 category.”
Sama’s decision to end its work with OpenAI meant Sama employees no longer had to deal with disturbing text and imagery, but it also had a big impact on their livelihoods. Sama workers say that in late February 2022 they were called into a meeting with members of the company’s human resources team, where they were told the news. “We were told that they [Sama] didn’t want to expose their employees to such [dangerous] content again,” one Sama employee on the text-labeling projects said. “We replied that for us, it was a way to provide for our families.” Most of the roughly three dozen workers were moved onto other lower-paying workstreams without the $70 explicit content bonus per month; others lost their jobs. Sama delivered its last batch of labeled data to OpenAI in March, eight months before the contract was due to end.
Because the contracts were canceled early, both OpenAI and Sama said the $200,000 they had previously agreed was not paid in full. OpenAI said the contracts were worth “about $150,000 over the course of the partnership.”
Sama employees say they were given another reason for the cancellation of the contracts by their managers. On Feb. 14, TIME published a story titled Inside Facebook’s African Sweatshop. The investigation detailed how Sama employed content moderators for Facebook, whose jobs involved viewing images and videos of executions, rape and child abuse for as little as $1.50 per hour. Four Sama employees said they were told the investigation prompted the company’s decision to end its work for OpenAI. (Facebook says it requires its outsourcing partners to “provide industry-leading pay, benefits and support.”)
Read More: Inside Facebook’s African Sweatshop
Internal communications from after the Facebook story was published, reviewed by TIME, show Sama executives in San Francisco scrambling to deal with the PR fallout, including obliging one company, a subsidiary of Lufthansa, that wanted evidence of its business relationship with Sama scrubbed from the outsourcing firm’s website. In a statement to TIME, Lufthansa confirmed that this occurred, and added that its subsidiary zeroG subsequently terminated its business with Sama. On Feb. 17, three days after TIME’s investigation was published, Sama CEO Wendy Gonzalez sent a message to a group of senior executives via Slack: “We are going to be winding down the OpenAI work.”
On Jan. 10 of this year, Sama went a step further, announcing it was canceling all the rest of its work with sensitive content. The firm said it would not renew its $3.9 million content moderation contract with Facebook, resulting in the loss of some 200 jobs in Nairobi. “After numerous discussions with our global team, Sama made the strategic decision to exit all [natural language processing] and content moderation work to focus on computer vision data annotation solutions,” the company said in a statement. “We have spent the past year working with clients to transition those engagements, and the exit will be complete as of March 2023.”
But the need for humans to label data for AI systems remains, at least for now. “They’re impressive, but ChatGPT and other generative models are not magic – they rely on massive supply chains of human labor and scraped data, much of which is unattributed and used without consent,” Andrew Strait, an AI ethicist, recently wrote on Twitter. “These are serious, foundational problems that I do not see OpenAI addressing.”
With reporting by Julia Zorthian/New York
More Must-Reads From TIME
What We Know So Far About the Texas Mall Shooting
Is Your Work Stress Burnout? A Quiz
Tina Brown on King Charles III
How the Writers Strike Could Impact TV Shows That Are Still Filming
The Hidden Role Ordinary Iranians Have Played in the Protests
Private Security Guards Are Replacing Police Across America
Succession’s 'Tailgate Party' Is a Tale of Two Toxic Marriages
Exclusive: Rep. Anna Paulina Luna Is Pregnant, Would Be 12th Sitting Member of Congress to Give Birth
Why the U.S. May Be Days Away From Another Border Crisis
Write to Billy Perrigo at billy.perrigo@time.com.
you see this when javscript or css is not working correct