2025

Blog

AI copyright abuses infringe (also!) on worker rights

Download publication Link to publication

In the course of some work done for a major online translation engine, I was a firsthand witness to how large language models are manipulating copyrighted third-party intellectual property to train their AI systems. It was surprising enough to me that copyrighted texts so flagrantly showed up in the work, but the true revelation here was how the company protected itself from any potential liability for copyright infringement – by deferring all liability to the freelance workers merely doing the company’s work.

‍

Due to confidentiality provisions in the contract, I cannot (at least for now) name the company in question nor detail in depth the nature of the work I did for it. I was hired as a freelance linguist and the work entailed annotating texts to train its deep learning model. I only did a handful of short projects for this company over the course of months as an independent contractor before terminating the collaboration. It was the first and only language model I have worked for; I wonder whether this AI company’s practices are exceptional or align with others’.

‍

The initial projects seemed unproblematic. In my last project completed, however, in spring of 2025, I was startled to see entire copyrighted texts showing up in the platform: full song lyrics, full press articles, excerpts from novels, entire blog pages, product descriptions, corporate website copy sucked up off the internet. All of which I was paid to annotate according to the explicit instructions provided by the company. Nowhere in these instructions, in any other project instructions, or in the project contract was there any mention of specific provisions regarding the manipulation of copyrighted texts. (To put this into the context of the rest of my editorial work, most projects I receive now include language – in contractual materials, emails, and/or the copyright notice – indicating that no portion of the text may be ingested into LLMs or used to train AI models.)

‍

I duly completed the assignment per the contract assuming, in good faith, that no copyright infringement had occurred; surely the company was respecting intellectual property laws or was at the very least, in this legal gray zone, conforming its practices to legal frameworks that it could defend.

‍

It didn’t sit right with me, though. Several months later I followed up, at first really just asking questions. It took more back-and-forth than I’d expected to get an official response, with some escalation in the process.

‍

I was first erroneously directed to read unrelated clauses in the general contract governing our collaboration (a framework agreement). But upon rereading that general contract, I discovered – to my shock – that I was the party responsible for guaranteeing the protection of third-party copyright in the projects completed. Even worse, the company refused all liability for any potential third-party copyright infringement if legal action were to ensue.

‍

To insist on this point, this is not an exaggeration or a misreading. One clause in the general contract stipulates that I myself, as an independent language contractor, guarantee I will respect all copyright laws and protect all third-party rights, and then in another clause the company explicitly disclaims all responsibility for copyright infringement were I to face legal action merely for doing the contractually agreed work on materials provided by the company. Nowhere in the general contract does the company hold itself to the same standard: the contract does not guarantee that the company will respect copyright or protect third-party rights in the work it outsources to its independent workers. Nor does the general contract reveal that signees will be tasked with manipulating copyrighted texts in their prospective work.

‍

In its legalistic reply to my concerns, the company reiterated my own responsibility in the matter per the contractual terms and informed me that it “cannot provide [me] with legal advice.” As the company stated in that email, most legal questions are currently unanswered pertaining to the fair use of copyrighted intellectual property to train AI models. No one disputes this! But if the company is going to pay freelancers to manipulate copyrighted materials in this unprecedented legal space, it at least must have the decency to take responsibility for it, rather than cowardly passing responsibility off to innocent workers. Instead, this rich tech firm contractually puts the burden on underpaid independent workers – linguists, not lawyers – to interpret unresolved regulatory questions that the company itself declines to comment on and that judicial systems have yet to settle.

‍

Last year, during my denunciation of a language journal whose reviewers used a chatbot to “peer review” a submission of mine, I learned many useful lessons for the onset of the AI era. Chief among them are cynical ones: Everyone is doing this and no one will care. Truly, everyone knows that large language models rely on the exploitation of intellectual property to function. It is not even that it’s an open secret, because the companies admit it, indeed assert their novel right to freely mine online texts heedless of compensating authors for their intellectual property.

‍

I am sounding the alarm here because this situation represents something else altogether: a perfidious labor practice holding innocent annotators contractually liable for an AI company’s legally dubious actions. It is an affront to workers’ rights, notably among non-unionized freelance workers. I had the luxury of ceasing this tedious work once I realized the gravity of what my contract entailed – but many workers do not. The whole point of this post is that most freelancer workers, at least for the tech firm in question, are likely unaware of the perilous legal burden they bear.

‍

My brief stint working with this AI translation platform was instructive for other reasons to me, as a linguist – an aspect worth pursuing in more depth elsewhere. Glimpsing behind the scenes of a state-of-the-art translation model enabled me to grasp input biases in the AI model which are invisible in the user interface. It cannot be stressed enough that, far from “neutral” forms of language as suggested by their seeming naturalness and clarity, the homogenized forms of language that LLMs output are abstractions deeply rooted in hierarchical language ideologies. This troubling incident further indicates how the AI-generated output itself is not the only way these radically ideological content-theft organizations are reenforcing the global power structure.

Nicholas Lo Vecchio

2 July 2025

L’IA enfreint le copyright, mais aussi le droit du travail

‍

Au cours du travail effectué pour un important moteur de traduction en ligne, j’ai été témoin de première main de la façon dont les grands modèles de langage (LLM pour Large Language Models en anglais) manipulent la propriété intellectuelle des tiers protégée par copyright dans le but d’entraîner leurs systèmes d’intelligence artificielle. Je me suis déjà étonné de la présence flagrante de textes protégés par droits d’autaire dans la plateforme de travail, mais la réelle révélation ici est la manière dont l’entreprise se protège de toute responsabilité juridique pour violation du copyright : en déléguant cette responsabilité aux travailleureuses qui ne font qu’effectuer le travail engagé par l’entreprise.

‍

En raison des clauses de confidentialité dans le contrat, je ne peux pas, à ce jour, citer le nom de l’entreprise en question, ni détailler précisément la nature du travail que j’ai fait pour elle. On m’a recruté en tant que linguiste freelance et mon travail consistait à annoter des textes afin d’entraîner son modèle d’apprentissage profond. En quelques mois, je n’ai effectué qu’un nombre limité de missions pour cette entreprise avant de mettre fin à notre collaboration. Cela a été le premier et le seul modèle de langage avec lequel j’ai collaboré. Je me demande si les pratiques de cette entreprise d’IA sont exceptionnelles ou bien si elles s’alignent avec celles des autres entreprises technologiques.

‍

Mes premiers projets ne me semblaient pas problématiques. Ce n’est qu’au cours du dernier projet effectué (au printemps 2025) que je suis interloqué de voir apparaître dans la plateforme des textes – certains dans leur intégralité – protégés par copyright, tels que des paroles de chansons, des articles de presse, des extraits de romans, des blogs, des descriptifs de produits, des textes de sites corporates, tous siphonnés d'internet. L’entreprise m’a payé pour annoter ces textes selon des instructions explicites fournies. Aucune mention n’est faite nulle part – ni dans ces instructions, ni dans les instructions d’autres projets, ni dans le contrat de projet – de dispositifs spécifiques portant sur la manipulation de textes protégés par copyright. (Pour situer cet incident dans le contexte global de mon travail éditorial, la plupart des projets que je traite incluent désormais un avertissement – dans des matériaux contractuels, des mails et/ou la notice de copyright – qui indique qu’aucune portion du texte ne peut être ingérée dans des LLM ou autrement utilisée pour entraîner des modèles d’IA.)

‍

J’ai dûment achevé la tâche selon le contrat de projet en supposant, en toute bonne foi, qu’aucune violation des droits d’autaire ne pouvait avoir eu lieu. Certainement, ai-je pensé, l’entreprise a dû respecter les lois sur la propriété intellectuelle ou pour le moins, dans cette zone grise juridique, alignait ses pratiques à des cadres juridiques qu’elle pouvait défendre.

‍

Quelque chose clochait, tout de même. Quelques mois plus tard, j’ai donné suite, au début sincèrement dans une simple logique de questionnement. Plus d’échanges qu’attendu ont été nécessaires pour recevoir une réponse officielle, et il a fallu monter au créneau dans le processus.

‍

Initialement, on m’a demandé par erreur de relire certaines clauses non pertinentes dans le contrat cadre qui régissait notre collaboration. Mais en relisant ledit contrat, je découvre, stupéfait, que c’est moi la partie responsable de la garantie de la protection du copyright des tiers dans les projets que l’entreprise m’avait confiés. Encore pire, l’entreprise renie toute responsabilité si des actions en justice relatives à d’éventuelles violations du copyright des tiers devaient s’ensuivre.

‍

Pour insister sur ce point, il ne s’agit pas d’une exagération ou d’une mauvaise lecture. L’une des clauses du contrat cadre stipule que c’est moi, en tant que prestataire indépendant, qui dois m’assurer que je respecte la réglementation régissant le copyright et que je protège les droits des tiers. Puis, dans une autre clause, l’entreprise décline explicitement toute responsabilité dans l’éventualité qu’on me porte en justice pour violation des droits d’autaire dans le simple exercice du travail convenu contractuellement et sur des matériaux fournis par l’entreprise. L’entreprise ne se tient nulle part au même standard dans le contrat cadre, car celui-ci ne fait aucune mention de la responsabilité de l’entreprise de garantir la protection des droits des tiers dans ce travail confié aux freelances. Le contrat cadre ne révèle pas non plus que les signataires seront chargé·es de manipuler des textes protégés par copyright dans leur travail futur.

‍

Face à mes questions, l’entreprise a répondu de manière vague et évasive, en réitérant ma propre responsabilité dans l’affaire selon les termes contractuels et m’a informé qu’elle ne pouvait pas me fournir de conseils juridiques. Comme l’entreprise le déclare dans son mail, la plupart des questions relatives à l’utilisation équitable de la propriété intellectuelle aux fins de l’entraînement des modèles d’IA restent ouvertes et non résolues. Personne ne conteste cela ! Mais si l’entreprise tient à embaucher des freelances pour manipuler des matériaux protégés par copyright dans cet espace juridique inédit, elle doit au moins avoir la décence d’en assumer la responsabilité, et non de la déléguer de façon lâche aux travailleureuses innocent·es. Au lieu de cela, cette riche entreprise technologique charge ses freelances – des linguistes, et non des juristes – d’interpréter des questions réglementaires non résolues que l’entreprise elle-même omet de commenter et que les systèmes juridiques ont encore à trancher.

‍

L’an dernier, pendant ma campagne de dénonciation d’une revue linguistique qui s’est servie d’un chatbot pour « expertiser » un article que je lui avais soumis, j’ai appris bon nombre de leçons utiles en ce début de l’ère IA. Elles sont malheureusement et en grande partie cyniques : Tout le monde le fait et tout le monde s’en fiche. Vraiment, tout le monde sait que le « bon » fonctionnement des LLM repose essentiellement sur l’exploitation abusive de la propriété intellectuelle. Il ne s’agit même pas d’un secret de polichinelle, car les entreprises technologiques affirment, voire revendiquent leur droit novateur de fouiller librement les textes se trouvant en ligne au mépris de la rémunération des autaires pour leur propriété intellectuelle.

‍

Je lance l’alerte ici parce que cette situation représente tout autre chose : une perfide pratique de travail qui tient les innocent·es annotateurices comme contractuellement responsables pour les actions d’une entreprise d’IA douteuses sur le plan juridique. C’est un affront aux droits des travailleureuses, notamment des freelances non syndiqué·es. Une fois que je me suis rendu compte de la nature périlleuse de ma situation contractuelle, j’ai eu le luxe de cesser le travail fastidieux et dévalorisant fourni par cette entreprise – mais la plupart des gens ne sont sûrement pas en mesure de faire pareil. Tout le sujet ici, c’est que la plupart des freelances travaillant pour cette entreprise (et peut-être pour d’autres) n’ont probablement aucune idée du lourd fardeau juridique qu’elle leur fait porter.

‍

Ma brève expérience avec cette plateforme d’IA m’a révélé d’autres choses qui m’interrogent en tant que linguiste – aspect qui mérite une discussion à part entière. Apercevoir les coulisses d’un modèle de traduction de pointe m’a permis de saisir certains biais d’input qui sont invisibles dans l’interface d’usage. On ne le dira jamais assez : loin d’être des formes « neutres » de langage comme son caractère apparemment naturel et clair le suggère, les formes de langage homogénéisées produites par les LLM constituent des abstractions profondément ancrées dans des idéologies linguistiques hiérarchiques. Cet incident consternant fournit d’autres preuves que l’output généré par l’IA n’est pas la seule façon dont ces organisations de vol de contenu, radicalement idéologiques, renforcent la structure de pouvoir mondiale.

‍

Nicholas Lo Vecchio

2 juillet 2025

Notes

Sources linked in this post / Sources en lien ci-dessus

‍

Nicholas Lo Vecchio, “Personal experience with AI-generated peer reviews: A case study,” Research Integrity and Peer Review 10, 2025, article 4, DOI: 10.1186/s41073-025-00161-3. [link]

‍

Sue Halpern, “The Coming Tech Autocracy,” New York Review of Books, 2024.11.07. [link]

‍

Thibault Prévost, Les prophètes de l’IA. Pourquoi la Silicon Valley nous vend l’apocalypse, Lux Éditeur, 2024. Voir pp. 168–170 sur le “pillage.” [link]

‍

Ross Perlin, “AI won’t protect endangered languages,” The Dial, 2024.11.14. [link]

‍

Guillaume Carbou, “En finir avec la neutralité de l’IA,” AOC, 2025.05.22. [link]

‍