L’intelligence artificielle générative a ouvert une boîte de Pandore juridique pour l’industrie technologique. Alors qu’Adobe misait sur l’expansion de son arsenal d’outils alimentés par l’IA avec des produits comme Firefly, une nouvelle action collective menace de démanteler les fondements de la construction de ces systèmes. L’accusation est directe : la société de logiciels aurait utilisé des œuvres littéraires piratées pour entraîner SlimLM, sa série de modèles de langage optimisés pour les tâches documentaires sur appareils mobiles.
Le chemin contaminé des données d’entraînement
Le cœur du litige réside dans la manière dont Adobe a obtenu ses données. Selon la plainte déposée par Elizabeth Lyon, auteure de l’Oregon spécialisée dans les guides de non-fiction, SlimLM a été pré-entraîné en utilisant SlimPajama-627B, un ensemble de données publié par Cerebras en 2023. Mais voici le problème critique : SlimPajama n’est pas un jeu de données vierge. Il a été créé en traitant et en manipulant RedPajama, qui contient à son tour un sous-ensemble de données problématiques connu sous le nom de Books3, une collection massive de 191 000 volumes.
Cette chaîne de dérivation est ce qui renforce le cas juridique. Les avocats de Lyon soutiennent qu’en utilisant un sous-ensemble traité de données provenant à l’origine de Books3, Adobe a indirectement incorporé des milliers d’œuvres protégées par le droit d’auteur sans consentement ni compensation. Books3 a été la source de contamination dans de nombreuses initiatives d’entraînement en IA, et chaque nouveau litige expose comment les développeurs perpétuent ce cycle.
Une vague de litiges qui façonne l’industrie
Adobe n’est pas seule dans cette impasse juridique. En septembre, Apple a été accusée de manière similaire pour avoir intégré du matériel protégé par le droit d’auteur dans son modèle Apple Intelligence, avec une mention explicite de RedPajama comme source de contamination des données. Quelques semaines plus tard, Salesforce a reçu un coup légal identique, également lié à l’utilisation de jeux de données contenant des œuvres piratées.
Le schéma est indéniable : les grandes entreprises technologiques ont construit leurs systèmes d’IA sur des structures de données qui ont été contaminées dès l’origine. Il ne s’agit pas d’une négligence accidentelle, mais du résultat d’une industrie qui a privilégié la rapidité de développement au détriment de la diligence légale.
Le précédent qui a changé la donne
L’accord le plus significatif à ce jour est arrivé lorsque Anthropic, créatrice du chatbot Claude, a accepté de payer 1,5 milliard de dollars aux auteurs qui l’ont poursuivie pour utilisation de versions piratées de leurs écrits. Cet arrangement est considéré comme un tournant, un signal que les tribunaux prennent au sérieux la protection des droits d’auteur à l’ère de l’IA.
À chaque nouveau cas citant Books3, RedPajama et ses sous-ensembles dérivés comme preuve d’infraction, l’industrie fait face à une réalité inconfortable : la majorité des modèles d’IA actuels reposent sur des bases juridiques contestables. Ce qui a commencé comme une plainte contre Adobe pourrait finir par être un catalyseur pour repenser entièrement la façon dont les systèmes d’intelligence artificielle sont développés et entraînés.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Adobe sous le feu des critiques : accusée d'entraîner une IA avec des livres piratés via une chaîne de données contaminée
L’intelligence artificielle générative a ouvert une boîte de Pandore juridique pour l’industrie technologique. Alors qu’Adobe misait sur l’expansion de son arsenal d’outils alimentés par l’IA avec des produits comme Firefly, une nouvelle action collective menace de démanteler les fondements de la construction de ces systèmes. L’accusation est directe : la société de logiciels aurait utilisé des œuvres littéraires piratées pour entraîner SlimLM, sa série de modèles de langage optimisés pour les tâches documentaires sur appareils mobiles.
Le chemin contaminé des données d’entraînement
Le cœur du litige réside dans la manière dont Adobe a obtenu ses données. Selon la plainte déposée par Elizabeth Lyon, auteure de l’Oregon spécialisée dans les guides de non-fiction, SlimLM a été pré-entraîné en utilisant SlimPajama-627B, un ensemble de données publié par Cerebras en 2023. Mais voici le problème critique : SlimPajama n’est pas un jeu de données vierge. Il a été créé en traitant et en manipulant RedPajama, qui contient à son tour un sous-ensemble de données problématiques connu sous le nom de Books3, une collection massive de 191 000 volumes.
Cette chaîne de dérivation est ce qui renforce le cas juridique. Les avocats de Lyon soutiennent qu’en utilisant un sous-ensemble traité de données provenant à l’origine de Books3, Adobe a indirectement incorporé des milliers d’œuvres protégées par le droit d’auteur sans consentement ni compensation. Books3 a été la source de contamination dans de nombreuses initiatives d’entraînement en IA, et chaque nouveau litige expose comment les développeurs perpétuent ce cycle.
Une vague de litiges qui façonne l’industrie
Adobe n’est pas seule dans cette impasse juridique. En septembre, Apple a été accusée de manière similaire pour avoir intégré du matériel protégé par le droit d’auteur dans son modèle Apple Intelligence, avec une mention explicite de RedPajama comme source de contamination des données. Quelques semaines plus tard, Salesforce a reçu un coup légal identique, également lié à l’utilisation de jeux de données contenant des œuvres piratées.
Le schéma est indéniable : les grandes entreprises technologiques ont construit leurs systèmes d’IA sur des structures de données qui ont été contaminées dès l’origine. Il ne s’agit pas d’une négligence accidentelle, mais du résultat d’une industrie qui a privilégié la rapidité de développement au détriment de la diligence légale.
Le précédent qui a changé la donne
L’accord le plus significatif à ce jour est arrivé lorsque Anthropic, créatrice du chatbot Claude, a accepté de payer 1,5 milliard de dollars aux auteurs qui l’ont poursuivie pour utilisation de versions piratées de leurs écrits. Cet arrangement est considéré comme un tournant, un signal que les tribunaux prennent au sérieux la protection des droits d’auteur à l’ère de l’IA.
À chaque nouveau cas citant Books3, RedPajama et ses sous-ensembles dérivés comme preuve d’infraction, l’industrie fait face à une réalité inconfortable : la majorité des modèles d’IA actuels reposent sur des bases juridiques contestables. Ce qui a commencé comme une plainte contre Adobe pourrait finir par être un catalyseur pour repenser entièrement la façon dont les systèmes d’intelligence artificielle sont développés et entraînés.