## 知的財産権のジレンマ:Adobe事例とその先



大量のデータを用いたAIシステムの訓練は、テクノロジー業界で標準的な手法となっていますが、同時に前例のない法的紛争も引き起こしています。問題の核心は、これらのモデルがどのように能力を獲得するかにあります:多くの場合、著作権で保護された作品を含む巨大なデータセットを処理することで、元の制作者の明示的な同意なしに学習している点です。

### Adobeに注目:SlimLMとBooks3の遺産

2023年以降、Fireflyなどの製品に投資してAIに積極的に取り組むソフトウェア企業のAdobeは、現在、SlimLMの背後にある技術手法を問う集団訴訟に直面しています。オレゴン州出身のノンフィクション執筆ガイドの専門家であるElizabeth Lyonは、自身の作品が無許可でこのモデルの訓練データに含まれていたと主張し、訴訟を主導しています。

この訴訟は、データセットの派生の連鎖を示すもので、問題の複雑さを浮き彫りにしています。SlimLMは、Cerebrasが公開したオープンソースのデータセットであるSlimPajama-627Bを用いて事前訓練されました。問題は、SlimPajamaがRedPajamaの派生物として作成されたものであり、RedPajamaにはさらにBooks3が含まれている点です。Books3は191,000冊の書籍を収めた巨大なコレクションで、多くの法的論争の源泉となっています。各サブセットは前のデータの知的財産権の脆弱性を引き継いでおり、責任の連鎖を生み出しています。

### 業界全体で繰り返されるパターン

Adobeのケースは孤立した事件ではなく、より広範な傾向の一部です。9月には、AppleもRedPajamaをソースとした著作権保護資料を用いてApple Intelligenceを訓練したとして訴えられました。同時に、Salesforceもほぼ同じ根拠で訴訟を受けています。

最も重要な出来事は、AnthropicがClaudeの訓練において著作権侵害の疑いで訴えられた作家たちと1.5百万ドルの和解に合意したことです。この和解は9月に報じられ、AIの訓練データにおける著作権問題の転換点と広く解釈されています。

### 産業の行方は?

集団訴訟の積み重ねは、現行のAI訓練用データ取得モデルが法的に持続不可能であることを示唆しています。テクノロジー企業は、強力なモデルを訓練するには大量のデータが必要ですが、その合法的かつ適正な取得方法は、多くの法域で未だ確立されていません。特に、Adobeのケースでは、SlimLMが前のサブセットから問題のあるデータを継承した方法が、責任追及の追跡可能性を示しています。企業が「オープンソース」と主張していても、責任の所在は複数のデータ処理層を通じて追跡できるのです。

業界は今、法的前例がAI訓練において何が許容されるかを定義し始めている重要な局面にあります。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン