blog

AI学習データ・公開情報の著作権リスク——Appleの訴訟が示す日本企業の法的盲点

AI学習データ・公開情報の著作権リスク——Appleの訴訟が示す日本企業の法的盲点

Appleが直面した訴訟——「公開動画」をAI学習に使えば問題ないのか

2026年4月、YouTubeチャンネルh3h3ProductionsのEthan Klein・Hila Klein夫妻、MrShortGame GolfのMatt Fisher、Golfholicsの3チャンネルが、AppleをカリフォルニアIT北部地区連邦地裁にクラスアクションで提訴した。訴因は、AppleがYouTubeのスクレイピング防止措置を回避してAIモデルの学習データとして動画を利用し、DMCAに違反したというものだ。原告らの根拠は、Appleの研究論文「STIV」においてPanda-70Mデータセットが使用されたとされる点にある(MacRumors・9to5Mac報道)。

Appleは2026年7月初旬、「動画は一般公開されており、DMCA§1201(a)が定める『アクセス制御』要件を満たさない」「YouTubeの利用規約もAppleのアクセスを許可している」と主張し、訴訟の棄却を申し立てた(AppleInsider・appleworld.today報道)。訴訟は継続中であり、裁判所による事実認定は未確定である。同種の訴訟はMeta、Nvidia、ByteDance、Snap、Amazon、OpenAIにも提起されており(MacRumors・9to5Mac報道)、これはApple固有の問題ではなく、AI開発・利用全体に通底する構造的リスクだ。

この訴訟が経営者に問いかけるのは、法廷の帰趨だけではない。「誰でも閲覧できる情報をAI学習に使っても問題ない」という前提が、いかに脆弱な根拠に立っているかを具体的に照射している点にこそ、日本企業にとっての実務的な意義がある。

AI学習データと著作権——日本法の現在地とその限界

日本の著作権法30条の4は、著作物を情報解析(機械学習を含む)の用に供することを、著作権者の許諾なく行える旨を規定している。文化庁の「AIと著作権」資料は、この条文を「原則として許諾不要」と整理しながらも、重要な例外を明示している。

著作権者が「AIへの学習利用を禁止する」意思を明示している場合、その意思表示を無視して学習データに使用することは著作権侵害となり得る。これは文化庁「AIと著作権」において示された解釈であり(文化庁、AIと著作権)、「公開されているから何でも使える」という理解は日本法においても誤りである。

文化庁「AIと著作権Ⅱ」はさらに踏み込み、著作権法上の許容範囲を外れるケースとして以下の論点を整理している(文化庁、AIと著作権Ⅱ)。

  • 技術的保護手段(スクレイピング防止措置等)を回避して収集する行為
  • 機械学習目的の利用を利用規約で禁止しているプラットフォームからの収集
  • 「享受目的」が混在すると判断される利用形態
  • 海賊版サイト等の権利侵害コンテンツを含むデータセットの使用

Appleの訴訟は「スクレイピング防止措置の回避」と「プラットフォームの利用規約との整合性」を争点としており、日本法における論点と構造的に重なる。この訴訟を「米国の話」として傍観することは、リスク管理として適切ではない。

AI学習の技術的背景を理解するうえでは、ディープラーニングの仕組みと企業活用の論点も参照されたい。

学習データの収集対象(公開Webコンテンツ・動画等)技術的保護手段の回避はないか?robots.txt・スクレイピング防止等回避あり高リスク法的問題の可能性回避なし利用規約・権利者が学習禁止を明示?opt-out表示・利用規約の禁止条項等禁止あり高リスク日本法でも侵害可能性禁止なし享受目的の混在・海賊版混入はないか?利用目的の文書化・データセット素性確認混在あり中〜高リスク要個別判断問題なし著作権法30条の4の範囲内(適法利用の可能性)
図:AI学習データ収集時の著作権リスク判定フロー。「公開情報だから問題ない」と判断する前に、技術的保護手段の回避の有無・利用規約の禁止条項・権利者のopt-out表示・データの素性を順に確認する必要がある。文化庁「AIと著作権」「AIと著作権Ⅱ」の論点を踏まえて整理。

AI学習データ・公開情報の著作権リスク——日本企業が見落としがちな4つの論点

日本の企業・開発者がAIモデルの学習やファインチューニングのためにWebコンテンツを収集する場面で、特に注意を要するリスクの所在を整理する。

第一の論点:技術的保護手段の回避

robots.txtによるクロール制限、ログイン壁、レートリミット、JavaScriptレンダリングによる保護——これらを意図的に回避してコンテンツを取得する行為は、日本の不正競争防止法および著作権法上の問題となり得る。Appleの訴訟において「スクレイピング防止措置の回避」が訴因の核心であることは、この論点が技術的な工夫の話ではなく法的責任の話であることを明示している。

エンジニアが「技術的に取得できる」ことと、法的に「取得してよい」こととは別の問いである。収集パイプラインの設計段階から法務が関与するプロセスを設けることが、リスク管理の起点となる。

第二の論点:利用規約による明示的禁止

YouTube、X(旧Twitter)、各種ニュースサイトは、機械学習目的のデータ収集を利用規約で明示的に禁止しているケースが多い。Appleの弁護側は「YouTubeの利用規約がAppleのアクセスを許可している」と主張しているが、その解釈は現在も争われている。

日本企業が自社のAI開発あるいは外部ベンダーを通じたモデル学習を行う際、データソースの利用規約を精査せずに進めることは、著作権侵害に加えて契約違反・不法行為責任を招くリスクを持つ。利用規約の確認と記録を、データ収集の前提条件として社内手続きに組み込む必要がある。

第三の論点:著作権者のopt-out意思表示

文化庁「AIと著作権に関するチェックリスト&ガイダンス」は、著作権者が学習利用を明示的に禁止している場合は著作権法30条の4の適用外となり得ることを示している(文化庁、AIと著作権に関するチェックリスト&ガイダンス)。クリエイターや報道機関によるopt-out表示は増加傾向にあるとみられ、収集対象のコンテンツについて権利者の意思表示を確認しないまま学習に使用することは、侵害リスクを高める。

第四の論点:調達データセットへの海賊版・権利侵害コンテンツの混入

文化庁「生成AIをめぐる最新の状況について」では、学習用データとして収集されているとされる海賊版サイトのコンテンツが問題視されている(文化庁、生成AIをめぐる最新の状況について)。外部から調達するOSSデータセットや商用データセットにこうした素材が混入していた場合、最終的な責任の帰属が不明確になりやすく、サプライチェーンリスクとして管理する視点が求められる。

テキストマイニングやデータ分析を内製で活用している企業は、テキストマイニングの実務的な位置づけも参照しながら、収集・処理フローを見直すことが望ましい。マルチモーダルAIや動画・画像データを学習に用いる場合はリスクがさらに複合化する点についても、マルチモーダルAIの仕組みと企業利用の論点を合わせて確認されたい。

企業が今取るべき実務的な対応——リスク管理のチェックポイント

以下では、AI学習データの調達・利用に際して経営・法務・開発の各層が確認すべき実務論点を整理する。「AI学習データ 公開情報 著作権リスク」に関わるガバナンス体制の現状と照らし、優先順位を判断する材料として活用されたい。

AI学習データ 公開情報 著作権リスク——確認項目・リスク水準・対応の方向性
確認項目 リスクレベル 対応の方向性
データソースの利用規約 AI学習目的の利用が規約上許可されているかを法務部門が確認・記録する
技術的保護手段の存否・回避の有無 robots.txt・レートリミット等を遵守し、回避ツールの使用を原則禁止とする
権利者のopt-out意思表示の有無 収集対象コンテンツに学習禁止の意思表示がないかスクリーニングする
調達データセットの素性・ライセンス 中〜高 外部ベンダー・OSSデータセットの収集経緯を契約上の表明・保証事項として取得する
享受目的の混在リスク 学習データがそのままコンテンツ消費に転用される設計を避け、利用目的を文書化する
訴訟リスクへの保険・契約整備 知財・テクノロジーE&O保険の検討、ベンダー契約への著作権保証条項の追記

社内ガバナンスとして整備すべき3点

第一に、データソース台帳の整備。学習データの収集源・収集日・利用規約確認の記録を一元管理する台帳を作成し、問題が生じた際に収集経緯を証明できる体制を整える。Appleの事例に見るように、研究論文・技術報告書を分析することで使用データセットが特定されるリスクがある。収集当時の善意・相当注意を証明できる記録は、法的主張において実質的な意味を持ち得る。

第二に、外部モデル・データセットの調達審査。OSSや外部ベンダーから提供されるモデル・データセットについて、学習データのライセンスを契約上の表明・保証事項として明示させる。自社が学習に直接関与していなくても、調達・利用企業として責任が問われる可能性は排除できないという認識が必要だ。機械学習の開発プロセスと著作権リスクの関係については、機械学習の開発プロセスと企業適用の考え方も参考になる。

第三に、法務・エンジニアの連携体制。エンジニアが技術的に「取得できる」状態であることと、法的に「取得してよい」こととを混同しないよう、収集パイプラインの設計段階から法務が関与するプロセスを設ける。強化学習において報酬設計に用いるデータが著作物を含む場合も同様の論点が生じるため、強化学習の企業適用における留意点も確認されたい。

「公開情報なら使える」という前提を経営レベルで見直す

Appleの反論——「動画は一般公開されていた」——は、日本企業の多くが暗黙に前提としている論理と同じ構造を持つ。しかし文化庁のガイダンスが明示するように、日本法における著作権法30条の4の保護は無制限ではなく、技術的保護手段の回避・利用規約違反・権利者の明示的禁止という複数のフィルターを通過しなければ適用されない。

この訴訟の帰趨がどうであれ、米国・欧州・日本いずれにおいても「AI学習データ 公開情報 著作権リスク」をめぐる法解釈は現在進行形で形成されつつある。確定していない法的論点を「大丈夫なはず」で処理することは、経営上のリスク管理として適切ではない。生成AIや自然言語処理の導入を進める企業にとって、データ調達の法的根拠を整備することは、技術選定と同等の優先度で扱われるべき課題だ。自然言語処理モデルの企業適用と法的留意点や、生成モデルの技術的背景と利用上の論点も、データ収集の文脈で参照する価値がある。

今この時点で台帳整備・規約確認・契約見直しに着手することが、中長期的な損害リスクの抑制につながる。法解釈の変化は予告なく到来する。現行の運用を「問題が出てから見直す」姿勢では、対応コストが格段に高くなる可能性がある。


参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • オンボーディングの設計と実践|定着しない根本原因と「練習ループ」の組み込み方

    オンボーディングの設計と実践|定着しない根本原因と「練習ループ」の組み込み方

    「オンボーディングが大事なのはわかっている。でも、実際に何をすれば定着するのかがわからない」——そんな声を、人事担当者や現場マネージャーから繰り返し聞いてきまし...

  • AI学習データ・公開情報の著作権リスク——Appleの訴訟が示す日本企業の法的盲点

    AI学習データ・公開情報の著作権リスク——Appleの訴訟が示す日本企業の法的盲点

    Appleが直面した訴訟——「公開動画」をAI学習に使えば問題ないのか 2026年4月、YouTubeチャンネルh3h3ProductionsのEthan Kl...

  • ChatGPT翻訳の使い方:精度を引き出すプロンプトと注意点【2026年版】

    ChatGPT翻訳の使い方:精度を引き出すプロンプトと注意点【2026年版】

    ChatGPT翻訳が従来ツールと根本的に異なる理由 Google翻訳やDeepLが「文字列を別言語に置き換える」ことに特化しているのに対し、ChatGPTによる...

View more