生成AIの訓練にオープンソースソフトウェア(OSS)のコードを使うなら、その成果として生まれたモデルも公開しなければならない。イェール大学のDigital Ethics Centerなどの研究者たちが、そんな発想をライセンスとして具体化した「Contextual Copyleft AI License(CCAI)」を提案した。

『International Journal of Law and Information Technology』に掲載された論文「The case for contextual copyleft: licensing open-source training data and generative AI」[1]の中で著者らは、生成AIモデルをOSSコードの派生物として位置づけ、そのコードで訓練した開発者に対し、モデルのアーキテクチャ、訓練データの説明、パラメータの公開を求めている。

狙いはAI企業に「使うな」と言うことではない。OSSの根本にある自由な利用・改変・再配布を守りつつ、コードを訓練データに取り込んだモデルにも同じ公開義務を課す。コードの複製や改変にしか向いていなかったコピーレフトの適用範囲を、学習によって生まれたモデルへと広げようとする試みだ。

AD

CCAIはコードからモデルへ公開義務をつなぐ

CCAIの骨格は三つある。第一に、利用者がソフトウェアを実行・研究・変更・配布できるという自由を明記する。第二に、コードのコピーや改変版だけでなく、そのコードで訓練されたモデルもCCAIのもとで公開するよう求める。第三に、オンラインサービス越しにソフトウェアやモデルへアクセスさせる場合も「配布」とみなし、公開義務が生じるようにする。

生成AIモデルに対してCCAIが求める公開の対象は、従来のソースコードにとどまらない。訓練データの実質的な説明、モデルの訓練・実行に使うコード、パラメータ、重み、アーキテクチャを最低限の公開対象に含める。Open Source Initiative(OSI)が2024年に定めたOpen Source AI Definition 1.0も同様の立場をとっており、機械学習システムを変更するために必要な情報として、訓練データに関する十分な情報、訓練と実行に使う完全なコード、重みなどのパラメータを挙げている。

従来のコピーレフトは、GNU GPLやAGPLのように、配布される派生ソフトウェアにも同じ自由を保たせる仕組みとして機能してきた。GNU/FSFは自由ソフトウェアの条件として、実行・研究と変更・再配布・変更版の配布という四つを挙げ、コピーレフトとはその自由を再配布先から奪う追加制限を禁じるルールだと説明する。CCAIはこの考え方を、AIモデルの訓練という新しい経路に合わせて作り直したものだ。

核心にあるのは、訓練データとして使われたOSSコードを「過去の素材」として切り離さないことだ。コードがモデルの能力形成に使われたなら、そのモデルも公開性を引き継ぐべきだという論理で、重みだけが公開されてデータの出処や訓練コードは非公開のまま、という状態にコピーレフトの言葉で線を引き直す。

最大の条件はfair useをめぐる未確定な法的判断だ

ただし、CCAIがそのまま強力な武器になるわけではない。論文自身が、法的な効力はAI訓練が著作権法上のfair useに当たらないという前提に依存すると整理している。AI訓練がfair useと判断されれば、元コードの著作権者が設定したライセンス条件をモデル側へ及ぼすことは難しくなる。

論文は、ライセンスが異なる文脈へ広がる場合に確認すべき条件として、対象の作品が元の作品の派生物に当たるかどうか、元作品の利用がfair useの範囲を外れているかどうか、という二点を置く。CCAIの仕組みは、OSSコードで訓練されたモデルを派生物として扱える場合にはじめて動き出す。生成AIと著作権をめぐる訴訟や政策判断はまだ固まりきっていない領域だ。

既存ライセンスとの相性も実務上の論点になる。CCAI条項を既存のOSSライセンスに追加すると新たなライセンス変種が生まれ、追加制限を認めないGPLのようなライセンスでは互換性に注意が要る。「既存のGPLに一文足せば済む」といった単純な話ではない。

オンライン提供を配布とみなす発想はAGPLに近い。生成AIモデルはAPIやWebサービスの形で提供されることが多く、モデルのコピーを直接配らなくても機能を届けられる。CCAIがネットワーク越しのアクセスを配布に含めるのは、モデルを非公開のままサービスとして提供するという抜け道を塞ぐためだ。

AD

「重みだけ公開」のオープンウォッシングに線を引く

近年のAIモデルには、重みだけを公開して「オープン」と称する例がある。しかし、訓練データの出処・選定方法・処理内容、訓練コード、検証手順がわからなければ、第三者が同等のモデルを再現したり欠陥を検証したりすることは難しい。

OSIのOpen Source AI Definition 1.0は、オープンソースAIにはシステムを任意の目的で利用し、仕組みを調べ、変更し、共有できる自由が必要だと定める。そのために、訓練データについて十分に詳しい情報、訓練・実行の完全なコード、重みなどのパラメータが必要だとしている。CCAIは、この基準をコピーレフトの義務としてモデル開発者へ課そうとするものだ。

論文が期待する効果は三つある。OSS開発者が自分のコードをどのようなAI開発に使わせるかをコントロールしやすくなること、CCAIコードを使う以上モデルも公開しなければならないため真にオープンな生成AIモデルを作る誘因が生まれること、部分的な公開だけでオープン性を装うオープンウォッシングを抑えられること、だ。

この構図はGitHub Copilotをめぐる対立ともつながっている。コード生成AIは大量のコードを必要とし、公開リポジトリは重要な訓練源となってきた。AI訓練はfair useだとする立場と、OSSコミュニティのライセンス条件を無視しているとする立場がぶつかり合っている。CCAIは、無制限の訓練許可と全面禁止のあいだに、公開を条件とした第三の選択肢を差し込む。

公開性だけではAIの悪用リスクを止められない

論文はオープンな生成AIのリスクも正面から認めている。従来のOSSでは、コードを公開することで多くの開発者がバグや脆弱性を発見して修正できる。生成AIでは事情が変わる。公開されたモデルは、有害コンテンツの生成、精度の高いフィッシングメール、詐欺や操作的な利用など、より直接的に害を増幅しうる。

CCAIは、利用目的を制限するライセンスへは踏み込まない。オープンソースの自由は特定の目的での利用を禁じないことを含むからだ。研究者たちはCCAIだけでは悪用を止められないと明確に述べている。CCAIが担うのは公開性の確保であり、悪用リスクへの対処は責任あるAI利用に関する規制と組み合わせる必要がある。

論文が例に挙げるのがEU AI Actだ。Article 5は2025年2月2日に発効し、潜在意識に働きかける技術や操作・欺瞞的な手法によって意思決定を歪め重大な害をもたらすAIシステムなどを禁じている。こうした規制が、オープンな生成AIの直接悪用リスクを抑える補完策になりうると論文は位置づける。

CCAIの実用性はライセンス単体では完結しない。著作権法がAI訓練をどう扱うか、OSSコミュニティがどこまで採用するか、モデルの公開に必要な情報をどう標準化するか、そしてオープンなモデルの悪用を社会がどう抑えるか。提案の意義は生成AI企業への即効性よりも、OSSコードをAI時代の公共資産として扱うための交渉軸を示す点にある。

AD

開発者にとっての焦点は「禁止」ではなく「公開条件」になる

CCAIが普及すれば、OSS開発者は自分のコードをAI訓練から遠ざけるのではなく、訓練に使うならモデルも公開するよう求められるようになる。プロプライエタリAI企業はCCAIコードを避けるか、モデル公開を受け入れるかの二択を迫られる。オープンなモデルを作る開発者にとっては、使える高品質コードの範囲が広がりうる。

採用が広がらなければ効果は限定的だ。AI開発者がCCAIコードを回避できるなら、モデル公開への圧力は弱くなる。ライセンス互換性の問題が大きければ、既存OSSプロジェクトへの導入も進みにくい。モデルがどのコードで訓練されたかを外部から確認する難しさも残る。それでも、明確な条件があるだけで遵法的な組織への抑止にはなると論文は見ており、実務上の検証手段は別途必要になる。

今後の注目点は、CCAIが実際のOSSライセンス審査やプロジェクト運用に採り入れられるかどうかだ。法廷でAI訓練とfair useの境界が定まるまで、CCAIは条件付きの設計図にとどまる。それでも、生成AI企業が「オープン」を名乗るなら重みだけでなく訓練データの説明・訓練コード・モデル構造まで問われるという圧力は強まりつつある。CCAIは、その圧力をコピーレフトの文法で制度化しようとする提案だ。