「open-weight ≠ open-source」AIモデルの“オープン”を見抜く

「open-weight ≠ open-source」AIモデルの“オープン”を見抜く

「このモデルはオープンソースだから安心」——AIモデルを選ぶとき、この一言で判断していませんか。実は「オープンソースAI」と呼ばれているモデルの大半は、厳密にはオープンソースではありません。正しくは「オープンウェイト(open-weight)」です。

この違いを知らないと、ライセンス上の制限を見落としたり、再現性・監査性を前提にした設計が破綻したりします。英語圏では2024年以降の重要論点として定着したこのテーマを、日本語で整理します。

免責:本記事は2026年時点の公開情報をもとにした解説であり、法的助言ではありません。個々のモデルのライセンスは必ず公式原文を確認してください。

結論:「重みが公開されている」≠「オープンソース」

区分公開されるもの
オープンウェイト学習済みの重み(パラメータ)のみ。学習データや学習コードは非公開のことが多いLlama、多くの「オープン」LLM
オープンソースAI(OSI定義)重み+学習・推論コード+学習データの詳細情報(再現可能な形)OLMo、Pythia、Amber 等(少数)

多くのモデルは重みだけを公開し、学習データは「競争上の優位」や「著作権上の懸念」を理由に非公開にしています。これらは便利でも、定義上のオープンソースではありません。

【輸入する常識】OSIが定めた「オープンソースAIの定義(OSAID)」

2024年10月、オープンソースの権威である OSI(Open Source Initiative)が Open Source AI Definition(OSAID) を正式承認しました。これにより「オープンソースAI」を名乗る基準が明文化されました。

OSAID は、オープンソースの4つの自由(使用・研究・改変・共有)がAIにも意味のある形で適用されることを求めます。具体的には次の公開が必要です。

  • 推論・学習・データ処理のためのソフトウェア(コード)の完全な公開
  • 学習データの詳細情報(データそのものの配布が難しい場合でも、第三者が理解・再現できる程度の情報)
  • 重み・パラメータ

OSI が OSAID 準拠の例として挙げているモデルは、Pythia(EleutherAI)、OLMo(AI2)、Amber・CrystalCoder(LLM360)、T5(Google)などごく少数です(MIT や Apache 2.0 のような正式な認証プログラムがあるわけではなく、あくまで定義への適合例という位置づけです)。逆に言えば、世間で「オープンソースAI」と呼ばれるモデルの多くは、この基準を満たしていません。

なぜこの違いが実務で効くのか

① ライセンスに独自の制限が隠れている

オープンウェイトのモデルは、MIT や Apache 2.0 のような標準OSSライセンスではなく、独自ライセンスを採用していることが多くあります。Llama の「700M MAU 制限」「命名規約」、Stable Diffusion の「年商$1M閾値」、RAIL系の「行動制限」などが典型です。「オープンソースだから自由」という思い込みが、契約違反につながります。

② 再現性・監査性が担保されない

学習データが非公開だと、モデルがどんなデータで作られたかを検証できません。バイアスの監査、規制対応、セキュリティ評価が必要な用途(医療・金融・公共・選挙関連など)では、これは重大な制約になります。

③ 「RAIL」など行動制限付きライセンスの存在

重みが公開されていても、RAIL(Responsible AI License)系のように用途を制限する条項が付くことがあります。違法行為・差別・特定の高リスク用途を禁止するもので、これも標準OSSには無い概念です。

モデル選定時のチェックリスト

  • そのモデルは「オープンウェイト」か「OSI定義のオープンソースAI」か区別したか
  • ライセンスは標準OSS(MIT/Apache 2.0)か、独自ライセンスか確認したか
  • 独自ライセンスの場合、規模制限・命名規約・行動制限の有無を確認したか
  • 学習データの非公開が、自社の用途(監査・規制対応)で問題にならないか確認したか
  • 「オープンソース」という言葉を鵜呑みにせず、原文に当たったか

「オープン」という言葉は便利ですが、中身は玉石混交です。言葉ではなくライセンス原文で判断するのが、唯一安全な方法です。


個別モデルのライセンスの罠については、こちらもあわせてどうぞ。