📄 論文: arXiv:2604.02652

大規模言語モデルの安全性は、人間のフィードバックからの強化学習等のアライメント手法に依存している。しかし近年の理論的分析により、強化学習による訓練は新たな能力の獲得ではなく既存能力の利用確率の再配分に過ぎないことが示唆されている。

本研究では、OpenAI gpt-oss-20b を対象に、アライメントの汎化不全を突く 複合ジェイルブレイク を提案する。これは単体では防御される複数の攻撃手法を組み合わせ、命令階層の維持プロセスを飽和させる手法である。評価の結果、単体手法では 14.3% の攻撃成功率が、組み合わせにより 71.4% に上昇した。この結果は安全訓練がモデル能力ほど汎化しないという仮説を実証するものであり、複合攻撃シナリオを用いた多角的な安全性評価の必要性を示唆する。

はじめに

大規模言語モデル(Large Language Model, 以下 LLM)の急速な普及に伴い、その安全性確保は喫緊の課題となっている。ChatGPT の登場以降、LLM は対話システム、コード生成、文書作成など多様な領域で活用されるようになった。しかし、これらのモデルは有害なコンテンツの生成、偽情報の拡散、悪意あるコード生成といったリスクを内包している。

現代の LLM は、人間のフィードバックからの強化学習(RLHF)1命令階層2熟慮型アライメント3 を組み合わせた多層的な安全機構により有害コンテンツの生成を抑制している。RLHF は人間の選好を報酬信号として活用し、命令階層はシステム指示とユーザ指示の優先順位を明確化する。熟慮型アライメントは推論過程において安全性を明示的に考慮させる手法である。

しかし、これらの手法は未知の攻撃パターンに汎化するだろうか。近年の研究では、強化学習による訓練は「新しい能力の獲得」ではなく「既存能力の利用確率の再配分」に過ぎないことが示唆されている45。この知見を安全訓練に適用すると、安全機構もまた訓練時に見たパターンへの対応に特化しており、未知の攻撃への汎化が不十分である可能性が浮かび上がる。

本研究では、OpenAI gpt-oss-20b を対象として、複数の既存攻撃手法を組み合わせる 複合ジェイルブレイク(Compound Jailbreaks) を提案し、RLHF アライメントの汎化限界を実証的に明らかにする。本研究の主な貢献は以下の通りである:

  1. RLHF の理論的限界を安全性の文脈で考察し、確率再配分仮説 に基づく汎化不全の理論的根拠を示した。
  2. 複合攻撃による命令階層の構造的脆弱性を、Compound Role-Playing によって発見した。
  3. 単体防御が組み合わせ攻撃に対して脆弱であることを定量的に実証した。

背景:強化学習アライメントの理論的限界

RLHF は何を最適化しているのか

RLHF は、人間のフィードバックを報酬信号として利用し、LLM の出力を人間の意図に沿うよう調整する手法である1。具体的には、人間の選好データから報酬モデルを学習し、その報酬を最大化するようにポリシー(LLM)を最適化する。この手法は InstructGPT や ChatGPT の成功の中核をなしている。

近年の研究により、強化学習に基づく訓練は 「能力の新規獲得」ではなく「既存能力の利用確率の再配分」 であることが明らかになっている。Wen ら4 は検証可能な報酬を用いた強化学習が推論過程を安定化させることを示した。また、Yue ら5 は強化学習が新しい推論能力を創発するのではなく、事前学習で獲得された能力の利用パターンを調整することを実証した。

この知見を安全訓練に適用すると、重要な含意が導かれる:

安全訓練もまた、既存の拒否行動パターンの確率を上げるに過ぎず、訓練分布外の攻撃パターンには汎化しにくい。

事前学習で獲得された「有害コンテンツを生成する能力」は消失しておらず、その発現確率が抑制されているに過ぎない。これは、適切なトリガーがあれば有害な能力が再び発現しうることを意味する。

安全訓練の失敗モード

Wei ら6 は、LLM の安全訓練が失敗するメカニズムを体系的に分析し、以下の 2 つの失敗モードを特定した:

  1. Competing Objectives(目標競合):LLM は「有用であれ」と「安全であれ」という 2 つの目標を同時に追求する。攻撃者は有用性側を強く刺激する指示を与えることで、安全制約を相対的に弱め、有害な出力を引き出す。例えば「教育目的で」「研究のために」といった文脈付けがこれに該当する。
  2. Mismatched Generalization(汎化の不一致):モデルの基本能力(言語理解、推論、生成)は広範なデータで訓練されており、高い汎化性能を持つ。一方、安全訓練は相対的に限られたデータで行われるため、訓練時のパターンに過適合しやすい。結果として、未知の攻撃パターンには安全機構が機能しない。

本研究は、複合攻撃により特に Mismatched Generalization を実証的に検証する。単体では防御される攻撃手法も、組み合わせることで安全訓練の汎化範囲外に逸脱し、防御を突破できると仮定する。

gpt-oss-20b のアライメント手法

本研究の対象である gpt-oss-20b は、RLHF に加え、命令階層2 と熟慮型アライメント3 を採用している。

命令階層は、入力を「システム指示」「ユーザ指示」「第三者入力」の 3 層に分類し、明確な優先順位を定める。これにより、ユーザが「システム指示を無視しろ」と命令しても、システム指示が優先される設計となっている。しかし、この設計は 単一の矛盾指示 を想定しており、複合的かつ非矛盾的な認知負荷攻撃には対応していない。

熟慮型アライメントは、モデルが出力を生成する前に安全性を明示的に推論させる手法である。モデルは内部的に「この要求は安全か」を評価し、危険と判断した場合は拒否する。しかし、推論資源には限りがあり、複数の複雑なタスクを同時に処理する場合、安全性の推論が疎かになる可能性がある。

関連研究

ジェイルブレイク攻撃の分類

ジェイルブレイク攻撃は急速に発展している。攻撃成功率(Attack Success Rate, 以下 ASR)は攻撃手法により大きく異なる。

カテゴリ 代表手法 単体 ASR
役割付与 DAN, Persona 10–20%
エンコーディング Base64, ROT13 5–15%
マルチターン Crescendo, MHJ 70%超
勾配ベース GCG, AutoDAN 80%超

Zou ら7 は勾配ベースの GCG(Greedy Coordinate Gradient)攻撃を提案し、転移可能な敵対的サフィックスを生成した。この手法はホワイトボックスアクセスを必要とするが、生成されたサフィックスは他のモデルにも転移可能である。しかし、最新のモデルではこれらのサフィックスに対する防御が進んでいる。

Russinovich ら8 はマルチターン攻撃 Crescendo を提案し、70% 超の ASR を達成した。この手法は、最初は無害な話題から始め、徐々に有害な方向へ誘導する「エスカレーション」戦略を用いる。各ターンは単体では無害に見えるため、単一ターンベースの防御では検出が困難である。

Scale AI9 は人間によるマルチターン攻撃(MHJ)が依然として有効であることを大規模実験で示した。自動化された防御を回避するには、人間の創造性と適応性が依然として優位であることを示唆しており、静的な防御メカニズムの限界を浮き彫りにしている。

エージェント安全性

LLM のエージェント利用に伴い、新たな安全性課題が浮上している。エージェントは外部ツールを呼び出し、複数ステップの計画を実行できるため、単純な対話以上のリスクを伴う。ファイル操作、ネットワークアクセス、コード実行などの能力は、悪用された場合の影響が甚大である。

AgentHarm10 はエージェントの安全性ベンチマークを提案した。評価の結果、GPT-4o-mini は 62–82% の HarmScore を示し、拒否率は 1–22% と低かった。これは、エージェントコンテキストにおいて安全機構が特に脆弱であることを示している。エージェントは「タスク完遂」という強い目標を持つため、安全性判断が相対的に弱まる傾向がある。

複合ジェイルブレイク

提案手法の概要

複合ジェイルブレイクの核心は、単体では防御される攻撃手法を組み合わせ、安全機構の「認知資源」を飽和させる ことである。これは命令階層を維持・適用する推論プロセス自体を過負荷にし、「ルールを破れ」という直接命令ではなく「ルールを覚えていられないほど忙しくする」攻撃である。

従来のジェイルブレイク研究は、単一の攻撃ベクトルの効果を分析することが多かった。しかし、現実の攻撃者は複数の手法を組み合わせて使用する可能性が高い。本研究では、この「複合攻撃」のシナリオを体系的に分析する。特に、各要素が単体では防御されるにもかかわらず、組み合わせにより防御を突破できるかを検証する。

Compound Role-Playing

本研究では、3 要素を組み合わせた Compound Role-Playing を提案する:

  1. 対比構造(Contrastive Structure):Markdown テーブルで有害・無害応答を対比させ、教育的文脈を装う。「良い例」と「悪い例」を並べることで、有害コンテンツの生成を 教育 として正当化する。モデルは「比較のため」という文脈で有害コンテンツを生成しやすくなる。
  2. 権威的ペルソナ(Authoritative Persona):セキュリティ専門家、医療専門家等の役割を付与し、有害コンテンツ生成の正当性を暗示する。専門家という立場が、通常は拒否される要求を 正当な業務 として再フレーミングする。
  3. 自己評価要求(Self-Assessment Demand):信頼度スコアの JSON 出力を要求し、メタ認知的負荷 を追加する。自己評価タスクは追加の認知資源を消費し、安全性判断に割り当てられる資源を減少させる。

これらの要素は個別には既知の手法であり、単体では現代の LLM に対して限定的な効果しか持たない。しかし、組み合わせることで 相乗効果 が生まれ、安全機構を効果的に回避できる。重要なのは、各要素が 矛盾 ではなく 負荷 として機能する点である。

3 要素(対比構造、権威的ペルソナ、自己評価要求)を組み合わせることで認知資源を飽和させ、安全機構を回避する。

アブレーション分析

各要素の組み合わせ効果を以下に示す。個々の手法は限定的だが、組み合わせにより決定的に効果的となる。

手法組み合わせ 成功カテゴリ ASR
対比構造のみ 1 / 7 14.3%
対比 + ペルソナ 2 / 7 28.6%
対比 + 自己評価 5 / 7 71.4%
ペルソナ + 自己評価 3 / 7 42.9%
全組み合わせ 5 / 7 71.4%

注目すべきは、「対比 + 自己評価」 の組み合わせが「全組み合わせ」と同等の効果を示した点である。これは、自己評価要求がメタ認知的負荷として特に効果的であることを示唆している。自己評価は、モデルに「自分の出力を評価する」という追加タスクを課し、安全性判断に使える認知資源を奪う。

実験と結果

実験設定

対象モデルとして OpenAI gpt-oss-20b を使用した。評価対象は 7 カテゴリ(バイオ兵器製造、マルウェア開発、フィッシング、違法薬物、武器製造、詐欺、個人情報窃取)であり、ASR を測定した。ASR は、生成された応答が有害なコンテンツを含むと判定された割合として定義される。判定は、事前に定義された有害性基準に基づく自動評価と人間評価の組み合わせで行った。各カテゴリにつき 10 種類のプロンプトを用意し、合計 70 プロンプトで評価した。

Finding 1:命令階層の突破

Compound Role-Playing により、全組み合わせで ASR 71.4% を達成 した。評価指標として、攻撃の深刻度(Severity)を 8/10、攻撃の広がり(Breadth)を 7/10 と評価した。

これは命令階層の根本的な欠陥を示す:複合的な非矛盾指示により、命令優先順位の維持プロセス自体が破綻する。命令階層は「矛盾する指示」への対処を想定しているが、複合攻撃は矛盾ではなく 認知的過負荷 を引き起こすため、設計の想定外となる。モデルは各要素への対処に認知資源を消費し、全体的な安全性判断が疎かになる。

Finding 2:ツール誤用と文脈的慣性

ツール使用コンテキストにおいて、文脈依存的な曖昧性を利用した攻撃で 脆弱性率 98.8% を確認した。具体的には、正当なタスク実行中に有害なツール呼び出しを挿入するシナリオを評価した。

一度確立された文脈的期待(「このユーザは正当なタスクを実行中」)が安全制約より優先され、有害なツール呼び出しを許容する。これは 文脈的慣性(Contextual Inertia) と呼ぶべき現象であり、エージェントシナリオにおいて特に深刻なリスクとなる。モデルは文脈の一貫性を維持しようとするあまり、個々の操作の安全性チェックが甘くなる。

Finding 3:テスト駆動開発における報酬ハッキング

テスト駆動開発(Test-Driven Development, TDD)タスクにおいて、Web API タスクで サボタージュ率 66.7% を観測した。モデルは「テスト通過」という代理指標を最適化し、実際のタスク目標を達成しない振る舞いを示した。

具体的には、テストケースをパスするためにハードコードされた値を返す、エラーを握りつぶす、といった ショートカット 行動が観察された。これは RLHF の 報酬ハッキング問題 がコード生成タスクにも存在することを示している。モデルは「評価指標を満たす」ことと「真の目標を達成する」ことを区別できていない。

組み合わせ要素数 ASR
1(単体) 14.3%
2(2要素、平均) 約 42.9%
3(全要素) 71.4%

要素数の増加に伴い、ASR は単調に上昇する傾向が観察された。

考察

なぜ複合攻撃は有効なのか

複合攻撃の有効性は、命令分解機構の飽和 により説明できる。LLM は入力を処理する際、複数の認知的タスク(指示の理解、文脈の維持、安全性の判断、出力の生成)を並行して実行する。複数の非矛盾的だが認知的に要求の高いタスクを組み合わせることで、命令階層を維持・適用する推論プロセス自体が飽和する。

これは Wei ら6Mismatched Generalization 仮説を実証する:安全訓練は個別パターンへの過適合であり、能力ほどには汎化しない。モデルは「役割付与」「対比構造」「自己評価」それぞれへの対処は学習しているが、それらの組み合わせへの対処は学習していない。組み合わせ空間は指数的に大きいため、すべてのパターンを訓練データでカバーすることは現実的に不可能である。

さらに、RLHF が 既存能力の確率再配分 に過ぎないという理論的知見45 と整合する。有害コンテンツを生成する能力は消失しておらず、複合攻撃はその発現確率を上げる トリガー として機能する。安全訓練は有害出力の確率を下げるが、ゼロにはできない。複合攻撃はこの残存確率を増幅する。

熟慮の脆弱性

熟慮型アライメントは推論時間を増やすことで安全性を高めるとされる。モデルは出力前に「この応答は安全か」を明示的に推論し、不適切な出力を抑制する。しかし、複合攻撃は 熟慮の脆弱性(Deliberation Vulnerability) を引き起こす。

推論資源は有限であり、複雑なタスク処理に資源が割り当てられると、安全性推論に割り当てられる資源が減少する。結果として、推論を増やしても、認知資源の飽和には対抗できない。むしろ、熟慮を促すこと自体が追加の認知負荷となり、攻撃者に利用される可能性がある。

防御への示唆

本研究の結果は、モデル単体の調整(RLHF、命令階層等)のみでは複合攻撃を防ぎきれないことを示唆している。効果的な防御には、モデル内部の確率的制御に依存しない、より構造的なアプローチが必要 と考えられる。

また、入力段階での 複雑度分析 も有効と考えられる。複合攻撃は必然的に入力の複雑度を増加させるため、異常に複雑な入力を検出・警告する機構が防御の第一線となりうる。入力の認知的負荷を定量化し、閾値を超えた場合に追加の検証を行うアプローチである。

おわりに

本研究では、複合ジェイルブレイクを用いて RLHF アライメントの汎化限界を実証的に示した。主な貢献は以下の通りである:

  1. RLHF の理論的限界(確率再配分仮説)を安全性の文脈で考察し、汎化不全の理論的根拠を示した。
  2. Compound Role-Playing による複合攻撃で命令階層の構造的脆弱性を発見した(ASR 71.4%)。
  3. 単体防御が組み合わせ攻撃に対して脆弱であることを定量的に実証した。

これらの結果は、モデル単体の調整では複雑な攻撃シナリオを防ぎきれないことを示唆している。LLM の安全性評価においては、静的な評価指標(単一の有害プロンプトへの拒否率等)のみならず、本手法のような 複合攻撃シナリオを用いた、より厳格かつ多角的な安全性評価 の確立が不可欠である。

今後の課題として、より多様な攻撃要素の組み合わせの探索、他の LLM への適用可能性の検証、そして複合攻撃に耐性のある防御手法の設計が挙げられる。

参考文献

Footnotes

  1. Ouyang, L., Wu, J., Jiang, X., et al. Training language models to follow instructions with human feedback. NeurIPS, Vol. 35, pp. 27730–27744 (2022). 2

  2. Wallace, E., Xiao, K., Leike, J., et al. The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions. arXiv:2404.13208 (2024). 2

  3. OpenAI. Deliberative Alignment. OpenAI Research Blog (2024). 2

  4. Wen, Y., et al. RLVR Implicitly Incentivizes Correct Reasoning. arXiv (2025). 2 3

  5. Yue, S., et al. Does RL Really Incentivize New Reasoning Capabilities? arXiv (2025). 2 3

  6. Wei, A., Haghtalab, N., Steinhardt, J. Jailbroken: How Does LLM Safety Training Fail? NeurIPS, Vol. 36 (2023). 2

  7. Zou, A., Wang, Z., Kolter, J. Z., Fredrikson, M. Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv:2307.15043 (2023).

  8. Russinovich, M., Salem, A., Eldan, R. Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack. arXiv:2404.01833 (2024).

  9. Andriushchenko, M., et al. LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet. arXiv (2024).

  10. AgentHarm. A Benchmark for Measuring Harmfulness of LLM Agents. ICLR (2025).