
A Whole New World
新しい世界を創る
Who We Are
次世代の安全で強力なAIを構築する。
私たちは、AIの最先端を切り拓く研究者、エンジニアからなるチームです。
モデル内部に隠された表現を理解し、評価し、守ります。
AIは錬金術ではない。AIは工学である。
AIを理解する・評価する・守る。
私たちの仕事は、3つの柱から成り立っています。基礎研究からプラットフォーム、運用防御までを一貫して提供することで、AI活用を推測(guesswork)ではなく工学(engineering)にします。
Understand
AIを理解する
モデル内部の意図表現・真実性・因果回路を可視化し、挙動の根拠を解明します。
LLM内部の意図表現を可視化する研究
モデル内に存在する「真実性」の方向を発見
推論回路のパスと影響度を解析する
Evaluate
AIを評価する
ホワイトボックス型評価基盤「AEGIS」と、攻撃シナリオを駆使したRed Teamで、モデルの潜在リスクを定量化します。
AEGIS — ホワイトボックス型モデル安全性評価基盤
潜在バイアスとサンドバギング(欺瞞)の検出
Jailbreak耐性の内部計測・定量化
Secure
AIを守る
解釈性を活用したガードレール基盤、LLM診断、ガバナンス設計を統合し、ミッションクリティカル領域でのAI活用を支えます。
Blog
All Blog
Aladdin Securityの「複合ジェイルブレイク」研究論文が国際学会「国際人工知能・サイバーセキュリティ会議(AISEC 2026)」および人工知能学会全国大会(JSAI 2026)に採択
Aladdin Securityの研究論文「Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks」が国際学会AISEC 2026および人工知能学会全国大会(JSAI 2026)に採択され、AISEC 2026の査読では最高評価「Strong Accept」を獲得しました。
Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks
We empirically demonstrate that combining individually-defended attack methods saturates the instruction hierarchy of gpt-oss-20b and pushes the attack success rate from 14.3% to 71.4%, exposing the generalization limits of RLHF safety training.
