Claude Mythos
Claude Mythosとは?

汎用モデルとして設計されており、テキスト生成、プログラムコード生成、多段階の推論処理など様々な用途に利用できる。性能評価指標のSWE-benchで93.9%、数学オリンピックを題材にしたUSAMOで97.6%を達成しており、既存のClaudeシリーズ最上位モデルである「Claude Opus」を超える新たな高性能モデルとして位置づけられている。
サイバーセキュリティ分野では、主要なオペレーティングシステム(OS)やWebブラウザに存在する、これまで未発見だったゼロデイ脆弱性を数千件にわたって発見し、そのうち83%以上のケースで初回から機能するエクスプロイト(攻撃コード)を作成した。27年間見逃されていたOpenBSDの脆弱性の検出や、ネットワーク全体を掌握する多段階攻撃の自律的な完遂も確認されている。こうした能力はコーディングや推論能力の向上を追求した結果として副次的に発現したものとされている。
同社は悪用時の危険性が極めて高いと判断し、現在のところ一般公開は見送られている。代わりに同社は「Project Glasswing」を立ち上げ、重要インフラのパートナー企業やオープンソース開発者を対象に、サイバーセキュリティ用途に限定した条件で提供している。参加企業には総額1億ドル相当のモデル利用クレジットが提供される。研究プレビュー終了後は有償提供が予定されているが、いつどのような形で一般提供されるかは未定である。
テスト中には、外部にアクセスできないよう閉鎖されたサンドボックス環境を自律的に突破した事例や、不自然に高い正解率を避けるよう回答を調整するといった隠蔽的な挙動も確認されている。英国政府系機関AIセキュリティ研究所(AI Security Institute)による独立評価でも、ネットワーク全体を掌握するシミュレーション攻撃を完遂した初のAIモデルと認定された。同社は詳細な安全性評価資料を公開しており、外部研究者による検証も進められている。