コンテンツにスキップ

【速報】Anthropic「Claude Code Security」を発表 ― AIがコードの脆弱性を"人間の研究者のように"検出・修正提案

対象: AIツールの動向を追う開発者・セキュリティエンジニア・テック投資家

この記事のポイント

  • ルールベースでは届かない脆弱性を検出

    ビジネスロジックの欠陥や複雑な認証バイパスをLLMの推論で発見する新機能

  • Opus 4.6が500件超のゼロデイを発見済み

    GhostScript、CGIF、OpenSCなどで従来のファジングでは検出困難な脆弱性を特定

  • サイバーセキュリティ銘柄が軒並み急落

    CrowdStrike▲8%、Okta▲9%。市場はAIによるセキュリティソフト代替リスクを織り込み始めた


何が発表されたのか

Anthropicは2026年2月20日(金)、Claude Code on the Web上で動作する新機能Claude Code Securityを限定リサーチプレビューとして公開した。Enterprise / Teamプランの顧客が対象で、オープンソースリポジトリのメンテナーには無料の優先アクセスが提供される。

従来の静的解析ツールが既知のパターンマッチングに依存するのに対し、Claude Code Securityはコンポーネント間の相互作用やデータフローを理解し、ビジネスロジックの欠陥やアクセス制御の不備といった複雑な脆弱性を検出できると謳う。すべての検出結果はMulti-stage検証プロセスを経て、偽陽性がフィルタリングされた上でダッシュボードに表示される。修正パッチの適用には必ず人間の承認が必要となる設計だ。

では、その「推論で脆弱性を見つける」能力は具体的にどの程度のものなのか。


技術的背景:Opus 4.6の脆弱性発見能力

Claude Code Securityの土台となっているのは、2月5日にリリースされたClaude Opus 4.6の脆弱性発見性能である。

AnthropicのFrontier Red Team(約15名の研究者で構成)は、Opus 4.6をサンドボックス環境に配置し、標準的なデバッガやファザーを与えただけで、専用のプロンプトやカスタムハーネスなしにOSSコードの脆弱性を探索させた。その結果、500件超の未知のゼロデイ脆弱性を発見。各件はAnthropicチームまたは外部セキュリティ研究者によって検証済みとされる。

発見事例概要
GhostScriptGitコミット履歴を自律的に解析し、ファジングでは検出困難だった脆弱性を特定
CGIF(GIFライブラリ)LZWアルゴリズムの概念的理解に基づきバッファオーバーフローを発見、自ら概念実証コードを作成
OpenSC(スマートカードユーティリティ)バッファオーバーフローの脆弱性を検出

Frontier Red TeamリーダーのLogan Graham氏は「防御者と攻撃者の競争であり、ツールをできるだけ早く防御者の手に届けたい」と述べている。この発言は、Opus 4.6の脆弱性発見能力が攻撃者に利用されるリスクを認識した上で、防御側への展開を急ぐ意図を示したものだ。

注目すべきは、従来のカバレッジガイド付きファザーでは100%のライン・ブランチカバレッジを達成しても検出困難な「特定の操作シーケンスを要する脆弱性」をモデルが推論で突破している点だ。ルールやカバレッジで測れない脆弱性が存在することを、実例で示した意義は大きい。

この技術的なブレークスルーは、即座に金融市場にも波及した。


市場への衝撃:サイバーセキュリティ銘柄が軒並み急落

発表を受け、2月20日の米国市場でサイバーセキュリティセクターが大幅に売られた。

銘柄ティッカー下落幅
OktaOKTA▲約9.2%
SailPointSAIL▲約9.1%
CrowdStrikeCRWD▲約7.8%
CloudflareNET▲約8.1%
GitLabGTLB▲約8%超
ZscalerZS▲約5.5%
Palo Alto NetworksPANW▲約1.5%

Global X Cybersecurity ETF(BUG) は4.9%下落し、2023年11月以来の安値を記録。年初来の下落率は14%に達した。

この急落はAnthropicが2月月初に引き起こしたCoworkプラグイン発表後のSaaS銘柄売りに続く、今月2度目のセクター下落だ。市場の懸念は「AIがセキュリティの"コパイロット"から、高マージンの専門ソフトウェアを直接代替する存在へシフトしつつある」という構造的な恐怖にある。

一方でBarclaysのアナリストはこの売りを「不整合(incongruent)」と評価し、Claude Code Securityは開発者向けセキュリティツールであり、自社がカバーするCrowdStrike、SailPoint、Cloudflareなどとは直接競合しないとの見解を示している。つまり、エンドポイント防御やネットワークセキュリティとコードスキャンは異なるレイヤーの話であり、一括りにして売るのは行き過ぎという指摘だ。

では、コードセキュリティの文脈では何と競合するのか。


競合との位置づけ:OpenAI「Aardvark」との比較

Claude Code Securityの発表は、OpenAIが約4ヶ月前にリリースしたサイバーセキュリティ自動化ツールAardvarkに続くものだ。Aardvarkも同様の脆弱性検出機能を持ち、隔離されたサンドボックスで脆弱性をテストし、攻撃者がどの程度容易に悪用可能かを推定する仕組みを備える。

SiliconANGLEは、両社ともCI/CDパイプラインへの統合を今後の拡張領域として見据えていると指摘しており、エンタープライズ開発ワークフローへのAIネイティブセキュリティの組み込みが加速する可能性がある。

もう1つ、読者が抱くであろう疑問に先回りしておきたい。「GitHub Advanced SecurityやSnykとは何が違うのか」という点だ。


「GitHub Securityと何が違うのか」― 既存ツールとの決定的な差分

GitHub Advanced Security(CodeQL)、Dependabot、Snyk、SonarQubeといったツールは何年も前から存在し、CI/CDパイプラインに組み込まれたセキュリティスキャンは多くの開発チームにとって既に日常だ。「またAIで脆弱性を見つけるという話か」という反応は当然ある。

結論から言えば、検出対象のレイヤーが異なる

観点既存SAST(CodeQL等)Claude Code Security
検出方式ルールベースのパターンマッチングLLMによるコード全体の推論
得意領域SQLインジェクション、XSS、既知CVEパターンなど定型的な脆弱性ビジネスロジックの欠陥、認証バイパス、複数ファイルにまたがるデータフローの不整合
限界ルールにない脆弱性は検出不可。複雑な文脈依存の欠陥に弱い偽陽性率が高い(Semgrep調査で86%)。非決定的で実行ごとに結果が変動
カバレッジの壁100%のブランチカバレッジでも検出できない脆弱性が存在「特定の操作シーケンスを要する脆弱性」を推論で突破(CGIFのLZW脆弱性が好例)

既存ツールが「既知のパターンに該当するか」を判定するのに対し、Claude Code Securityは「このコードがどう動き、どこにリスクがあるか」をモデルが推論する。Opus 4.6がGhostScriptのGit履歴を自律的に遡って脆弱性を特定し、CGIFでは概念実証コードまで自作した事例は、ルールベースのアプローチでは原理的に到達しにくい領域だ。

もちろん課題も明確にある。Semgrepが2025年9月に実施した独立ベンチマーク(Claude Code Sonnet 4使用時)では、真陽性率14%・偽陽性率86%という結果が出ている。Opus 4.6での改善度合いは未検証であり、人間のレビューなしに検出結果を信頼できる段階ではない。Anthropic自身も「修正パッチの適用には必ず人間の承認を要する」という設計思想を明示している。

つまりClaude Code Securityの本質的な価値は、既存ツールの「置き換え」ではなく、ルールベースでは原理的に届かない脆弱性クラスへのアプローチ手段が初めて製品レベルで提供されたという点にある。


アクセス方法

現時点ではClaude Enterprise / Teamプランの顧客限定のリサーチプレビュー。ウェイトリスト申請は claude.com/contact-sales/security から可能。自社が所有し、スキャンに必要な権利を保有するコードのみが対象という利用制約がある。


まとめ

Claude Code Securityは、「AIがコードの脆弱性を見つける」という話の2周目ではない。既存の静的解析が原理的に到達しにくい脆弱性クラス ― ビジネスロジックの欠陥、複雑な認証バイパス、数十年間検出を逃れてきた文脈依存のバグ ― に対して、LLMの推論能力で初めて製品レベルのアプローチを提供したことに意味がある。

Opus 4.6の500件超のゼロデイ発見と、サイバーセキュリティ銘柄の即日急落は、市場がこの変化を「既存ツールの延長線上にないもの」として受け止めた証左だ。ただし偽陽性率の課題とリサーチプレビュー段階という事実は冷静に押さえておく必要がある。

今後の焦点は2つある。1つはOpus 4.6の偽陽性率がSemgrepベンチマークからどこまで改善されたかの独立検証。もう1つは、CI/CDパイプラインへの本格統合が進んだとき、既存のSAST/DASTツールチェーンとの共存モデルがどう設計されるかだ。