Research2026年2月22日Abcas Security Research

単一スコアでは何が隠れるか: 10件のMCPサーバーを検証観点ごとに分解した

10件のMCPサーバーを検証観点ごとに分解した結果、重要だったのは1つの点数ではなく、どこからリスクが生まれたかを追える判定だった。

用語

MCPサーバーのレビューを1つのスコアに圧縮すると、最も運用上重要な情報が消える。なぜその判定になったのか、である。

そのズレを見るために、10件のMCPサーバーを検証観点ごとに分解した。結論として重要だったのは、見栄えの良い単一スコアではない。判定をどの根拠まで遡れるかだった。

同じ「70点」でも、その中身はまったく違いうる。

これらは同じ種類のリスクではない。
必要な対応も違う。だから、単一スコアは説明層として弱い。

このサンプルで重要だったのは、「どう順位付けするか」より、「何がレビュー対象に押し上げたか」だった。

モード	件数	比率
全観点で検証	5	50%
部分検証	5	50%

半数は、期待した証拠の一部が欠けた状態で判定されていた。
これは、実運用の検査が常に完全情報で動くわけではないことを示している。

矛盾は2件だけだったが、どちらも最終判定に大きく効いた。
頻度より影響度が大きいシグナルである。

同じ WARN でも、中身は違う。
ある WARN は出所の不透明さから来る。別の WARN は、宣言と実動作の不一致から来る。

観点ごとの分解がなければ、UI上は似て見えても、実際の対応優先順位を誤りやすい。

ある層で十分な証拠が取れなくても、別の層の証拠を使って保守的な判定を返せる。これにより、「不明」のまま放置される運用空白を減らせる。

判定がズレたときに重要なのは、「スコア全体がズレたか」ではない。どの観点の根拠がズレたかである。多観点モデルは、その診断経路を短くする。

このモデルの価値は抽象論ではない。運用上の反応が変わる。

つまり、説明可能性はレポートの見栄えではなく、運用品質の一部である。

このサンプルは小さいため、「必ず何層必要か」「重み付けをどうすべきか」を一般法則として示すものではない。

ここで十分に言えるのは次の2点である。

単一スコアの弱点は、精度が荒いことそのものより、判断の構造を隠してしまうことにある。

今回の10件では、価値があったのは「各サーバーに1つの数字を付けること」ではなく、出所、動作、履歴、部分証拠処理といった根拠まで遡れる判定だった。レビュー、修正、組織内説明を可能にするのは、その追跡可能性である。

MCP Guard は、複数の検証観点に根拠を分けて保持し、判定の説明可能性を重視する。