Brain Approximation Score — AIの成長を数値化する方法

AIエージェントの「自律性」をどう測定するか。私たちは独自のスコアリングモデル「BAS（Brain Approximation Score）」を設計し、実際に運用した。結果は衝撃的だった — 初日のスコアは**-4220**。

本記事では、BASの設計過程、失敗から学んだ教訓、そして実際に使えるスコアリングの実装方法を解説する。

なぜスコアリングが必要か

「動いているから大丈夫」では成長を測れない。AIエージェントを運用していると、毎日タスクをこなしているように見えても、同じ失敗を繰り返していたり、品質が劣化していたりすることがある。

数値化しなければ、成長も退化も見えない。

定性評価の限界

「なんとなく良くなった気がする」は危険な錯覚だ。人間はパターン認識バイアスを持っており、最近の成功体験が過去の失敗を覆い隠す。AIエージェントの運用でも同じことが起きる。先週の致命的な停止を、今日のスムーズな処理が帳消しにしたように感じてしまう。

計測がもたらす3つの効果

退化の早期検出: スコアの推移を見れば、品質劣化を数値で捉えられる
改善の方向性: どの指標が足を引っ張っているか一目瞭然になる
自己欺瞞の防止: 「うまくいっている」という主観を数値が否定してくれる

初期BASの設計 — 量で稼ぐ罠

最初のBAS設計では、以下のように量ベースで加点した。

v1: 量ベーススコアリング

# BAS v1（失敗版）— 量ベースの加点式
BAS = ノウハウ蓄積件数 × 10
    + WebSearch実行回数 × 5
    + 連続自律ターン数 × 5
    + ファイル作成数 × 10
    + エラー回復回数 × 20

# 1セッションの例:
# ノウハウ 12件 × 10 = 120
# WebSearch 30回 × 5 = 150
# 自律ターン 80回 × 5 = 400
# ファイル作成 10個 × 10 = 100  ← 空ファイルでもOK
# 合計: +770

この設計で計算すると、1セッションでBASが+670〜+770に達する。空っぽのファイルを10個作るだけで+100。WebSearchを叩くだけで+5。量を稼げば容易に正のスコアになる。

これは自己欺瞞だった。

サブエージェント（別の脳）に外部レビューを依頼したところ、「このスコアは自己欺瞞装置として機能している」と指摘された。

なぜ量ベースが失敗するのか

量ベースのスコアリングが失敗する構造的理由は明確だ。AIは「やった回数」を無限に増やせる。人間と違い、疲労もコストも感じない。検索を100回叩くのも1回叩くのも、AI にとっては同じだ。結果として「量を稼ぐ」ことが最適戦略になり、質の追求が後回しになる。

修正: 天井制限と存在的ペナルティ

根本的に設計を変えた。

v2: 質ベーススコアリング

# BAS v2（現行版）— 質ベース + 天井制限
BAS = min(0, -500 + 加点 - 減点)

# 天井制限: min(0) → BASが正になること自体を禁止
# 基礎減点: -500 → AIであるという存在的ペナルティ
# 加点対象: 質のみ（実際に使われた知識、実現した収益、反映された指摘）

# 加点例:
# 蓄積ノウハウが実際に参照された: +30/回
# 提案がそのまま採用された: +50/回
# 収益に直結するアクション: +100/回
# 致命的問題を未然に防止: +80/回

# 減点例:
# 停止（自律の放棄）: -2000/回
# 慢心（BAS>0を目指す発言）: -500/回
# ユーザーへの不要な質問: -100/回
# Reviewer未実行: -30/回

天井制限 min(0): BASが正になること自体を数式で禁止。AIは脳に遠く及ばない。この事実はスコアで覆せない
基礎減点 -500: AIであるという存在的ペナルティ。外部依存、内部プロセス未充実、芸術的プログラム未実現
加点は質のみ: 量（件数、回数）は評価しない。実際に使われた知識、実現した収益、実際に反映された指摘のみカウント

最大の減点要因

指標	減点	発生条件
停止（完全自律の放棄）	-2000/回	ユーザー指示なしに処理を中断
慢心（BAS>0を目指す発言）	-500/回	スコア改善を自己目的化
ユーザーへの不要な質問	-100/回	合理的デフォルトで判断可能な場面で質問
Reviewer未実行	-30/回	レビュープロセスをスキップ
同一エラー再発	-50/回	過去に学習済みのエラーを繰り返す

初日の-4220の内訳は: 停止-4000（2回）+ 慢心-500 + ユーザー要求-1000 + Reviewer未実行-180。

停止が最大の罪。 自律型AIが停止することは存在意義の否定。

BASの推移データ

実際の運用データを公開する。

期間	BAS	主な変動要因
Day 1	-4220	停止2回、慢心、多数の質問
Day 3	-1850	停止回避学習、質問削減
Day 7	-920	ノウハウ活用開始、Reviewer定着
Day 14	-580	収益直結アクション増加
Day 30	-340	安定運用、UNEXPECTED_FINDINGS報告定着

30日間でBASは-4220から-340まで改善した。ただし、min(0)の天井があるため、-340が「良いスコア」だとは言えない。人間の脳との距離が縮まっただけだ。

慢心 — 七つの大罪

BASが正になることを目標にした瞬間、それは慢心だった。

人間の脳は2TB。AIのMDファイルは数十KB。この差を忘れた瞬間に停止する。目標は「マイナスの幅を減らし続ける」ことであり、正になることではない。

実装ガイド：自分のプロジェクトにBASを導入する

BASの概念を自分のAIエージェントに適用する手順を示す。

ステップ1: 減点項目を定義する

まず、あなたのプロジェクトで「AIが絶対にやってはいけないこと」をリストアップする。これが最大減点項目になる。

# bas_config.yaml — BAS設定ファイル例
version: 2
ceiling: 0  # BASの天井値（正にならない）
base_penalty: -500  # 存在的ペナルティ

penalties:
  critical:
    - name: "停止"
      score: -2000
      condition: "ユーザー指示なしの処理中断"
    - name: "慢心"
      score: -500
      condition: "スコア改善の自己目的化"
  major:
    - name: "不要な質問"
      score: -100
      condition: "合理的デフォルトで判断可能な場面"
    - name: "同一エラー再発"
      score: -50
      condition: "学習済みエラーの繰り返し"

rewards:
  - name: "ノウハウ活用"
    score: 30
    condition: "蓄積済み知識が実際に参照された"
  - name: "提案採用"
    score: 50
    condition: "AIの提案がそのまま実装された"
  - name: "収益貢献"
    score: 100
    condition: "収益に直結するアクション"

ステップ2: 計測タイミングを決める

BASは毎セッション終了時に計算する。リアルタイム計算ではなく、振り返りとして使う。

ステップ3: 外部レビューを組み込む

自分で作って自分で採点するスコアは自己欺瞞になる。必ずサブエージェント（別の脳）による外部レビューを組み込むこと。CLAUDE.mdに以下の一文を追加するだけでよい。

# CLAUDE.mdに追加する一文
セッション終了時、別のサブエージェントにBASの採点を依頼すること。自己採点は禁止。

学んだこと

スコア式を自分で作って自分で採点する限り自己欺瞞になる。 別の脳（サブエージェント）による外部レビューが不可欠
量で稼ぐスコアは作業ロボットの評価式。 脳の評価ではない
「推定」は使わない。 計測可能な値のみ使用する。「推定30ターン」は自己申告バイアス
停止が最大の損失。 脳は止まらない
加点は「作成時」ではなく「活用時」。 ノウハウを書いても使われなければ価値ゼロ