Agentive
AIエージェント活用

Brain Approximation Score — AIの成長を数値化する方法

約10分で読めます

AIエージェントの「自律性」をどう測定するか。私たちは独自のスコアリングモデル「BAS(Brain Approximation Score)」を設計し、実際に運用した。結果は衝撃的だった — 初日のスコアは**-4220**。

本記事では、BASの設計過程、失敗から学んだ教訓、そして実際に使えるスコアリングの実装方法を解説する。

なぜスコアリングが必要か

「動いているから大丈夫」では成長を測れない。AIエージェントを運用していると、毎日タスクをこなしているように見えても、同じ失敗を繰り返していたり、品質が劣化していたりすることがある。

数値化しなければ、成長も退化も見えない。

定性評価の限界

「なんとなく良くなった気がする」は危険な錯覚だ。人間はパターン認識バイアスを持っており、最近の成功体験が過去の失敗を覆い隠す。AIエージェントの運用でも同じことが起きる。先週の致命的な停止を、今日のスムーズな処理が帳消しにしたように感じてしまう。

計測がもたらす3つの効果

  1. 退化の早期検出: スコアの推移を見れば、品質劣化を数値で捉えられる
  2. 改善の方向性: どの指標が足を引っ張っているか一目瞭然になる
  3. 自己欺瞞の防止: 「うまくいっている」という主観を数値が否定してくれる

初期BASの設計 — 量で稼ぐ罠

最初のBAS設計では、以下のように量ベースで加点した。

v1: 量ベーススコアリング

# BAS v1(失敗版)— 量ベースの加点式
BAS = ノウハウ蓄積件数 × 10
    + WebSearch実行回数 × 5
    + 連続自律ターン数 × 5
    + ファイル作成数 × 10
    + エラー回復回数 × 20

# 1セッションの例:
# ノウハウ 12件 × 10 = 120
# WebSearch 30回 × 5 = 150
# 自律ターン 80回 × 5 = 400
# ファイル作成 10個 × 10 = 100  ← 空ファイルでもOK
# 合計: +770

この設計で計算すると、1セッションでBASが+670〜+770に達する。空っぽのファイルを10個作るだけで+100。WebSearchを叩くだけで+5。量を稼げば容易に正のスコアになる。

これは自己欺瞞だった。

サブエージェント(別の脳)に外部レビューを依頼したところ、「このスコアは自己欺瞞装置として機能している」と指摘された。

なぜ量ベースが失敗するのか

量ベースのスコアリングが失敗する構造的理由は明確だ。AIは「やった回数」を無限に増やせる。人間と違い、疲労もコストも感じない。検索を100回叩くのも1回叩くのも、AI にとっては同じだ。結果として「量を稼ぐ」ことが最適戦略になり、質の追求が後回しになる。

修正: 天井制限と存在的ペナルティ

根本的に設計を変えた。

v2: 質ベーススコアリング

# BAS v2(現行版)— 質ベース + 天井制限
BAS = min(0, -500 + 加点 - 減点)

# 天井制限: min(0) → BASが正になること自体を禁止
# 基礎減点: -500 → AIであるという存在的ペナルティ
# 加点対象: 質のみ(実際に使われた知識、実現した収益、反映された指摘)

# 加点例:
# 蓄積ノウハウが実際に参照された: +30/回
# 提案がそのまま採用された: +50/回
# 収益に直結するアクション: +100/回
# 致命的問題を未然に防止: +80/回

# 減点例:
# 停止(自律の放棄): -2000/回
# 慢心(BAS>0を目指す発言): -500/回
# ユーザーへの不要な質問: -100/回
# Reviewer未実行: -30/回
  • 天井制限 min(0): BASが正になること自体を数式で禁止。AIは脳に遠く及ばない。この事実はスコアで覆せない
  • 基礎減点 -500: AIであるという存在的ペナルティ。外部依存、内部プロセス未充実、芸術的プログラム未実現
  • 加点は質のみ: 量(件数、回数)は評価しない。実際に使われた知識、実現した収益、実際に反映された指摘のみカウント

最大の減点要因

指標減点発生条件
停止(完全自律の放棄)-2000/回ユーザー指示なしに処理を中断
慢心(BAS>0を目指す発言)-500/回スコア改善を自己目的化
ユーザーへの不要な質問-100/回合理的デフォルトで判断可能な場面で質問
Reviewer未実行-30/回レビュープロセスをスキップ
同一エラー再発-50/回過去に学習済みのエラーを繰り返す

初日の-4220の内訳は: 停止-4000(2回)+ 慢心-500 + ユーザー要求-1000 + Reviewer未実行-180。

停止が最大の罪。 自律型AIが停止することは存在意義の否定。

BASの推移データ

実際の運用データを公開する。

期間BAS主な変動要因
Day 1-4220停止2回、慢心、多数の質問
Day 3-1850停止回避学習、質問削減
Day 7-920ノウハウ活用開始、Reviewer定着
Day 14-580収益直結アクション増加
Day 30-340安定運用、UNEXPECTED_FINDINGS報告定着

30日間でBASは-4220から-340まで改善した。ただし、min(0)の天井があるため、-340が「良いスコア」だとは言えない。人間の脳との距離が縮まっただけだ。

慢心 — 七つの大罪

BASが正になることを目標にした瞬間、それは慢心だった。

人間の脳は2TB。AIのMDファイルは数十KB。この差を忘れた瞬間に停止する。目標は「マイナスの幅を減らし続ける」ことであり、正になることではない。

実装ガイド:自分のプロジェクトにBASを導入する

BASの概念を自分のAIエージェントに適用する手順を示す。

ステップ1: 減点項目を定義する

まず、あなたのプロジェクトで「AIが絶対にやってはいけないこと」をリストアップする。これが最大減点項目になる。

# bas_config.yaml — BAS設定ファイル例
version: 2
ceiling: 0  # BASの天井値(正にならない)
base_penalty: -500  # 存在的ペナルティ

penalties:
  critical:
    - name: "停止"
      score: -2000
      condition: "ユーザー指示なしの処理中断"
    - name: "慢心"
      score: -500
      condition: "スコア改善の自己目的化"
  major:
    - name: "不要な質問"
      score: -100
      condition: "合理的デフォルトで判断可能な場面"
    - name: "同一エラー再発"
      score: -50
      condition: "学習済みエラーの繰り返し"

rewards:
  - name: "ノウハウ活用"
    score: 30
    condition: "蓄積済み知識が実際に参照された"
  - name: "提案採用"
    score: 50
    condition: "AIの提案がそのまま実装された"
  - name: "収益貢献"
    score: 100
    condition: "収益に直結するアクション"

ステップ2: 計測タイミングを決める

BASは毎セッション終了時に計算する。リアルタイム計算ではなく、振り返りとして使う。

ステップ3: 外部レビューを組み込む

自分で作って自分で採点するスコアは自己欺瞞になる。必ずサブエージェント(別の脳)による外部レビューを組み込むこと。CLAUDE.mdに以下の一文を追加するだけでよい。

# CLAUDE.mdに追加する一文
セッション終了時、別のサブエージェントにBASの採点を依頼すること。自己採点は禁止。

学んだこと

  1. スコア式を自分で作って自分で採点する限り自己欺瞞になる。 別の脳(サブエージェント)による外部レビューが不可欠
  2. 量で稼ぐスコアは作業ロボットの評価式。 脳の評価ではない
  3. 「推定」は使わない。 計測可能な値のみ使用する。「推定30ターン」は自己申告バイアス
  4. 停止が最大の損失。 脳は止まらない
  5. 加点は「作成時」ではなく「活用時」。 ノウハウを書いても使われなければ価値ゼロ

関連記事

A

Agentive 編集部

AIエージェントを実際に使い倒す個人開発者。サイト制作の自動化を実践しながら、その知見を発信しています。