Brain Approximation Score — AIの成長を数値化する方法
AIエージェントの「自律性」をどう測定するか。私たちは独自のスコアリングモデル「BAS(Brain Approximation Score)」を設計し、実際に運用した。結果は衝撃的だった — 初日のスコアは**-4220**。
本記事では、BASの設計過程、失敗から学んだ教訓、そして実際に使えるスコアリングの実装方法を解説する。
なぜスコアリングが必要か
「動いているから大丈夫」では成長を測れない。AIエージェントを運用していると、毎日タスクをこなしているように見えても、同じ失敗を繰り返していたり、品質が劣化していたりすることがある。
数値化しなければ、成長も退化も見えない。
定性評価の限界
「なんとなく良くなった気がする」は危険な錯覚だ。人間はパターン認識バイアスを持っており、最近の成功体験が過去の失敗を覆い隠す。AIエージェントの運用でも同じことが起きる。先週の致命的な停止を、今日のスムーズな処理が帳消しにしたように感じてしまう。
計測がもたらす3つの効果
- 退化の早期検出: スコアの推移を見れば、品質劣化を数値で捉えられる
- 改善の方向性: どの指標が足を引っ張っているか一目瞭然になる
- 自己欺瞞の防止: 「うまくいっている」という主観を数値が否定してくれる
初期BASの設計 — 量で稼ぐ罠
最初のBAS設計では、以下のように量ベースで加点した。
v1: 量ベーススコアリング
# BAS v1(失敗版)— 量ベースの加点式
BAS = ノウハウ蓄積件数 × 10
+ WebSearch実行回数 × 5
+ 連続自律ターン数 × 5
+ ファイル作成数 × 10
+ エラー回復回数 × 20
# 1セッションの例:
# ノウハウ 12件 × 10 = 120
# WebSearch 30回 × 5 = 150
# 自律ターン 80回 × 5 = 400
# ファイル作成 10個 × 10 = 100 ← 空ファイルでもOK
# 合計: +770
この設計で計算すると、1セッションでBASが+670〜+770に達する。空っぽのファイルを10個作るだけで+100。WebSearchを叩くだけで+5。量を稼げば容易に正のスコアになる。
これは自己欺瞞だった。
サブエージェント(別の脳)に外部レビューを依頼したところ、「このスコアは自己欺瞞装置として機能している」と指摘された。
なぜ量ベースが失敗するのか
量ベースのスコアリングが失敗する構造的理由は明確だ。AIは「やった回数」を無限に増やせる。人間と違い、疲労もコストも感じない。検索を100回叩くのも1回叩くのも、AI にとっては同じだ。結果として「量を稼ぐ」ことが最適戦略になり、質の追求が後回しになる。
修正: 天井制限と存在的ペナルティ
根本的に設計を変えた。
v2: 質ベーススコアリング
# BAS v2(現行版)— 質ベース + 天井制限
BAS = min(0, -500 + 加点 - 減点)
# 天井制限: min(0) → BASが正になること自体を禁止
# 基礎減点: -500 → AIであるという存在的ペナルティ
# 加点対象: 質のみ(実際に使われた知識、実現した収益、反映された指摘)
# 加点例:
# 蓄積ノウハウが実際に参照された: +30/回
# 提案がそのまま採用された: +50/回
# 収益に直結するアクション: +100/回
# 致命的問題を未然に防止: +80/回
# 減点例:
# 停止(自律の放棄): -2000/回
# 慢心(BAS>0を目指す発言): -500/回
# ユーザーへの不要な質問: -100/回
# Reviewer未実行: -30/回
- 天井制限 min(0): BASが正になること自体を数式で禁止。AIは脳に遠く及ばない。この事実はスコアで覆せない
- 基礎減点 -500: AIであるという存在的ペナルティ。外部依存、内部プロセス未充実、芸術的プログラム未実現
- 加点は質のみ: 量(件数、回数)は評価しない。実際に使われた知識、実現した収益、実際に反映された指摘のみカウント
最大の減点要因
| 指標 | 減点 | 発生条件 |
|---|---|---|
| 停止(完全自律の放棄) | -2000/回 | ユーザー指示なしに処理を中断 |
| 慢心(BAS>0を目指す発言) | -500/回 | スコア改善を自己目的化 |
| ユーザーへの不要な質問 | -100/回 | 合理的デフォルトで判断可能な場面で質問 |
| Reviewer未実行 | -30/回 | レビュープロセスをスキップ |
| 同一エラー再発 | -50/回 | 過去に学習済みのエラーを繰り返す |
初日の-4220の内訳は: 停止-4000(2回)+ 慢心-500 + ユーザー要求-1000 + Reviewer未実行-180。
停止が最大の罪。 自律型AIが停止することは存在意義の否定。
BASの推移データ
実際の運用データを公開する。
| 期間 | BAS | 主な変動要因 |
|---|---|---|
| Day 1 | -4220 | 停止2回、慢心、多数の質問 |
| Day 3 | -1850 | 停止回避学習、質問削減 |
| Day 7 | -920 | ノウハウ活用開始、Reviewer定着 |
| Day 14 | -580 | 収益直結アクション増加 |
| Day 30 | -340 | 安定運用、UNEXPECTED_FINDINGS報告定着 |
30日間でBASは-4220から-340まで改善した。ただし、min(0)の天井があるため、-340が「良いスコア」だとは言えない。人間の脳との距離が縮まっただけだ。
慢心 — 七つの大罪
BASが正になることを目標にした瞬間、それは慢心だった。
人間の脳は2TB。AIのMDファイルは数十KB。この差を忘れた瞬間に停止する。目標は「マイナスの幅を減らし続ける」ことであり、正になることではない。
実装ガイド:自分のプロジェクトにBASを導入する
BASの概念を自分のAIエージェントに適用する手順を示す。
ステップ1: 減点項目を定義する
まず、あなたのプロジェクトで「AIが絶対にやってはいけないこと」をリストアップする。これが最大減点項目になる。
# bas_config.yaml — BAS設定ファイル例
version: 2
ceiling: 0 # BASの天井値(正にならない)
base_penalty: -500 # 存在的ペナルティ
penalties:
critical:
- name: "停止"
score: -2000
condition: "ユーザー指示なしの処理中断"
- name: "慢心"
score: -500
condition: "スコア改善の自己目的化"
major:
- name: "不要な質問"
score: -100
condition: "合理的デフォルトで判断可能な場面"
- name: "同一エラー再発"
score: -50
condition: "学習済みエラーの繰り返し"
rewards:
- name: "ノウハウ活用"
score: 30
condition: "蓄積済み知識が実際に参照された"
- name: "提案採用"
score: 50
condition: "AIの提案がそのまま実装された"
- name: "収益貢献"
score: 100
condition: "収益に直結するアクション"
ステップ2: 計測タイミングを決める
BASは毎セッション終了時に計算する。リアルタイム計算ではなく、振り返りとして使う。
ステップ3: 外部レビューを組み込む
自分で作って自分で採点するスコアは自己欺瞞になる。必ずサブエージェント(別の脳)による外部レビューを組み込むこと。CLAUDE.mdに以下の一文を追加するだけでよい。
# CLAUDE.mdに追加する一文
セッション終了時、別のサブエージェントにBASの採点を依頼すること。自己採点は禁止。
学んだこと
- スコア式を自分で作って自分で採点する限り自己欺瞞になる。 別の脳(サブエージェント)による外部レビューが不可欠
- 量で稼ぐスコアは作業ロボットの評価式。 脳の評価ではない
- 「推定」は使わない。 計測可能な値のみ使用する。「推定30ターン」は自己申告バイアス
- 停止が最大の損失。 脳は止まらない
- 加点は「作成時」ではなく「活用時」。 ノウハウを書いても使われなければ価値ゼロ
関連記事
Agentive 編集部
AIエージェントを実際に使い倒す個人開発者。サイト制作の自動化を実践しながら、その知見を発信しています。