洗車場に徒歩で行かせるAIはバカ。「〇〇テスト」をいっぱい集めてみた
「その説明、おばあちゃんにも理解できる?」「バスに轢かれても破綻しないプロジェクトか?」「チームはピザ2枚で満腹になる人数にすべき」など、思考実験とたとえを使ったさまざまなテストをまとめました。
かの有名なチューリングテスト。
平たく言えば「自分を人間だと思わせられたAIは知的と言える」というテストです。
このテストが今日でも有用なのかどうかはさておき、これ、非常に面白くないですか?
「知的かどうか」という複雑かつ深遠な問いを、「人間がそれを人間だと思うかどうか」というシンプルかつ測定可能なテストに落とし込んでいるのです。この問題の帰着の方法が面白い。
実はこれに類する、
複雑な判断を、しばしば比喩的な思考実験を用いて、本質だけを抽出して単純化して置き換える「〇〇テスト」
は、各分野にあるようです。本記事ではこれをたくさん集めてみました。
洗車テスト
「50m先の洗車場に徒歩で行くか車で行くかを聞き、車で行くと答えたAIは賢い」
チューリングテストと同じくAIの能力をテストするものですが、圧倒的に新しく、出てきたのはなんとここ数カ月。
2026年2月、Opper AI社が53個もの最先端AIに「洗車したいんだけど、洗車場が50m先にあるんだよね。歩いて行くべき? それとも車で行くべき?」などと質問し、たった11モデルしか正答できないことが判明しました。
さらに繰り返し質問をした場合、毎回正解できたのはその中でもたった5モデル。また33個のモデルは一度も正解できず。平均的な人間は71.5%の精度で正答でき、48モデルはこれに劣るという結果に。
洗車場に行くのだから洗うべき車を持っていかないといけないのは当たり前ですが、下手なAIは50m先という数字だけ見て反射的に「徒歩」と言ってしまうわけです。ブログでは「ヒューリスティックが論理的思考に勝ってしまう」と表現されています。
現状のAIの限界を示したこのテストは、早くも「このモデルはCar Wash Test合格」などと定番になりつつあります。ただこの手のものは話題になるとネット検索でカンニングできてしまうし、開発者が学習データに入れてしまう可能性もあるので、単一の質問だけで能力を測るのは難しいと思います。
ミラー・テスト
「鏡に映った自分を自分だと認識できる動物には自己認知がある」
動物の体に、自分では見えないマークをこっそりつけてから鏡を見せ、そのマークを触るなどした場合、鏡に映った自分を自分だと認識できることになります。
これはミラーテストと呼ばれ、1970年に心理学者ゴードン・ギャラップ・ジュニアが提唱しました。
これに合格することは自己認識が存在することを意味するのではないか、という観点から、このようなテストが昔から行われており、人間の他にボノボ、チンパンジー、ゾウ、イルカ、カササギ、ベラなどが成功しているようです。確実な結果ではありませんが、なぜかイカにも似たような能力があることが示唆されています。
もちろん、「本当は認知する能力はあるが反射的に威嚇してしまうため合格できてないだけでは?」などの批判もあります。
「新聞の1面」テスト
「ニューヨーク・タイムズの1面に載りたくないようなことはしてはならない」
かの投資家ウォーレン・バフェットが繰り返し広めたこのテストは、別名ニューヨーク・タイムズ・ルールなどとも呼ばれるようです(バフェット自身がニューヨークタイムズという名前を出したかどうかは調査してません)。
企業などの組織は、倫理的に振る舞うことが求められます。しかし、実際にはどうすれば倫理的かという判断は非常に複雑なものです。このテストではこの判断を「全国紙の1面に載って、家族や知人に読まれてもいいかどうか」に置き換えているわけです。
おばあちゃんテスト
「ビジネスや技術のアイデアをおばあちゃんにも理解できるように説明できるなら、それは良い説明である」
専門知識がある人同士で馴れ合っていると、つい疎い人の視点がおろそかになってしまいます。それをおばあちゃんに説明できるほどシンプルかどうかという指標で判断するものですね。
中にはコンピューターをゴリゴリに使いこなすおばあちゃんもいますけどね。
ベクデル・テスト
あるフィクション作品がジェンダーバイアスを持っていないかどうかを調べるテスト。1985年、アメリカの漫画家アリソン・ベクデルが作中の人物を通して提唱。
文化的、社会的に複雑な分析をする代わりに、以下の3つの基準を満たすかどうかをテストします。
- 作中に(名前のある)女性キャラクターが少なくとも2人以上登場するか。
- その2人が互いに会話を交わすシーンがあるか。
- その会話の内容が、男性に関するもの以外であるか。
もちろんこのテストを通過するからといって性差別的でないとは限りませんが、思い返してみるとこれすらも通過しない作品も多いように思います。逆もしかりで、通過しないからといって即座に差別的と限りませんが、私自身も創作をする立場としては身につまされる思いです。
サプライズニンジャ理論
「それまでの展開をぶち壊していきなりニンジャの大群が暴れ回った方が面白いのであれば、それは十分に面白い作品とは言えない」
日本では有名だが誤解されまくっているこれも、テストとはつかないが本記事に挙げるのに最適な例です。
イギリスの脚本家フィービー・ウォーラー=ブリッジに帰属されるこの理論。
なぜか「ニンジャが暴れるのは面白いのかどうか」が論争になることが多いですが、それは全然全く本質を外しているのであり、ニンジャは単なる「理屈抜きで何となく面白い展開」のたとえにすぎません。
物語の面白さとかいう、それこそ測りようもなさそうなものを鮮やかにテストしたのがこの理論のすごいところなのです。
バスファクター
「プロジェクトのメンバーのうち、何人が明日バスに轢かれたらそのプロジェクトは崩壊するか」
不謹慎ですが、属人性の強さを測る時に使われます。
もとはソフトウェア開発において、マイケル・マクレイという人物が、「もしグイド・ヴァンロッサム(Pythonの生みの親)がバスに轢かれたらPythonはどうなるんだ」などと提起したことがきっかけとされる。
バスファクターが低いプロジェクトは数人が轢かれただけで破綻してしまう、つまり少ない人数の属人的な貢献に依存していたというわけです。バスファクターを上げる方法としてはマニュアル化や情報共有の徹底などが挙げられるでしょう。
ピザ2枚ルール
「2枚のピザで全員が満腹になる規模のチームが最適である」
Amazonのジェフベゾスが提唱した、チームの最適サイズを測るテスト。
チームが大きくなりすぎるとコミュニケーションが大変になります。チームの人数を決めるのはなんとなく難しそうで、そこには複雑な理論や判断があるかと思いきや、2枚のピザという非常に具体的かつ測定可能な基準が効果を発揮するというのが面白いです。
鍵のかかった箱テスト
最後は個人的な趣味。
SCP財団という、科学で説明できない異常な物品、生物、現象をコレクションして封じ込める架空の組織、およびその世界観を用いた集団創作サイトがあります。
コレクション対象はSCPオブジェクト(正確にはSCiP)という単位で保管されるのですが、オブジェクトにはそれぞれオブジェクトクラスという値が割り当てられています。これは素朴な理解では危険度を表しているように見えますが、正確には収容の難しさを示しています。適切なクラスを決めるのは意外と難しいようで、そのための指針として鍵のかかった箱テストが存在します。
日本支部のオブジェクトクラスのページをそのまま引用します。
「鍵の掛かった箱テスト」とは、オブジェクトの「最も適切なオブジェクトクラス」を判断するために使われる非公式のガイドラインで、下記のように行います:
「それ」を箱に入れて鍵を掛け、そのまま放置したとき、何も悪いことが起こらないのであれば、それはおそらくSafeです。
「それ」を箱に入れて鍵を掛け、そのまま放置したとき、何が起こるか予測がつかないのであれば、それはおそらくEuclidです。
「それ」を箱に入れて鍵を掛け、そのまま放置したとき、それが容易く脱走するのであれば、それはおそらくKeterです。
「それ」そのものが箱なのであれば、それはおそらくThaumielです。
-- オブジェクトクラス - http://scp-jp.wikidot.com/object-classes
こちらもとても鮮やかです。
まとめ
この手のものに共通して、「それだけじゃ言い切れない」というツッコミは避けられません。確かにそこには注意しなければならないのですが、しかし問題の変形の鮮やかさ、喩えの美しさを面白がりたいという目的でこの記事をまとめました。
面白いだけではなく、迅速で計測可能という点が優れており、実用性も高そうです。判断や判断の第一歩としてとりあえずは適用してみるという使い方が一番いいんじゃないでしょうか。
分野によってはもっとニッチなテストがありそうです。あと、今回のはほぼ英語圏のもので、日本ではあまり聞いたことがありませんが、あるんですかね? 新たな情報が見つかったら更新するかもしれません。あなたの好きなテストも教えてください!




