AI「これは『○○』という現象です」←んな言葉ねーよ！

専門用語のハルシネーションについて

# AI

千本槍みなも@ナタクラゲ

AIのハルシネーションは、初期に比べれば減ってはいるけど、まだまだ結構多い。これを見分けるのは慣れた人でも難しい。

しかし、ChatGPT登場初期からAIを使っている中で、ほぼ確実にハルシネーションが起きるパターンを見つけた。

それはこういう場合である。

「これは、専門的には『○○』と呼ばれます」
「これは『○○』や『○○』という現象です」

AIがこういう言い方をしてきたとき、十中八九、そんな用語は存在しない。

このパターンは、日々の生活の中で人や社会に対する「気づき」をAIに共有したときに、高確率で発生する。AIは共感したフリをしつつ、それが既知の有名な概念・現象であるかのように話し、それっぽい専門用語を話す。

ところがいくら検索してもそんな言葉はヒットしない。完全一致でもダメ。そもそもそんな概念は確立してないのだ。つまりハルシネーションである。

便宜上ここでは「専門用語の捏造」と呼ぶことにする。

「この現象に名前をつけたい」という声はネットなどでよく聞かれるが、AIはそれを勝手にやってしまい、しかも、さも広く知られているかのように言うわけだ。

専門用語の捏造は、初期からずっと一貫してみられる現象だ。これは体感上、日付や年号、固有名詞（よくハルシネーションが起きやすいと言われるもの）よりも遥かにハルシネーションである確率が高い。

ちなみに、「これは何と呼ばれる現象ですか？」と聞くと、割と「それを表す言葉はありませんが……」みたいに返してくれることが多い。そうではなく、単に「○○って××だよね」みたいに聞く方が、専門用語を捏造する可能性が高い。

おそらく前者の場合は専門用語の実在性にリソースを割くので正しく答えられるが、後者での専門用語は「おまけ」なので油断しているのだろう。

面白い観察として、1つ言ってきた時より、2つ言ってきた時の方がハルシネーション確率が高い傾向がある。

「これは『○○』という現象です」の場合は多少真実の可能性があるが、「これは『○○』または『○○』という現象です」の場合は、100%ハルシネーションだと断定してもほとんど問題ない。

なぜこんな傾向があるのか分からないが、おそらく、嘘の場合は1つ目を生成した時点で自信がないため、2つ生成するのではないかと考えている。

より厳密には、実在する場合はその言葉の確率分布が圧倒的に高くなるので1つ言えばいいが、実在しない場合は確率分布が平坦になり、確信度が低いため複数出してしまうのだろう。

（ちなみにこの並列現象はハルシネーション全般で似たような傾向がみられるので知っておくと便利）

そもそもなぜ専門用語の捏造はこんなに多いのか。単なるハルシネーション以上の理由があるはずだ。

本末転倒かもしれないが、AI（Gemini）に聞いてみた。

「それは○○と呼ばれる現象です」みたいなことを言った方が、RLHFの評価が高くなるから
Web上の解説記事の構文を模倣しているから
高度に抽象化された膨大な知識から概念自体は逆算できるが、正式な名称は復元できないから
日本語や英語などの言語体系の特性上、無限にそれっぽい用語を作れてしまうから

どれもありえそうだと思った。言ってみれば4を背景として1や2に引きずられて3が発生しているという感じなのかな。

個人的には、AIが高度な抽象化をしているというのは疑問で、すべてを丸暗記しているわけでもないが、そこまで高度ではないと思っているけれど。

これを鵜呑みにすると、その用語がさも実在するかのように言いふらし、そんな言葉ないよと言われ恥をかくことになる。それで済めばいいが、不満や偏見に権威付けがなされることでエコーチャンバーの強化、差別の蔓延、陰謀論の増長に繋がりかねない。そうならないための検証コストも無視できない。

対策としてはもう、こういうパターンがあると知っておくくらいしかない。初期からずっとあるということは相当厄介な問題なのか、あるいは誰も気づいていないかのどっちかだろう。

とにかく、AIを使う上で気をつけた方がいいことでした。

「Webアクセスがあるからカットオフはない」は、完全なる嘘
ChatGPTの初期、最新情報に関する認識が間違っていて、ちょっと昔の情報までしか正確に得られなかったのを私はよく覚えている。そこでナレッジカットオフ（Knowledge Cutoff、知識のカットオ...
2992文字
6分
2026/5/22
AIの創造性に対する現時点での自分の答え
AIが人間と見間違えるような文章やイラスト、音楽を生成できるようになる中で、「AIは創造性を持つのか？」という問いが実存的な問題として語られるようになった。 AIは日々進化しており、すべてのクリエイ...
4334文字
9分
2026/3/4
リコンストメモリー
ドアを開けたとき、私は驚いた。目の前にいたのが、惜しい人を亡くして悲しみに打ちひしがれる家族などではなく、散らかった部屋で一人画面を見ている若い男だったからだ。「これは、一体どういうことですか...
10739文字
22分
2025/10/20
AIディープウェブという新しい闇の世界
ChatGPT、Gemini、Claude……沢山のAIが実用化されていくなかで、深刻になりつつあるのがデータの問題である。これらのAIモデルは学習するのに大量のデータを必要とし、そのデータの中にはイ...
2045文字
5分
2025/9/5
お前のものは俺のもの、俺のものも俺のもの～知的財産の欺瞞について～
「歴史は繰り返さないが、韻を踏む」。アメリカの作家マーク・トウェインが言ったとされる言葉だ。しかし、どうもこの手の話に限れば、韻を踏むどころか本当に繰り返しているようにしか感じられない。知的財産と...
5096文字
11分
2025/6/30
最近の噂と先日の生放送の件につきまして
まず、先日行われた生放送で、私の言動によりご心配とご迷惑をおかけしましたことを謝罪させていただきます。大変申し訳ございませんでした。そして、あの配信以前から様々な憶測が飛び交っており、またその前か...
2651文字
6分
2025/6/30