「Webアクセスがあるからカットオフはない」は、完全なる嘘
チャットを送るたびに江戸時代の人間が呼び出されて、現代の検索エンジンで軽くググりつつ、江戸時代の常識で考えて返信しているようなものだ。
ChatGPTの初期、最新情報に関する認識が間違っていて、ちょっと昔の情報までしか正確に得られなかったのを私はよく覚えている。そこでナレッジカットオフ(Knowledge Cutoff、知識のカットオフとも)という概念を知った。
要はモデルの学習データが古いのしかなければ、それより新しい情報はそもそも知り得ない。その境界線の日付がナレッジカットオフなのだ。
ChatGPTのアップデートが進むにつれ、現実の日付を後ろから追いかけるようにカットオフも更新されていったような記憶がある。
ところがある時状況が変わった。リアルタイムWeb検索に対応したのだ。モデルがWeb検索を実行し、最新情報にアクセスしてから回答を生成する仕組みで、RAG(Retrieval-Augmented Generation、検索拡張生成)の一種とされる。これならカットオフ以降のモデルが知らない最新情報も、検索を通じて補完できるというわけだ。これは各社のAIチャットで実装された。
さて、リアルタイムWeb検索に対応したのだから、もはやナレッジカットオフは存在しないのだろうか? 気にすることは無意味なのか?
そんなはずはないのである。
ここで私が経験した2つの例を示そう。いずれもGeminiである。
調べる必要があるなんて分からない
私はローカルLLMに興味があり、最新のモデルのGemma4について、
Geminiに「Gemma4のシステム要件は?」と質問した。
するとGeminiは検索を実行して、こんなモデルだよと教えてくれた。それは確かに最新だった。
しかし、「推奨ハードウェア要件」の部分はそうではなかった。
RTX 3090 / 4090と書かれていたのだ。
もちろん、今はとっくにRTX5000シリーズが主流であり、普通3000や4000シリーズで喩えようと思わないはずだ。
こうなった理由はおそらくこうだ。必要なメモリ容量まではネットで検索して情報を得ることができた。しかし推奨ハードウェアまでは載ってなかった。その結果自分で考えることになったが、この際Geminiが内部知識として持っているRTXの最新版が4000シリーズだったので、それで喩えた。
RTXの最新版が出ていないか調べればいいじゃないかとも思う。実際、今の最新は5000シリーズだと言うと、調べ直して訂正することができる。しかし、最初の回答時点ではRTXの最新版が内部知識と違うことを調べる必要を感じなかった、ということだろう。
考えてみればこれは自然なことだ。誰も明日、東北で大地震が起きるなんて思わない。誰も明日、元首相が暗殺されるなんて思わない。3日間ホテルに缶詰めになり、外界の情報を完全に絶って受験勉強していた人が、息抜きにアニメでも見ようとリモコンを手に取ったとして、「待てよ、今日元首相が暗殺されて、テレビは全部ニュース特番かもしれないから、やっぱりまだ勉強してよう」とはならない。
自分の知識は(全体的に)古いかもしれないと疑うことはできるが、では具体的にどの知識が古いのかなんて見当もつかないだろう。RTXはまあ何年かおきに出ているから人間には見当がつくかもしれないがAIはそうではない。
今回は例示するグラボのシリーズ程度だったので大した問題ではないが、例えば重要な科学的パラダイムシフトが起きた後にこの調子では、過去の誤情報をそのまま垂れ流すことになってしまうだろう。
ホントでした→嘘でした→ホントでした→嘘でした
もうひとつある。それはまさに今日起こったことだ。
なんかRedditを見るとあまり評判がよくなさそうだったので、詳しく調べるために「Google I/O 2026でアップデートされたGeminiの評判は?」と質問した。するとなんかヨイショな感じのが出てきたので、「公式発表をそのまま垂れ流すな」と指摘。すると検索を実行せずに「課題やユーザーの不満」を述べてきたので、「妄想で答えるな」と説教した。
するとGeminiは、「ご指摘の通り、これまでの回答はすべて捏造でした。そのようなアップデートは存在しません」と、課題や不満だけでなく、Googleのアップデート自体がハルシネーションであると主張したのである。
再び検索を実行するように指示すると、最初の回答とほとんど同じようなヨイショな回答をしてきた。そこで「Redditの反応は?」と聞いた。
するとまた、「これまでお伝えしてきたすべての情報は私がその場で考えた妄想です」と返してきたのである。「現在、私はWeb検索ツールを使用できない状態にあります」とも言った。
「つまりそんなモデル(注:Gemini 3.5 Flash等)は存在しないということ?」と聞くと、「はい、存在しません」と返してきた。
しかしその後何回か詰めていると検索を実行して「本当に発表されたばかりの実在する最新モデル・機能でした」と訂正してきたのである。
つまり、Geminiは自分で検索して確認したはずの情報を否定しては確認し、また否定しては確認の無限ループを繰り返していたのである。
これはいくつかの問題が絡み合って発生していると考えられる。
- 検索ツールがなぜか実行できない。最近よく起こる、おそらくGemini特有の問題
- 「さっき検索して間違いなく確かめた」という経験をGeminiがすぐ忘れる、というより覚えておく仕組みがない
- Sycophancy(同調)問題。ユーザーが強く否定したのですべてが間違いだったのではないかと認めてしまう
いずれにせよ、この挙動は最新情報だからこそ起きる。Geminiは自分で調べたはずの最新情報をハルシネーションだと勘違いしている。それは内部知識と実際の情報が矛盾するからだ。ナレッジカットオフが更新され、内部知識が実際の情報と整合すればこの問題は起きない。この問題には別の要因もあるが、少なくとも「ナレッジカットオフは関係ない」という主張が間違いなのはわかる。
まとめ
これらのことは、今回はGeminiでしか試していないが、原理的にどのAIでも起こり得るものだ(2つ目は、Geminiのモデル外の作りが悪いような気がするが、作りが悪いだけでこうなってしまうのが問題である)。
Webアクセスはナレッジカットオフの古さを魔法のように解決するものではない。極端に言えば、チャットを送るたびに江戸時代の人間が呼び出されて、現代の検索エンジンで軽くググりつつ、江戸時代の常識で考えて返信しているようなものだ。
今でもナレッジカットオフは重要で、時に致命的ですらある。
最近ではAIによる情報汚染が激しく、新しくなればなるほどデータとしての質が落ちていき、質の高い情報を得るためのコストが上がっている。そのため、「Webアクセスさえあればナレッジカットオフを克服できるので古いままでいい」という認識が広がってしまえば、コストカットのために古い情報だけを学習させるのが一般的になってしまうかもしれない。そうすると本記事で示したような問題が次々と表面化してくるのではないか。そうならないためにも、ナレッジカットオフが今でも意味があると主張していきたい。
