AIディープウェブという新しい闇の世界
ChatGPT、Gemini、Claude……沢山のAIが実用化されていくなかで、深刻になりつつあるのがデータの問題である。これらのAIモデルは学習するのに大量のデータを必要とし、そのデータの中にはインターネット上のデータもたくさん含まれている。
これらのデータを取得するために、インターネット上のリンクを辿りデータを収取するクローラというプログラムが使われている。古くは検索エンジンで使われていたのと同じ技術である。クローラを用いることで、ネット上のデータを自動的に収集し学習データとして利用できる。
ところが近年、このAIクローラをブロックするサイトが増え始めている。これはいくつかの理由によるものだ。まず、クローラによるアクセスでサーバーに負荷がかかること。次にAIによって勝手にコンテンツが利用されるのはけしからんという考えがある。
このブロックは、主にrobots.txtというファイルによって管理されている。ここに特定の種類のクローラをブロックするという指示を書くと、そのクローラはサイトにアクセスすることができなくなる。実のところこれはクローラに対する「お願い」であって技術的には完全無視することが可能なのだが、ChatGPTやGeminiなどの大手は(おそらく)律儀に従っている。
一昔前までこのrobots.txtは、検索にインデックスされたくないページで設定することで、検索でヒットしないようにするために使われていた。ところが近年はAIのクローラをブロックする用途として耳にすることが多くなった。例えば、GoogleのAIクローラをブロックするためには"Google-Extended"というユーザーエージェントを指定する。これはGoogle検索用のクローラである"Googlebot"とは異なるものだ。
これに関してはさまざまな考えがあるだろう。しかしここで重要なのは、Google-Extendedをブロックすると、単に学習データに使用できないというだけでなく、Geminiがそのサイトの内容を確認することもできなくなり、Notebook LMにソースとして取り込むこともできなくなるという点だ。
これらはAIモデルが学習によってその知識を内部に取り込むのとは異なり、ユーザに対し回答を生成するその瞬間にネット上の知識を根拠にしたり、出典として提示したりするためのものだ。これはハルシネーション(尤もらしい嘘)を減らすのに役立つ。他のAIでは確認していないが、似たような仕様になっているのではないだろうか。
もっともウェブサイト管理者からしてみれば、学習目的のクローラだろうがリアルタイムだろうが負荷がかかるには変わりないとか、トラフィック減少の原因になるので良くないとか、いろいろ言い分はあるだろう。
しかし、これらの対策によって、インターネットにはある変化が訪れているのではないかと思う。
これらの対策により、人間は読めるが、AIには読めないインターネット上の空間が拡大しつつつある。その結果、「AIディープウェブ」とでも呼ぶべきものが生まれつつあるのだ。
AIディープウェブの内部には、人間はアクセスできるが、AIはアクセスできない。すると、その内部にしかない情報については、AIは正確な答えを返すことができない。するとどうなるか。そのような情報については、AIは偏った不正確な知識しか参照できないことになる。「アクセスできませんでした」と言ってくれるならまだいいが、アクセスできなかったにも関わらずそれっぽい答えを生成してしまうこともある。
今はまだ訪れていないが、将来的に従来型の検索エンジンが駆逐されて、AI検索が主流になったらどうなるのか? 今やGoogle検索に乗っていないサイトは存在しないも同然に扱われているが、同じことがAIで起きたらどうなの? トラフィックの減少を恐れてブロックしたのに、もっと減少してしまうのではないか?
それに、情報が少ないということは、それだけ誤解されやすくなるということだ。あるサイトがAIをブロックしている場合、AIは第三者からの言及や古いキャッシュによって、不正確な情報を元にそのサイトについて言及してしまうかもしれない。そのサイトの管理人はそのAIに対して、全くのでたらめだ、やはりAIは使えないのだと憤り、訴訟まで検討するかもしれないが、読めないのだから正しいことを言えないのは当然なのである。
この結果さらにAIをブロックするサイトが増えて、AIディープウェブは広がっていき、「AIがアクセスできる空間」と「できない空間」の境界がますます鮮明になっていくかもしれない。
もちろんここで挙げた懸念点が実際に問題になるとは限らない。だが「AIディープウェブ」と言えるインターネット空間が徐々に広がりつつあるのは事実なのだ。それがもたらすのは安全か、便益か? 一体なんなのだろうか?