生成AIは、文章作成、資料整理、コード修正、表の加工など、さまざまな仕事を手伝ってくれます。ですが、とても便利な一方で、任せっぱなしにすると文書が少しずつ壊れていくという重要な弱点があることはご存じですか?
今回紹介する論文 「LLMs Corrupt Your Documents When You Delegate」 は、生成AIに長い作業を任せたとき、文書やファイルの内容がどの程度正しく保たれるのかを調べた研究です。この論文は、Microsoft Researchの研究者によるプレプリントで、52の専門分野、19種類のLLMを対象に、生成AIへ文書編集を何度も任せる実験を行っています。
今回は前編として「生成AIの弱点」について書いていきます。
生成AIは「1回の回答」は上手でも、「長く任せる」と崩れやすい
とりわけ、この論文で重要なのは、生成AIの弱点が1回の質問ではわかりづらいという点です。
たとえば、AIに「この資料を要約して」と頼むだけなら、かなり自然な答えが返ってくることがあります。ですが、実際の仕事ではそれだけで終わりません。
「この資料を分割して」
「次に元の形に戻して」
「別の形式に変換して」
「並び替えて」
「さらに統合して」
このように何度も作業を重ねたくなるでしょう。ですが、AIは少しずつミスを重ねます。論文では、すべてのモデルでやり取りを重ねるほど性能が落ち、テスト対象モデル全体では最終的に平均50%の劣化が確認されています。最先端モデルでも、20回のやり取り後に文書内容の平均25%が損なわれたと報告されています。
これは、生成AIが「一瞬で答える道具」としては強くても、「長い作業を正確に引き継ぎ続ける相棒」としては、まだ不安だということを示しています。
問題は「大きな間違い」だけではなく、「気づきにくい小さな破損」
生成AIのミスというと、「ハルシネーション」を思い浮かべる人が多いと思います。
ですが、この論文で問題になっているのは、それだけではありません。文書の一部が消える、順番が変わる、意味が少しずれる、数値や項目が別の内容に置き換わる、といった文書そのものの破損です。
しかも厄介なのは、見た目には自然に見えることです。文章としては読める。表もそれらしく残っている。ファイルも壊れていないように見える。けれど、よく見ると一部の情報が抜けていたり、内容が変わっていたりします。
論文では、劣化には「内容の削除」と「内容の誤った変更」があり、弱いモデルでは削除が目立ち、上位モデルでは既存内容の誤変換・誤変更が目立つと整理されています。
つまり、性能の高いAIほど「何もできない」のではなく、もっともらしく間違えるリスクがあるということです。これぞハルシネーションの真骨頂・・・と冗談を書いてる場合ではないですよね(苦笑)
長い文書ほど、生成AIはミスをしやすい

論文では、文書のサイズが大きくなるほど、内容を正しく保つ力が落ちることも示されています。具体的には、GPT 5.4を使った実験で、文書サイズを1,000トークンから10,000トークンへ増やすと、最終的なスコアが悪化しました。10,000トークン規模では、20回のやり取り後のスコアが59.9%まで低下しています。
短いメール文、短い告知文、簡単なメモであれば、AIの出力を人間が確認しやすいでしょう。ですが、提案書や仕様書、契約書、マニュアル、CSV、スプレッドシート、議事録など、情報量の多い文書になると、人間側も確認が大変になります。
その結果、AIのミスに気づかないまま、次の作業へ進んでしまう危険があるのです。
余計な資料を一緒に渡すと、AIは混乱しやすい
仕事で生成AIを使うとき、関連資料をまとめて渡すことがあります。
「この資料も見て」
「過去のデータも参考にして」
「このフォルダ内の情報を使って」
一見すると、情報をたくさん渡したほうが正確になりそうです。ですが、論文では、作業に直接関係のない資料が混ざると、AIの性能が悪化することが示されています。不要な文書を取り除くと、20回のやり取り後にスコアが2〜8%改善しました。
つまり、生成AIに資料を渡すときは、「多ければよい」ではなく「必要なものだけ渡す」ことが大切なのです。関係ない資料、古い資料、似ているけれど別の資料が混ざると、AIはそれをうまく見分けられないことがあるということです。
ツールを使わせても、必ず正確になるわけではない
最近は、生成AIがファイルを読み書きしたり、コードを実行したり、外部ツールを使って作業する「エージェント型AI」も増えています。
普通に考えると、ツールを使えるほうが正確になりそうです。ところが、この論文の実験では、基本的なツール利用環境では、ツールなしの場合よりも文書の劣化が大きくなりました。4つのモデルで比較したところ、ツールを使った場合は平均で追加6%の劣化が発生しています。
これは「ツールを使うAIはダメ」という意味ではありません。論文でも、今回使った仕組みは最適化された最先端のエージェントではないと説明しています。
ですが、少なくとも現時点では、「AIがツールを使っているから安心」とは言えませんよね。大事なのは、ツールの有無ではなく、作業結果をどう検証するかです。
AIには得意分野と苦手分野の差がある

この論文では、AIの能力は分野によって大きく違うことも示されています。たとえば、Pythonのようなプログラム関連の分野では比較的よい結果が出ています。一方で、自然言語の多い分野や、専門的であまり一般的でない形式の文書では、性能が落ちやすいと報告されています。
さらに、ある分野でうまくできたからといって、別の分野でも同じようにできるとは限らない、と論文は利用者への注意点として述べています。これは、仕事で生成AIを使ううえでとても大切です。
「前にうまくいったから今回も大丈夫」「このAIは賢いから何でも任せられる」
この考え方は危険だということです。AIは万能な相棒ではなく、得意不得意がはっきりある道具として使う必要があります。
—————
次回は後編、「生成AIの対応策」について書いていきます。
.jpg)









-485x274.jpg)


