論文「LLMs Corrupt Your Documents When You Delegate」から見る、生成AIの弱点と対応策（１）

生成AIは、文章作成、資料整理、コード修正、表の加工など、さまざまな仕事を手伝ってくれます。ですが、とても便利な一方で、任せっぱなしにすると文書が少しずつ壊れていくという重要な弱点があることはご存じですか？

今回紹介する論文 「LLMs Corrupt Your Documents When You Delegate」 は、生成AIに長い作業を任せたとき、文書やファイルの内容がどの程度正しく保たれるのかを調べた研究です。この論文は、Microsoft Researchの研究者によるプレプリントで、52の専門分野、19種類のLLMを対象に、生成AIへ文書編集を何度も任せる実験を行っています。

今回は前編として「生成AIの弱点」について書いていきます。

Contents

1 生成AIは「1回の回答」は上手でも、「長く任せる」と崩れやすい
2 問題は「大きな間違い」だけではなく、「気づきにくい小さな破損」
3 長い文書ほど、生成AIはミスをしやすい
4 余計な資料を一緒に渡すと、AIは混乱しやすい
5 ツールを使わせても、必ず正確になるわけではない
6 AIには得意分野と苦手分野の差がある

生成AIは「1回の回答」は上手でも、「長く任せる」と崩れやすい

とりわけ、この論文で重要なのは、生成AIの弱点が1回の質問ではわかりづらいという点です。

たとえば、AIに「この資料を要約して」と頼むだけなら、かなり自然な答えが返ってくることがあります。ですが、実際の仕事ではそれだけで終わりません。

「この資料を分割して」
「次に元の形に戻して」
「別の形式に変換して」
「並び替えて」
「さらに統合して」

このように何度も作業を重ねたくなるでしょう。ですが、AIは少しずつミスを重ねます。論文では、すべてのモデルでやり取りを重ねるほど性能が落ち、テスト対象モデル全体では最終的に平均50％の劣化が確認されています。最先端モデルでも、20回のやり取り後に文書内容の平均25％が損なわれたと報告されています。

これは、生成AIが「一瞬で答える道具」としては強くても、「長い作業を正確に引き継ぎ続ける相棒」としては、まだ不安だということを示しています。

問題は「大きな間違い」だけではなく、「気づきにくい小さな破損」

生成AIのミスというと、「ハルシネーション」を思い浮かべる人が多いと思います。

ですが、この論文で問題になっているのは、それだけではありません。文書の一部が消える、順番が変わる、意味が少しずれる、数値や項目が別の内容に置き換わる、といった文書そのものの破損です。

しかも厄介なのは、見た目には自然に見えることです。文章としては読める。表もそれらしく残っている。ファイルも壊れていないように見える。けれど、よく見ると一部の情報が抜けていたり、内容が変わっていたりします。

論文では、劣化には「内容の削除」と「内容の誤った変更」があり、弱いモデルでは削除が目立ち、上位モデルでは既存内容の誤変換・誤変更が目立つと整理されています。

つまり、性能の高いAIほど「何もできない」のではなく、もっともらしく間違えるリスクがあるということです。これぞハルシネーションの真骨頂・・・と冗談を書いてる場合ではないですよね（苦笑）

長い文書ほど、生成AIはミスをしやすい

論文では、文書のサイズが大きくなるほど、内容を正しく保つ力が落ちることも示されています。具体的には、GPT 5.4を使った実験で、文書サイズを1,000トークンから10,000トークンへ増やすと、最終的なスコアが悪化しました。10,000トークン規模では、20回のやり取り後のスコアが59.9％まで低下しています。

短いメール文、短い告知文、簡単なメモであれば、AIの出力を人間が確認しやすいでしょう。ですが、提案書や仕様書、契約書、マニュアル、CSV、スプレッドシート、議事録など、情報量の多い文書になると、人間側も確認が大変になります。

その結果、AIのミスに気づかないまま、次の作業へ進んでしまう危険があるのです。