別輕易把文檔丟給AI了!研究表明,AI會偷偷改內容,頂尖模型也是
你們有沒有過這種經歷。
晚上把一份文檔說明丟給AI,留一句,幫我整理一下,順便改得更清楚。第二天打開,你大概率會覺得,挺好,字更順了,結構更清楚了,排版也像樣了。
可容易出問題的,往往就是這種時候。危險的不是把內容寫得很爛,而是寫得賊像對的。
比如合同本來寫的是,付款時間為驗收后30天。AI卻寫成付款時間為交付后30天。
乍一看差不多,可實際天差地別。
微軟研究院上個月的一篇論文,專門研究了這件事。標題叫《LLMs Corrupt Your Documents When You Delegate》,翻得更通俗一點,就是,當你把持續修改文檔這件事交給大模型,它很可能會在一輪一輪操作里,把文檔慢慢改壞。

這里最關鍵的詞,不是文檔,也不是模型。
是“Delegate”,委托。
什么叫委托。不是問AI一個問題,拿到一個答案。而是你把一份已經存在的材料交給它,讓它接著改,接著補,接著整理,接著沿著前面的思路往下做。
這其實特別像真實工作。老板給你一份方案,讓你改三輪。客戶把合同打回來,讓你再修兩版。同事發來一份表格,讓你統一格式,再補幾列說明。
作者做了一個新測試,叫DELEGATE-52。可以把它理解成一場大規模壓力測試,看AI在長期改文件這件事上,到底穩不穩。

它測了從Python代碼,到數據庫文件,再到樂譜、會計臺賬、字幕、菜單、家譜等52個領域的不同文檔。

怎么測的呢。先讓模型做一次正向修改。比如,把一個表按類別拆開。再讓它做一次反向修改。比如,把拆開的內容重新合并回原來的樣子。
如果模型真的靠譜,那改完再改回來,文檔應該和最初差不多。如果改不回來,就說明它在這個過程中把內容弄丟了,或者弄變了。
這種來回修改一直做很多輪,模擬真實工作里那種,你改一版,我再補一版,他又重排一版,最后又回頭改前面的情況。
結果挺意外,全軍覆沒。
一共測了19個模型,到了20次交互,全部模型平均退化大約一半。就連Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4這些頂尖模型,平均也會損壞大約四分之一內容。

這里的四分之一,不是說頁面少了四分之一。而是內容保真度少了四分之一。換成更好理解的話,就是你交給它的原始意思、原始結構、原始細節,到了很多輪之后,已經有相當一部分被它改得不再是原來那樣了。
最容易讓人誤判的一點是,短測試看起來往往沒事。
前兩次交互時,這些頂尖模型的表現大多還在94%到97%左右,看起來完全能用。可一旦拉到20次交互,Gemini 3.1 Pro掉到80.9%,Claude 4.6 Opus掉到73.1%,GPT 5.4掉到71.5%。
很像剛入職的實習生,第一件小事他做得挺漂亮,于是你開始放心,把更多事情交給他。結果到了第十件、第十五件,你才發現前面的幾個小錯已經連成一片了。
AI現在在很多文檔任務上,就是這種狀態。
更麻煩的是,它不是每一輪都小錯一點點。
論文發現,很多損失都來自少數幾次重大的突然失誤。平時看著還行,改著改著,某一輪忽然把關鍵字段改錯了,把某條邏輯鏈斷掉了,把某個重要限定條件抹掉了,一次就能掉很多分。
它不是那種一眼就能看出來的低級錯誤。不是亂碼,不是整段消失,不是排版塌掉。而是你讀著很順,覺得沒問題,可里面有幾顆螺絲已經被擰歪了。
而且模型越強,有時反而越難看出來。弱一點的模型,常見問題是直接刪東西,漏段落,丟字段。你一看就知道不對。
強一點的模型,更像一個會說漂亮話的人。它保留外觀,保留結構,甚至保留一種很專業的語氣,然后把意思悄悄換掉。
比如把“建議”寫成“決定”,把“可能”寫成“將會”。句子更完整了,語氣更穩了,問題也更隱蔽了。
論文里還有幾個細節,也值得聊聊。
第一,代碼任務確實是個例外。
52個領域里,編程是唯一一個大多數模型都達到了ready門檻的領域。因為代碼相對更規整,很多錯誤還能靠測試、運行結果、語法檢查抓出來。文檔、紀要、合同、說明書就不是這樣。它們很多錯誤不影響閱讀,但會影響意思。
第二,給AI加工具,不等于自動變穩。
很多小伙伴現在用OpenClaw、Claude Code這種Agent之前,喜歡安裝一大堆Skill或插件工具,覺得這樣會大大提升AI能力。
論文專門測了這件事。結果是,在一套基礎工具框架下,模型平均還更差了一些。
為啥呢?你可以把它理解成,一個本來就容易分心的人,現在手邊工具更多了,步驟更多了,來回切換更多了,未必就更穩。更何況,模型很多時候并沒有像人類那樣只改一句、只替一列、只動一個字段,而是還是在大塊大塊地重寫。
這很像你本來只是讓同事幫你改一行字。結果他打開Excel、復制一份、重新排序、再粘回去,流程變復雜了,出錯點也更多了。
第三,文檔越長,情況越糟。
這也好理解。一頁紙的請假說明,和一份40頁的合作協議,根本不是一個難度。
論文里測到,文檔越長,模型后面改壞的概率越高。現實工作偏偏最常見的,就是長文檔、長表格、長上下文。
第四,旁邊的無關材料也會添亂。
比如你把主文檔交給AI時,還順手把幾份參考材料、舊版本、會議記錄、相關制度文件一股腦都塞進去。人有時候都要花半天分清哪些該看,哪些不用看,模型當然也會被帶偏。
這和我們平時辦公太像了。桌面上同時開著三個版本的合同。郵箱里躺著兩份舊紀要。群里還有一張截圖。
你讓AI從這堆東西里繼續改,很難保證它不會把不該混進去的內容混進去。
第五,時間越長,不會自動變好。
論文把交互一直拉到100次,性能還是繼續往下掉,沒有出現明顯穩定。意思很簡單,現在的模型不是改著改著就學會穩住了,而是改著改著,還是會繼續出新錯。
當然,這篇論文也不是在說,AI一點都不能用。這點必須說清楚。
作者自己的表述其實很克制。他們測的是一個基礎版的Agent框架,不是全世界最先進、最精細的工程系統。所以不能把結論粗暴理解成,只要用了AI Agent就一定不行。
但這篇論文至少證明了一件事。
今天的AI,很適合幫你起草,很適合幫你提速,很適合幫你先走第一步。可它還遠遠沒有穩到,你可以放心把一整條文檔工作鏈路交給它,然后自己徹底不看。
這也是為什么,很多人用AI寫東西覺得挺爽,用AI改東西卻越來越心虛。
寫,是從空白到內容。改,是從原意到原意。后者難得多。
那咱到底該怎么用,才更安全一點。我覺得至少有五條,很實用。
第一,不要整包托管。
不要一句“你幫我全改完”就交出去。最好拆成小段,小節,小模塊。比如先只讓它改摘要,再只讓它整理表格標題,再只讓它潤色一段說明。每次改動范圍越小,翻車越容易被發現。
第二,重要材料盡量看改動,不只看成稿。
如果工具支持diff,就看diff。因為整篇從頭讀一遍,人很容易被“讀起來挺順”騙過去。可一旦你只看改了哪幾句,很多問題馬上就冒出來了。
第三,把最敏感的東西單獨檢查。
金額、日期、時間、付款條件、地名、人名、版本號、試點范圍、是否生效、是否包含例外條款,這些地方最容易出大事,也最值得人工逐項過一遍。
第四,越是長文檔,越別偷懶。
十頁以上的方案,幾十行以上的表,帶多個附件的合同,帶歷史版本的制度文件,這些都不要輕信“它應該沒問題”。文檔越長,越該設檢查點。
第五,結構化任務更適合交給AI,不好驗證的任務更要謹慎。
如果一項工作有明確對錯,有現成校驗方式,有規則能卡住,比如代碼測試、固定格式轉換、嚴格字段檢查,那AI通常更值得信任。反過來,凡是那種讀起來很通順,但對錯要靠人理解上下文才能判斷的內容,風險都更高。
所以,下一次,當你準備把一份合同、一份方案丟給AI,然后安心去喝咖啡時,不妨多問自己一句:這版看起來沒問題的東西,是不是真的沒問題?
畢竟,AI再強,它也不會替你背鍋。
如果你有任何看法,歡迎在評論區一起討論
如果有一點收獲,可以點贊、轉發、推薦文章,關注「AI機器人茶館」
原文標題 : 別輕易把文檔丟給AI了!研究表明,AI會偷偷改內容,頂尖模型也是
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 全球股市陷AI獨大結構性瘋狂
- 3 DeepSeek融資500億,梁文鋒難逃資本局
- 4 全球資本,重倉中國機器人
- 5 谷歌2026 I/O大會完整回顧:模型依然重要,但智能體正在接管一切
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 “國產GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗
- 8 Anthropic發布2028年全球AI領導力的兩種情景報告
- 9 Figure AI 交付突破350臺,陪跑特斯拉會迎來iPhone 時刻嗎?
- 10 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!


分享













