普通人如何逃離DeepSeek幻覺陷阱

文| 20社

DeepSeek橫空出世，我們和人工智慧的關係也隨之進入新時代。但對於許多人來說，與AI的蜜月期還沒有結束，幻覺問題就不合時宜地來預警。

近期一條&ldquo； 80後死亡率突破5.2%&rdquo；的假新聞廣為流傳，據上海網絡闢謠介紹，最初的信源很可能是來自AI對話。

這種甚至一眼假的數據是怎麼來的呢？我最近也在嘗試用AI對話代替蒐索，發現確實會給工作埋下一些&ldquo；地雷&rdquo；。

例如前幾天我們寫了京東外賣的稿件，嘗試用DeepSeek來蒐集資料，& ldquo; 山姆每年為京東即時零售帶來多少訂單&rdquo；的問題，DeepSeek語氣肯定地給出一個數據，並稱京東今年將和山姆展開新合作。

我沒有查到這個數據的來源，而且我更震驚的是關於合作的預測，& ldquo; 山姆和京東不是去年分手了嗎&rdquo；。

這就是DeepSeek的&ldquo；幻覺&rdquo；。幻覺，是大模型的&ldquo；基因&rdquo；問題，因為它本質上是根據每個詞出現的概率來選擇回答，所以很容易編出一篇看起來很流暢但完全不符合事實的回答。

所有的大模型或多或少，都有這個問題。

但是，DeepSeek-R1的幻覺在領先的模型中尤為嚴重，在Vectara HHEM人工智慧幻覺測試中達到了14.3%，是DeepSeek-V3的近4倍，也遠超行業平均水準。

普通人如何逃離DeepSeek幻覺陷阱插图1

DeepSeek-R1的幻覺率高於同行（圖源自Semafor）

同時，DeepSeek R1是現時中國應用範圍最廣泛的大模型之一。正因為它足够智慧，很容易被充分信任，在&ldquo；掉鏈子&rdquo；的時候也不會被察覺，反而有可能成為引發更大範圍的&ldquo；輿論幻覺&rdquo；。

DeepSeek怎麼背刺我

球球今年讀大四，最近都在一家實驗室實習。用Kimi、豆包等AI助手來撰寫資料、找文獻，他已經駕輕就熟，在DeepSeek上線以後，更是感到如虎添翼。

最近剛開學，他就開始忙著寫論文。不過，他這學期已經不敢直接使用AI生成的內容了。

網上最近流傳的一個貼子，DeepSeek生成的一個綜述中，參考文獻全是自己編的，& ldquo; 秉持著嚴謹的態度，我去搜了這些參考文獻，竟然！！竟然沒有一篇是真的！！& rdquo;

一比特大模型業內人士表示，這是一個很有意思的案例，& ldquo; 見過胡編事實的，沒看到編造論文引用的。& rdquo;

類似胡編的情况還有很多，比如有網友問DeepSeek上海有幾家麻六記，地址都在哪裡？結果DeepSeek給了他四個地址，且四個地址都是錯誤的。

普通人如何逃離DeepSeek幻覺陷阱插图3

最搞笑的，是一比特玩具博主，讓DeepSeek幫她查國內兒童玩具理論的文獻綜述，其中引用了一本名為《玩具與兒童發展》的書。

&ldquo；我咋沒見過呢？就讓它詳細介紹一下&rdquo；，結果，她就在思維鏈裏發現DeepSeek說，這本書是虛構的，而且
&ldquo；要避免指出這本書是虛構的，以免讓用戶感到困惑&rdquo；
。

音樂自媒體&ldquo；亂彈山&rdquo；進一步發現，DeepSeek特別擅長使用陌生資訊和專業領域的詞彙來胡編亂造。

他發現一個小紅書筆記，名叫《我聽了這麼多年五月天，還不如DeepSeek》，讓DeepSeek來提供五月天歌曲裡面的彩蛋。& ldquo; 其實裡面全是扯淡&rdquo；。

比如裡面提到《倉頡》前奏中&ldquo；需要你需要你需要你&rdquo；，倒放會變成&ldquo；宇宙爆炸的瞬間我看見了你的臉&rdquo；。大部分人試一試就會知道，這三個音節怎麼來回折騰，都成不了這句話。但依然不妨礙下麵有很多人都說，被感動到了！

普通人如何逃離DeepSeek幻覺陷阱插图5

另外，他還讓DeepSeek深度解析韓國音樂人Woodz的風格。 DeepSeek解析出的&ldquo；雙聲道交替&rdquo；& ldquo; 呼吸聲放大&rdquo；& ldquo; 母音拉伸&rdquo；等巧思，都是對應歌曲中沒有的，很像我們剛學會了一些專業名詞就張冠李戴胡亂賣弄的樣子。

但值得指出的是，當這些專業詞彙足够多，這些專業足够陌生的時候，普通人根本無法分辨這些敘述的真實性。

就像前面提到的央視新聞報導的&ldquo； 80後的死亡率已經達到5.2%&rdquo；的謠言，中國人民大學人口與健康學院教授李婷梳理發現，很可能就是AI大模型導致的錯誤，但普通人對這些數據並沒有概念，就很容易相信。

這幾天，已經有好幾篇被認為由AI撰寫的謠言騙倒了不少人：梁文峰在知乎上對於DeepSeepk的首次回應，《哪吒2》員工996是因為公司在成都分房，電梯墜落再沖頂的事故原因&hellip；& hellip; 新聞真實和虛構段落被很好地捏合到一起，常人很難分辨。

而且，就算DeepSeek沒掉鏈子，很多時候普通人連使用它的管道都不正確。 AI訓練的獎懲管道，簡單來說，就是它猜你最想要的是什麼回答，而不是最正確的是什麼回答。

丁香園前兩天寫過，已經有很多人拿著DeepSeek的診斷，來向醫生諮詢。一比特發熱兒童的家長，堅信醫生開的檢查沒有必要，是過度治療；醫生不開抗甲流的抗病毒藥物，就是拖延治療。醫生很疑惑，& ldquo; 你們怎麼能確定是甲流呢？發熱的原因有很多。& rdquo; 家長說，他們問了DeepSeek。

醫生打開手機發現，家長的提問是，& ldquo; 得了甲流要做什麼治療？& rdquo; 這個問題首先就預設了孩子已經得了甲流，大模型自然也只會作出相應的回答，並不會綜合實際條件來進行決策。幻覺能借此危害現實。

幻覺，是bless也是curse

幻覺本身其實並不是&ldquo；劇毒&rdquo；，只能算是大模型的&ldquo；基因&rdquo；。在研究人工智慧的
早期，幻覺被認為是好事
，代表AI有了產生智慧的可能性。這也是AI業界研究非常久遠的話題。

但在AI有了判斷和生成的能力後，幻覺被用來形容
偏差和錯誤
。而在LLM領域，幻覺更是每個模型與生俱來的缺陷。

用最簡單的邏輯來描述，LLM訓練過程中，是將海量數據高度壓縮抽象，輸入的是內容之間關係的數學表徵，而不是內容本身。
就像柏拉圖的洞穴寓言，囚徒看到的全是外部世界的投影，而不是真實世界本身。

LLM在輸出時，是無法將壓縮後的規律和知識完全復原的，囙此會去填補空白，於是產生幻覺。

不同研究還依據來源或領域不同，將幻覺分為&ldquo；認知不確定性和偶然不確定性&rdquo；，或&ldquo；資料來源、訓練過程和推理階段導致的幻覺&rdquo；。

但OpenAI等團隊的研究者們發現，推理增强會明顯減少幻覺。

此前普通用戶使用ChatGPT（GPT3）時就發現，在模型本身不變的情况下，只需要在提示詞中加上&ldquo；讓我們一步步思考（let&rsquo；s think step by step）&rdquo；，就能生成chain-of-thought（CoT），提高推理的準確性，减少幻覺。 OpenAI用o系列的模型進一步證明了這一點。

但是DeepSeek-R1的表現，跟這一發現恰好相反。

R1在數學相關的推理上極强，而在涉及到創意創造的領域非常容易胡編亂造。非常極端。

一個案例能很好地說明DeepSeek的能力。相信有不少人看到過，一個博主用&ldquo； strawberry裏有幾個r&rdquo；這個經典問題去測試R1。

絕大多數大模型會回答&ldquo； 2個&rdquo；。這是模型之間互相&ldquo；學習&rdquo；傳遞的謬誤，也說明了LLM的&ldquo；黑盒子&rdquo；境地，它看不到外部世界，甚至看不到單詞中的最簡單的字母。

而DeepSeek在經歷了來回非常多輪長達100多秒的深度思考後，終於選擇堅信自己推理出來的數位&ldquo； 3個&rdquo；，戰勝了它習得的思想鋼印&ldquo； 2個&rdquo；。

普通人如何逃離DeepSeek幻覺陷阱插图7

圖片來自@斯庫裡

而這種强大的推理能力（CoT深度思考能力），是雙刃劍。在與數學、科學真理無關的任務中，它有時會生成出一套自圓其說的&ldquo；真理&rdquo；，且捏造出配合自己理論的論據。

據騰訊科技，出門問問大模型團隊前工程副總裁李維認為，R1比V3幻覺高4倍，有模型層的原因：

V3: query –〉answer

R1: query+
CoT —
〉answer

&ldquo；對於V3已經能很好完成的任務，比如摘要或翻譯，任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向，這就為幻覺提供了溫床。& rdquo;

一個合理的推測是，R1在强化學習階段去掉了人工干預，减少了大模型為了討好人類偏好而鑽空子，但單純的準確性訊號迴響，或許讓R1在文科類的任務中把&ldquo；創造性&rdquo；當成了更高優先順序。而後續的Alignment並未對此進行有效彌補。

OpenAI的前科學家翁荔在2024年曾撰寫過一篇重要blog（Extrinsic Hallucinations in LLMs），她在OpenAI任職後期專注於大模型安全問題。

她提出，如果將預訓練數据集看作是世界知識的象徵，那麼本質上是試圖確保模型輸出是事實性的，並可以通過外部世界知識進行驗證。& ldquo; 當模型不瞭解某個事實時，它應該明確表示不知道。& rdquo;

如今一些大模型如今在觸碰到知識邊界時，會給出&ldquo；不知道&rdquo；或者&ldquo；不確定&rdquo；的回答。

R2或許會在减少幻覺方面有顯著成效。而眼下R1有龐大的應用範圍，其模型的幻覺程度，需要被大家意識到，從而减少不必要的傷害和損失。

來，讓我們打敗幻覺

那麼，在現實使用的過程中，我們普通人對大模型的幻覺就束手無策了嗎？

互聯網資深產品經理Sam，最近一直在用大模型做應用，他對ChatGPT和DeepSeek都有豐富的使用體驗。

對於Sam這樣的開發者來說，最可靠的反幻覺手段有兩種。

第一個就是在調用API時，根據需求設定一些參數，如temperature和top_p等，以控制幻覺問題。有些大模型，還支持設定資訊標，如對於模糊資訊，需標注&ldquo；此處為推測內容&rdquo；等。

第二種方法更專業。大模型的答案是否可靠，很大程式依賴語料質量，同樣一個大模型語料質量也可能不一樣，比如說，現在同樣是滿血版的DeepSeek，百度版和騰訊版的語料，就來自於各自的內容生態。此時就需要開發者選擇自己信任的生態。

對於專業的企業用戶，就可以從數據側下手規避幻覺。在這方面，現在RAG科技已經在應用開發中普遍採用。

RAG，也就是檢索增强生成，是先從一個數據集中檢索資訊，然後指導內容生成。當然，這個集合是要根據企業自己的需求，搭建的事實性、權威性資料庫。

Sam認為，這種方法雖好，但不適合一般的個人用戶，因為涉及到大樣本的數據標注，成本很高。

ChatGPT為個人用戶也設定了一個調整方案來减少幻覺。在ChatGPT開發者中心的playground中，有一個調節參數功能，專門用來給普通用戶使用。但現時DeepSeek沒有提供這個功能。

普通人如何逃離DeepSeek幻覺陷阱插图9

ChatGPT在playground提供了參數調整功能

實際上，就算有這個功能，一般用戶可能也會嫌麻煩。 Sam說，他發現ChatGPT的這個功能，一般的個人用戶就很少會使用。

那麼個人用戶怎麼辦呢？目前來看，對於大家反應較多的DeepSeek幻覺問題，最可靠的方法也有兩個，第一個是多方査詢，交叉驗證。

例如，我的一比特養貓的朋友說，使用DeepSeek之前，她一般是在小紅書上學習養貓知識，DeepSeek雖然方便，但是她現在仍然會用小紅書，用兩個結果去交叉驗證，經常會發現DeepSeek的結果被此前一些廣泛流行的錯誤觀念污染。

如果是想用DeepSeek做一些專業數據蒐集，這個方法可能就沒那麼好用。此外，還有一個更簡單的方法。

具體來說，就是你在對話中，如果發現DeepSeek有自己腦補的內容，就可以直接告訴它，& ldquo; 說你知道的就好，不用胡說&rdquo；， DeepSeek馬上就會修正自己的生成內容。

普通人如何逃離DeepSeek幻覺陷阱插图11

chatgpt給出的建議

Sam說，對一般用戶來說，這個方法效果不錯。

實際上，正如我們前文所說，DeepSeek幻覺更嚴重，一部分原因是因它更智慧。反過來說，我們要打敗幻覺，也要利用它這個特點。

原文網址：https://zh.gushiio.com/ai/3232.html

普通人如何逃離DeepSeek幻覺陷阱

DeepSeek怎麼背刺我

幻覺，是bless也是curse

來，讓我們打敗幻覺

相关推荐

發佈留言