普通人如何逃離DeepSeek幻覺陷阱
文| 20社
DeepSeek橫空出世,我們和人工智慧的關係也隨之進入新時代。 但對於許多人來說,與AI的蜜月期還沒有結束,幻覺問題就不合時宜地來預警。
近期一條“ 80後死亡率突破5.2%” 的假新聞廣為流傳,據上海網絡闢謠介紹,最初的信源很可能是來自AI對話。
這種甚至一眼假的數據是怎麼來的呢? 我最近也在嘗試用AI對話代替蒐索,發現確實會給工作埋下一些“ 地雷”。
例如前幾天我們寫了京東外賣的稿件,嘗試用DeepSeek來蒐集資料,& ldquo; 山姆每年為京東即時零售帶來多少訂單” 的問題,DeepSeek語氣肯定地給出一個數據,並稱京東今年將和山姆展開新合作。
我沒有查到這個數據的來源,而且我更震驚的是關於合作的預測,& ldquo; 山姆和京東不是去年分手了嗎”。
這就是DeepSeek的“ 幻覺”。 幻覺,是大模型的“ 基因” 問題,因為它本質上是根據每個詞出現的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。
所有的大模型或多或少,都有這個問題。
但是,DeepSeek-R1的幻覺在領先的模型中尤為嚴重,在Vectara HHEM人工智慧幻覺測試中達到了14.3%,是DeepSeek-V3的近4倍,也遠超行業平均水準。
DeepSeek-R1的幻覺率高於同行(圖源自Semafor)
同時,DeepSeek R1是現時中國應用範圍最廣泛的大模型之一。 正因為它足够智慧,很容易被充分信任,在“ 掉鏈子” 的時候也不會被察覺,反而有可能成為引發更大範圍的“ 輿論幻覺”。
DeepSeek怎麼背刺我
球球今年讀大四,最近都在一家實驗室實習。 用Kimi、豆包等AI助手來撰寫資料、找文獻,他已經駕輕就熟,在DeepSeek上線以後,更是感到如虎添翼。
最近剛開學,他就開始忙著寫論文。 不過,他這學期已經不敢直接使用AI生成的內容了。
網上最近流傳的一個貼子,DeepSeek生成的一個綜述中,參考文獻全是自己編的,& ldquo; 秉持著嚴謹的態度,我去搜了這些參考文獻,竟然!! 竟然沒有一篇是真的!!& rdquo;
一比特大模型業內人士表示,這是一個很有意思的案例,& ldquo; 見過胡編事實的,沒看到編造論文引用的。& rdquo;
類似胡編的情况還有很多,比如有網友問DeepSeek上海有幾家麻六記,地址都在哪裡? 結果DeepSeek給了他四個地址,且四個地址都是錯誤的。
最搞笑的,是一比特玩具博主,讓DeepSeek幫她查國內兒童玩具理論的文獻綜述,其中引用了一本名為《玩具與兒童發展》的書。
“ 我咋沒見過呢? 就讓它詳細介紹一下”, 結果,她就在思維鏈裏發現DeepSeek說,這本書是虛構的,而且
“ 要避免指出這本書是虛構的,以免讓用戶感到困惑”
。
音樂自媒體“ 亂彈山” 進一步發現,DeepSeek特別擅長使用陌生資訊和專業領域的詞彙來胡編亂造。
他發現一個小紅書筆記,名叫《我聽了這麼多年五月天,還不如DeepSeek》,讓DeepSeek來提供五月天歌曲裡面的彩蛋。& ldquo; 其實裡面全是扯淡”。
比如裡面提到《倉頡》前奏中“ 需要你需要你需要你”, 倒放會變成“ 宇宙爆炸的瞬間我看見了你的臉”。 大部分人試一試就會知道,這三個音節怎麼來回折騰,都成不了這句話。 但依然不妨礙下麵有很多人都說,被感動到了!
另外,他還讓DeepSeek深度解析韓國音樂人Woodz的風格。 DeepSeek解析出的“ 雙聲道交替”& ldquo; 呼吸聲放大”& ldquo; 母音拉伸” 等巧思,都是對應歌曲中沒有的,很像我們剛學會了一些專業名詞就張冠李戴胡亂賣弄的樣子。
但值得指出的是,當這些專業詞彙足够多,這些專業足够陌生的時候,普通人根本無法分辨這些敘述的真實性。
就像前面提到的央視新聞報導的“ 80後的死亡率已經達到5.2%” 的謠言,中國人民大學人口與健康學院教授李婷梳理發現,很可能就是AI大模型導致的錯誤,但普通人對這些數據並沒有概念,就很容易相信。
這幾天,已經有好幾篇被認為由AI撰寫的謠言騙倒了不少人:梁文峰在知乎上對於DeepSeepk的首次回應,《哪吒2》員工996是因為公司在成都分房,電梯墜落再沖頂的事故原因…& hellip; 新聞真實和虛構段落被很好地捏合到一起,常人很難分辨。
而且,就算DeepSeek沒掉鏈子,很多時候普通人連使用它的管道都不正確。 AI訓練的獎懲管道,簡單來說,就是它猜你最想要的是什麼回答,而不是最正確的是什麼回答。
丁香園前兩天寫過,已經有很多人拿著DeepSeek的診斷,來向醫生諮詢。 一比特發熱兒童的家長,堅信醫生開的檢查沒有必要,是過度治療; 醫生不開抗甲流的抗病毒藥物,就是拖延治療。 醫生很疑惑,& ldquo; 你們怎麼能確定是甲流呢? 發熱的原因有很多。& rdquo; 家長說,他們問了DeepSeek。
醫生打開手機發現,家長的提問是,& ldquo; 得了甲流要做什麼治療?& rdquo; 這個問題首先就預設了孩子已經得了甲流,大模型自然也只會作出相應的回答,並不會綜合實際條件來進行決策。 幻覺能借此危害現實。
幻覺,是bless也是curse
幻覺本身其實並不是“ 劇毒”, 只能算是大模型的“ 基因”。 在研究人工智慧的
早期,幻覺被認為是好事
,代表AI有了產生智慧的可能性。 這也是AI業界研究非常久遠的話題。
但在AI有了判斷和生成的能力後,幻覺被用來形容
偏差和錯誤
。而在LLM領域,幻覺更是每個模型與生俱來的缺陷。
用最簡單的邏輯來描述,LLM訓練過程中,是將海量數據高度壓縮抽象,輸入的是內容之間關係的數學表徵,而不是內容本身。
就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實世界本身。
LLM在輸出時,是無法將壓縮後的規律和知識完全復原的,囙此會去填補空白,於是產生幻覺。
不同研究還依據來源或領域不同,將幻覺分為“ 認知不確定性和偶然不確定性”, 或“ 資料來源、訓練過程和推理階段導致的幻覺”。
但OpenAI等團隊的研究者們發現,推理增强會明顯減少幻覺。
此前普通用戶使用ChatGPT(GPT3)時就發現,在模型本身不變的情况下,只需要在提示詞中加上“ 讓我們一步步思考(let’s think step by step)”, 就能生成chain-of-thought(CoT),提高推理的準確性,减少幻覺。 OpenAI用o系列的模型進一步證明了這一點。
但是DeepSeek-R1的表現,跟這一發現恰好相反。
R1在數學相關的推理上極强,而在涉及到創意創造的領域非常容易胡編亂造。 非常極端。
一個案例能很好地說明DeepSeek的能力。 相信有不少人看到過,一個博主用“ strawberry裏有幾個r” 這個經典問題去測試R1。
絕大多數大模型會回答“ 2個”。 這是模型之間互相“ 學習” 傳遞的謬誤,也說明了LLM的“ 黑盒子” 境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。
而DeepSeek在經歷了來回非常多輪長達100多秒的深度思考後,終於選擇堅信自己推理出來的數位“ 3個”, 戰勝了它習得的思想鋼印“ 2個”。
圖片來自@斯庫裡
而這種强大的推理能力(CoT深度思考能力),是雙刃劍。 在與數學、科學真理無關的任務中,它有時會生成出一套自圓其說的“ 真理”, 且捏造出配合自己理論的論據。
據騰訊科技,出門問問大模型團隊前工程副總裁李維認為,R1比V3幻覺高4倍,有模型層的原因:
V3: query –〉answer
R1: query+
CoT —
〉answer
“ 對於V3已經能很好完成的任務,比如摘要或翻譯,任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向,這就為幻覺提供了溫床。& rdquo;
一個合理的推測是,R1在强化學習階段去掉了人工干預,减少了大模型為了討好人類偏好而鑽空子,但單純的準確性訊號迴響,或許讓R1在文科類的任務中把“ 創造性” 當成了更高優先順序。 而後續的Alignment並未對此進行有效彌補。
OpenAI的前科學家翁荔在2024年曾撰寫過一篇重要blog(Extrinsic Hallucinations in LLMs),她在OpenAI任職後期專注於大模型安全問題。
她提出,如果將預訓練數据集看作是世界知識的象徵,那麼本質上是試圖確保模型輸出是事實性的,並可以通過外部世界知識進行驗證。& ldquo; 當模型不瞭解某個事實時,它應該明確表示不知道。& rdquo;
如今一些大模型如今在觸碰到知識邊界時,會給出“ 不知道” 或者“ 不確定” 的回答。
R2或許會在减少幻覺方面有顯著成效。 而眼下R1有龐大的應用範圍,其模型的幻覺程度,需要被大家意識到,從而减少不必要的傷害和損失。
來,讓我們打敗幻覺
那麼,在現實使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?
互聯網資深產品經理Sam,最近一直在用大模型做應用,他對ChatGPT和DeepSeek都有豐富的使用體驗。
對於Sam這樣的開發者來說,最可靠的反幻覺手段有兩種。
第一個就是在調用API時,根據需求設定一些參數,如temperature和top_p等,以控制幻覺問題。 有些大模型,還支持設定資訊標,如對於模糊資訊,需標注“ 此處為推測內容” 等。
第二種方法更專業。 大模型的答案是否可靠,很大程式依賴語料質量,同樣一個大模型語料質量也可能不一樣,比如說,現在同樣是滿血版的DeepSeek,百度版和騰訊版的語料,就來自於各自的內容生態。 此時就需要開發者選擇自己信任的生態。
對於專業的企業用戶,就可以從數據側下手規避幻覺。 在這方面,現在RAG科技已經在應用開發中普遍採用。
RAG, 也就是檢索增强生成,是先從一個數據集中檢索資訊,然後指導內容生成。 當然,這個集合是要根據企業自己的需求,搭建的事實性、權威性資料庫。
Sam認為,這種方法雖好,但不適合一般的個人用戶,因為涉及到大樣本的數據標注,成本很高。
ChatGPT為個人用戶也設定了一個調整方案來减少幻覺。 在ChatGPT開發者中心的playground中,有一個調節參數功能,專門用來給普通用戶使用。 但現時DeepSeek沒有提供這個功能。
ChatGPT在playground提供了參數調整功能
實際上,就算有這個功能,一般用戶可能也會嫌麻煩。 Sam說,他發現ChatGPT的這個功能,一般的個人用戶就很少會使用。
那麼個人用戶怎麼辦呢? 目前來看,對於大家反應較多的DeepSeek幻覺問題,最可靠的方法也有兩個,第一個是多方査詢,交叉驗證。
例如,我的一比特養貓的朋友說,使用DeepSeek之前,她一般是在小紅書上學習養貓知識,DeepSeek雖然方便,但是她現在仍然會用小紅書,用兩個結果去交叉驗證,經常會發現DeepSeek的結果被此前一些廣泛流行的錯誤觀念污染。
如果是想用DeepSeek做一些專業數據蒐集,這個方法可能就沒那麼好用。 此外,還有一個更簡單的方法。
具體來說,就是你在對話中,如果發現DeepSeek有自己腦補的內容,就可以直接告訴它,& ldquo; 說你知道的就好,不用胡說”, DeepSeek馬上就會修正自己的生成內容。
chatgpt給出的建議
Sam說,對一般用戶來說,這個方法效果不錯。
實際上,正如我們前文所說,DeepSeek幻覺更嚴重,一部分原因是因它更智慧。 反過來說,我們要打敗幻覺,也要利用它這個特點。
原文網址:https://zh.gushiio.com/ai/3232.html