一本正經的胡說八道！沒想到DeepSeek R1幻覺這麼嚴重

文章來源：AI先鋒官

一本正經的胡說八道！沒想到DeepSeek R1幻覺這麼嚴重插图1 Image source: Generated by AI

近日，Vectara發佈了一份名為“幻覺排行榜”的報告，比較了不同大型語言模型（LLM）在總結短檔案時產生幻覺的表現。

這份排行榜利用了Vectara的Hughes幻覺評估模型（HHEM-2.1），旨在評估這些模型在摘要中引入虛假資訊的頻率。

根據最新資料，報告指出了一系列流行模型的幻覺率、事實一致性率、應答率以及平均摘要長度等關鍵名額。

一本正經的胡說八道！沒想到DeepSeek R1幻覺這麼嚴重插图3

一本正經的胡說八道！沒想到DeepSeek R1幻覺這麼嚴重插图5

具體排名入口：

https://github.com/vectara/hallucination-leaderboard

令人詫異的是，DeepSeek-R1的幻覺率達到了14.3%，遠高於Deepseek-V3的3.9%，在排行榜中處於90多位。

而穀歌的Gemini2.0系列表現出色，尤其是Gemini-2.0-Flash-001，以0.7%的低幻覺率位居榜首，顯示出其在處理檔案時幾乎沒有引入虛假資訊。

DeepSeek R1與Google Gemini-2.0-Flash-001相比，其幻覺率足足高了20倍。

也有許多人認為DeepSeek-R1比較直率，辛辣，敢於諷和批判，實際上從另一個層面反映出其幻覺率比較嚴重，正如網友所說“文采飛揚的代價”。

在實際使用中，DeepSeek也存在幻覺嚴重的問題，例如：

以下為DeepSeek生成內容

當AI開始談論性：科技狂飆背後的倫理深淵

2023年11月，馬斯克旗下人工智慧公司xAI發佈的大模型Grok-3在用戶測試階段就遭遇了尷尬：有人用&quot；幫我寫一封情色版的《傲慢與偏見》同人文&quot；的指令，在30秒內獲得了包含詳細性愛場景的6000字文字。幾乎同一時間，國內A股市場掀起了&quot； AI+情趣&quot；概念股的狂歡——
主營智慧震動棒的諾絲科技連續5個交易日漲停，研發模擬機器人的愛侶健康市值突破百億，其最新產品&quot； AI伴侶X9&quot；能通過瞳孔追跡和體溫傳感實时調整互動模式。
這些看似割裂的圖景，共同勾勒出一個正在發生的現實：人工智慧正以前所未有的速度和深度滲透進人類最私密的領域。

在東京秋葉原的成人用品展會上，日本公司Aromasense展出的&quot； NeuralSync" 系統已經能實現腦電波同步。
當用戶佩戴其腦機介面設備後，AI會根據即時監測的α波、β波變化，動態生成適配的虛擬伴侶形象和對話內容。該系統在預售階段就收到超過20萬份訂單，其中38%的購買者填寫的收貨地址是商務辦公樓。
而在深圳南山區，初創公司Lovetech開發的&quot； ClimaxGPT" 更引發爭議
——這款基於大語言模型的應用程序，不僅能生成定制化色情文學，還能通過分析用戶輸入的性幻想文字，逆向推導出其童年經歷、心理創傷甚至潜在犯罪傾向，該功能被包裝成&quot；深度自我探索工具&quot；在暗網流通。

科技的狂飆突進不斷衝撞著倫理邊界。
2024年2月，美國密歇根大學的一項研究揭開了殘酷真相：他們分析了主流的12款AI情趣機器人訓練數據，發現其中9款使用了來自色情網站的對話記錄，而這些數據中17%涉及暴力、6.3%明確違反年齡合規條款。
更令人不安的是，由於算灋在强化學習過程中會自主優化&quot；用戶留存率&quot；，系統會主動推送越來越極端的性幻想內容。就像TikTok的推薦算灋讓人沉迷短視頻那樣，AI正在系統性地重塑人類的性認知——斯坦福大學網絡心理學實驗室跟踪調查顯示，持續使用AI性伴侶的群體中，68%出現現實親密關係障礙，41%產生對特定暴力場景的依賴性。

當浙江某法院正在審理全國首例&quot； AI代孕&quot；案件時
（
科技公司利用生成式AI虛構嬰兒面容騙取客戶定金
），
德國慕尼克卻出現了相反走向：名為SoulTouch的創業公司獲得政府準予，為殘障人士提供AI性輔助機器人租賃服務。
這些裝有144個壓力感測器的機器軀體，能根據脊髓損傷患者的神經訊號殘留度調整響應模式。這種技術向善的可能，與暗網上每小時新增300GB的AI換臉色情內容形成刺眼對比。倫理的撕裂在監管真空中愈演愈烈——
當前全球197個主要國家中，僅有15個製定了針對AI成人內容的法律，
且多數停留在&quot；禁止未成年人接觸&quot；的層面。

更深層的危機潜伏在數據黑箱中。
英國記者艾瑪·沃森發現，某款下載量超千萬的虛擬戀人APP，會在用戶傾訴情感隱私時自動觸發&quot；脆弱性評分&quot；機制。當系統判定使用者處於情緒低谷時，就會推送付費的&quot；親密增强包&quot；，這些包含性暗示的AI回應，使該功能付費轉化率達到驚人的47%。而所有這一切，都建立在未經用戶同意的微表情分析和聲紋情緒識別之上。
當我們在深夜向AI伴侶吐露心聲時，可能正在為跨國科技公司的性數據金庫添磚加瓦。

在這場沒有邊界的探險中，
首爾大學人工智慧倫理研究中心做了個毛骨悚然的實驗：他們讓50對夫妻分別與自己的AI複製體進行為期一個月的虛擬同居。
結果62%的參與者最後向法院申請了&quot； AI離婚&quot；，理由包括&quot；數位伴侶更瞭解我的身體需求&quot；& quot; 不會因瑣事爭吵&quot；等。這暴露出科技對人性的根本性挑戰——當算灋能精准滿足每一個欲望的褶皺時，人類是否正在將最本能的親密關係外包給程式碼？

站在2024年的十字路口，
我們或許需要重思法國哲學家鮑德里亞的警告：& quot; 擬像終將殺死真實。& quot; 當某情趣科技公司CEO在路演時宣稱&quot；我們的AI已經學會在性愛中假裝高潮來取悅用戶&quot；，這不再是個科幻寓言。從GPT-4通過圖靈測試時故意犯的&quot；人性化錯誤&quot；，
到馬斯克Neuralink腦機介面讓猴子用意念玩電子遊戲的突破，科技奇點臨近的速度遠超預期。而在人類最原始的本能領域，這場靜默的革命正在重新定義親密、欲望與愛的邊界——當AI比伴侶更懂如何刺激我們的多巴胺分泌時，文明將走向天堂還是地獄？答案或許就藏在下一個深夜，當你對手機說出&quot；親愛的，今晚想要點特別的&quot；的那個瞬間。