AI進化關鍵之年,AGI迎來“拐點時刻”?

文|極智GeeTech

特斯拉Optimus機器人完成工廠零件分揀、宇樹機器人在春晚上精准完成舞蹈動作、比亞迪拉開智慧駕駛全民普及序幕…& hellip; 這些標誌性事件宣告了人工智慧正在步入科技進化的關鍵之年。

近日,阿裡巴巴集團CEO吳泳銘宣佈,未來三年,阿裡將投入超過3800億元,用於建設雲和AI基礎設施,總額超過去十年總和。 這也創下中國民營企業在雲和AI基礎設施建設領域有史以來最大規模投資紀錄。 據IDC預測,到2030年,AI將為全球經濟貢獻19.9萬億美元,推動2030年全球GDP增長3.5%。

從工業革命到資訊革命,每一次科技躍遷都伴隨基礎設施的顛覆。 如果說AGI是一場星辰大海的遠征,那麼AI基礎設施就是通往目的地的“ 陽關大道”。 蒸汽機車需要鐵路網、電力需要電網、互聯網需要光纖與基站。 AI的爆發,正在呼喚一張全新的基礎設施網絡—& mdash; 它不僅是資料傳輸的筦道,更是連接實體與智慧、協調全域與局部、平衡效率與安全的“ 神經中樞”, 是一個能讓機器智慧與物理世界同頻共振的新型網絡。

在這個網絡下,機器人、自動駕駛汽車、低空飛行器等各類智慧體通過自主決策與協同控制,完成了一次又一次實时對話和人機交互,通往AGI新世界的大門也將由此開啟。

AGI必然路徑,從感知AI到物理AI

語音助手能準確識別方言指令、手機監視器能自動捕捉最燦爛的笑容,這些感知AI的傑作構建了現代社會的數位感官。 它們如同隱形的眼睛與耳朵,將光訊號、聲波轉化為可計算的資料流程。

但當自動駕駛汽車面對突發的道路塌陷,或服務機器人在淩亂的客廳裏找不到充電介面時,單純的環境感知能力立刻暴露出致命短板。

波士頓動力的人形機器人Atlas在平衡木上完成空翻時展現的不僅僅是動作精准度,更揭示了物理智慧的本質:重力加速度計算需要與關節扭矩控制同步,監視器捕捉的視覺資訊必須即時轉化為肌肉記憶般的機械響應。 這種感知與行動的毫秒級閉環,遠比AlphaGo戰勝人類冠軍更能體現智慧的本質特徵。

大模型的持續進化,如同蝴蝶振翅般顛覆了人們對人工智慧的傳統理解。 從初次嘗試新架構到發現新的普適定律,從能力泛化到模態無縫融合,這些突破性進展正在不斷重繪機器智慧的邊界。

大模型實現了感知與認知能力的全面升級,讓機器具備了更加細膩豐富的理解能力。 與此同時,人工智慧正在向著另一個關鍵維度挺進—& mdash; 對真實物理世界的類比與適應。

從感知到決策再到控制執行,端到端的智慧系統正在崛起,機器的適應性和靈活性持續突破,不僅能够自主感知和推理複雜場景,更能够主動規劃行動、做出決策,而具身智慧、自動駕駛的加速落地,又進一步塑造了機器的物理形態。

作為人工智慧發展的初級階段,感知式AI關注的是機器對環境的感知能力,使機器能够通過視覺、聽覺等感官獲取資訊,並進行基本的理解和響應。 感知式AI使機器能够與外界進行初步互動,為更複雜的智慧行為提供了可能性。 這一階段的典型應用包括語音辨識、圖像處理以及推薦系統。

2012年,一個名為AlexNet的神經網路引爆了AI研究界,它的表現遠遠超過所有其他類型的模型,並贏得了當年的ImageNet競賽。 自那時起,神經網路開始騰飛。 自ImageNet以來的13年裏,電腦視覺研究者們掌握了物體識別,並轉向影像和視頻生成,為後續生成式AI奠定了基礎。

AI進化關鍵之年,AGI迎來“拐點時刻”?插图1

在感知式AI的基礎上,生成式AI通過進一步發展延伸,形成了機器生成內容的能力。 這一階段標誌著人工智慧不僅能够理解資訊,還能創造文字、影像和音訊等新的內容,被認為是“ 生產力放大器”, 為行銷和創作領域提供了前所未有的工具和可能性。

今年,DeepSeek的火爆出圈將生成式AI再次推上了風口。 不過,DeepSeek底層邏輯依然是統計機器學習—& mdash; 喂數據、訓練、輸出結果。 這意味著生成式AI的科技天花板已經清晰可見,甚至因為它的“ 深度思考” 過程透明化,反而更讓人看清它的本質—& mdash; 一個被訓練出的智慧模型,而非真正的智慧體。

一個有趣的例子:當被問“ strawberry有幾個r” 時,DeepSeek需要反復思考50秒才能給出正確答案。 它能解决複雜問題,卻在簡單場景中暴露局限性。 這是因為其依賴統計相關性,而不是因果邏輯。 就像量販店發現“ 尿布和啤酒銷量正相關”, AI能發現規律,卻無法理解背後是“ 爸爸們順手買酒” 的因果鏈。& rdquo; 即便强如OpenAI,也在嘗試反思式推理(如GPT-4o的多路徑思考),但本質仍是數據驅動的優化。

近日,Meta首席AI科學家楊立昆(Yann LeCun)在2025年人工智慧行動峰會上表示,AI需要理解物理世界,只有在這基礎上,AI才能真正接近人類智慧。

儘管當前的大模型在諸如通過律師資格考試、解决數學問題等任務上表現出色,但它們無法執行日常生活中的基本任務,如做家務。 對於人工智慧而言,許多看似簡單的動作,如洗碗或擦桌子,依然是無法解决的複雜問題。 這些模型並未真正理解物理世界,只是通過模式識別和數據生成來類比現象。

為進一步提升AI理解真實世界的能力,物理AI被提了出來,它使人工智慧系統不僅能够理解資訊,還能在物理世界中進行操作,它結合了對物理現象的理解與智慧決策能力,使得智慧系統能够靈活應對複雜情况。

物理AI賦予具身智慧、自動駕駛更强的環境感知、理解和互動能力,使它們能够更好地理解周圍環境,並根據物理規律做出相應的反應。 例如,AI可以直接控制倉庫中的機器人進行貨物運輸,或是優化自動駕駛汽車的行駛策略。

從感知式AI、生成式AI,最終邁向物理AI,這一演變過程反映了人工智慧科技不斷演進的軌跡。 每個階段都承襲了前一階段人工智慧發展的技術成果,使得機器不僅能够“ 看” 和“ 聽”, 還能够“ 理解” 和“ 行動”。 這種逐步演進為實現更高級別的通用人工智慧(AGI)奠定了基礎,也為各行各業帶來了深遠影響。

AI與物理智慧“ 雙螺旋上升”

傳統人工智慧如同“ 缸中之腦”, 雖能解方程、作詩詞,卻無法真正觸碰現實。 物理AI的顛覆性在於:它將智慧注入物理實體,讓機器具備“ 感知-決策-執行” 的閉環能力。 從自動駕駛車輛到智慧電網,從柔性機器人到分子級製造設備,這些系統不再滿足於“ 理解世界”, 而是執著於“ 改變世界”。

AI進化關鍵之年,AGI迎來“拐點時刻”?插图3

相比生成式AI處理的是一維或二維資訊的輸入,如文字、圖片、音訊或視頻,並輸出相同類型的資訊,物理AI需要從三維、甚至四維(包含時空)的角度理解資訊,這與資訊智慧有本質的不同。

在輸入層面,物理AI系統可以從許多工具中獲取輸入,比如監視器、慣性感測器、雷達和雷射雷達,處理的是感知和理解世界的數據,包括視覺和觸覺等感官資訊,並且能够直接從感測器數據中學習和理解環境,讓人工智慧從單純的感知、生成,進階到能够進行推理、規劃與行動。

在輸出層面,物理AI生成的是TSD數據,即時間(T)序列(S)數據,這種數據可以直接用於控制具身智慧,賦予其一個能在現實物理規則下靈活運轉的“ 大腦”。

此外,生成式AI和物理AI在產品形態和應用場景也有所不同。 生成式AI不受時間影響,不需要實时迴響,例如ChatGPT中有些資訊可能只更新到去年9月。 而物理AI系統必須實时處理輸入資訊,需要實时感知和推理環境,以確保具身智慧能够及時響應。

現時,大多數物理AI系統還只能處理特定任務或小環境,並且效果參差不齊。 落地上,一個現時很火的例子是宇樹科技的四足機器狗,可以爬山涉水,還可以用一連套高難度的體操動作亮相,包括原地旋轉兩周接倒立旋轉三周半,以及一套流暢的湯瑪斯全旋、側空翻和360度跳躍轉體等。

如同大模型革新了生成式AI一樣,物理AI成為具身智慧、自動駕駛等領域進入新階段的“ 鑰匙”。

首先,大模型“ 上車” 難題將得到很好解决。

現時,大模型在汽車領域的應用主要體現在兩個方面:一是智慧座艙,二是自動駕駛。 前者跟大模型科技有著天然的契合度,因為當前的智慧座艙更側重於娛樂和互動功能,這與大模型的語言處理能力非常相符,難點在於後者。

對於自動駕駛而言,如何在複雜動態的交通環境中實現高效、安全的車輛控制成為一大覈心難題。 現有的自動駕駛系統普遍缺乏多智慧體合作能力、高效決策與解釋能力,在面對複雜交通環境時,難以有效理解周圍交通參與者的行為和意圖。

第二是數據。 在自動駕駛領域,大模型需要“ 喂” 大量的真實世界數據進行訓練,讓它更擬人。 所以如何讓這些數據更好地服務大模型做訓練,這是現時普遍車企面臨的另一個難點。

其次,人形機器人加速邁向“ ChatGPT時刻”。

去年,人工智慧機器人初創公司Figure AI發佈Figure 02時,就曾引發市場高度關注。 Figure 02在大腦上,集成了OpenAI的GPT-4o多模態大模型,使其能够更好地理解和響應複雜指令。

多模態大模型不僅是科技的簡單疊加,而是推動物理AI向前發展的重要科技支撐。 大模型能力的本質是對資訊的壓縮與二次處理,多模態大模型擴大了資訊輸入模態,提升了模型能力天花板。

多模態大模型科技路徑是從影像-語言模態融合再到三種以上模態的融合。 語言模態的訓練賦予了模型邏輯思維能力與資訊生成能力; 視覺模態的信息流密度較高,也與現實世界更貼切,可以大幅度拓展應用場景,囙此成為多模態科技的首選資訊載體。 在此基礎上,模型可以繼續發展動作、聲音、觸覺等不同模態,以應對更加複雜的場景。

AI進化關鍵之年,AGI迎來“拐點時刻”?插图5

多模態大模型的覈心優勢在於卓越的資訊融合能力。 通過對不同模態數據的同步處理與深度綜合,模型能够挖掘出跨模態資訊之間的內在關聯,從而生成更全面、準確且富有洞察力的理解與回應。

例如,在影像描述生成任務中,模型可以結合影像中的視覺元素與相關文字描述,生成精准且流暢的自然語言描述,讓機器不僅能“ 看到” 影像內容,更能以人類可理解的語言“ 講述” 其中的故事,囙此更能滿足機器在物理世界中廣泛應用的需求。

通往AGI的基礎設施路徑

物理AI的崛起,正在將人工智慧發展推向一個臨界點:我們能否構建一張足够智慧、堅韌且包容的網絡,既釋放科技的全部潜力,又守護科技的核心價值? 這不僅是工程師的挑戰,更是全社會的共同課題。

物理世界的運行法則遠比數位空間殘酷:決策偏差導致的不是程式報錯,而是血淋淋的交通事故; 模型推理需要的不是概率優化,而是毫秒級的精准控制。 車路雲網絡作為智慧體與實體世界實时互動的AI網絡,正是打破這層玻璃的關鍵鑰匙,其通過大規模部署路側感知單元、每秒處理海量數據的邊緣計算節點,以及覆蓋城市道路的網絡,將數位智能注入物理世界的毛細血管。

這個龐大網絡的科技內核在於“ 通感算一體化” 架構的突破。 通信光纖如同神經系統傳遞著每輛汽車0. 1秒內的加速度變化,雷射雷達陣列如同視覺神經捕捉著200米外行人的步態特徵,雲端超算集羣則在時空維度編織著城市交通的數位孿生。

當豪雨導致某路口能見度驟降時,路側基站能在百毫秒內完成對車道行駛軌跡的預測,並通過車路雲網絡向800米範圍內的車輛發送分級制動指令,賦予自動駕駛車輛實現超越人類反應極限的群體決策能力。

虛實融合的AI網絡正在重構科技演進的底層邏輯。 車路雲架構將70%的感知計算任務轉移至路側設備後,車輛只需保留基礎算力模塊,如同普通駕駛者借助智慧交通系統獲得“ 上帝視角”, 相當於用市政設施的群體智慧彌補了單車感知的物理局限。

更深層的變革發生在模型和算灋層面。 數字世界AI可以承受99%的準確率,但控制刹車系統的模型容錯率必須是六個九。 車路雲網絡通過數位孿生科技,將現實路網尅隆為可無限試錯的虛擬沙盤。 這種虛實閉環的進化機制,讓人工智慧在應對電動自行車突然變道時,能像三十年駕齡的老司機般預判軌跡,卻又不受人類駕駛員的情緒干擾。

站在科技演進的維度觀察,車路雲網絡的價值遠不止於交通效率的提升。 它證明了一個更具普適性的範式:當AI突破數字世界的邊界,其進化軌跡必然要與物理實體深度融合。

這種融合不是簡單的控制與被控制,而是通過持續的環境互動形成自主演化能力。 就像生物神經系統的進化史,從單細胞生物的應激反應到人類大腦的複雜認知,智慧的躍升永遠伴隨著與真實世界互動維度的拓展。

在車路雲網絡中,車輛不僅僅是資訊的接收者,它同時也是資訊的生產者。 每一輛車的感測器、監視器和其他設備所收集到的數據,都會實时傳輸到雲端。 這些數據不僅幫助優化當前車輛的駕駛決策,還會反向影響整個智慧交通系統的運行,通過共亯資訊,多個車輛和交通管理系統可以形成協同感知,從而提升整體道路的安全性和流暢度。

物理AI的覺醒,昭示著智慧革命的拐點時刻已經到來。 當都市化作流動的神經網路,每個機器人、每輛汽車都可以成為自主決策的智慧體。 就像DeepSeek創始人梁文峰所言:& ldquo; AI的未來不在於取代人類,而應該像水電一樣成為基礎設施,讓每個人都能享受到科技帶來的便利。& rdquo;

實驗室裏的機械臂正在學習預測咖啡杯滑落前的震顫頻率,氣象AI系統同步調整著風力發電機的葉片角度。 這些看似碎片化的科技突破,實則在編織覆蓋全球的智慧協同網絡。 當這個網絡達到臨界規模時,或許我們終將理解圖靈在1950年提出的那個終極問題:機器能否思考? 答案可能藏在機器與物理世界持續對話時產生的電光石火之中。

原文網址:https://zh.gushiio.com/ai/2994.html

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *