45天100萬美金arr,這家創業公司找到了ai 3d生成的pmf
文章來源:founder park
image source: generated by ai
45 天,3d 生成產品 rodin 達成了 100 萬美金 arr。這是一個重要的里程碑,作為對比,genai 領域最成功的初創公司之一 heygen 達到這個數字花了 7 個月。
rodin 來自影眸科技,剛剛完成數千萬美金的 a 輪融資,投資方包括字節跳動和美團龍珠等。
四位聯創,平均年齡 25 歲,但他們已經創業四年。四年前,都是同學,技術多自信,業務就多坎坷。
我們和 ceo 吳迪、cto 張啟煊坐下聊了很久,聽到很多他們問自己的問題,那些問題在四年的探索中慢慢有了答案。
“我們技術這麼好,客戶為什麼不用?”第一個問題,超典型技術小天才。
影眸已經花了四年求解這個問題。
一月,從古至今,都是屬於硬體的。大模型的希望,可能也是硬體的。
所以 founder park 搞了這個半閉門交流,邀請幾位新銳創業者盤一盤:
- ces 上最牛 x 的 ai 硬體是什麼?
- 除了眼鏡以外,ai 硬體還有什麼值得干?
- 一個新品類,如何快速干到 100 萬出貨量?
- 未來一年,新銳公司們誰能幹的最牛 x?
分享嘉賓: - 張鵬|極客公園創始人&總裁
- henri pang| kickstarter 中國首席戰略代表&高級顧問
- 何嘉斌|萌友智能 ceo、聯合創始人(ropet)
- 張曉輝|tangiblefuture 創始人&ceo(looi)
- 吳昊tony|玖治科技聯合創始人、ceo(ringconn)
01 、3d 的表達是“割裂”的
rodin 1.0 用 45 天邁過了 100 萬美金 arr,那已經是半年前的故事了。現在 rodin 陸續完成幾次版本疊代,升級到 1.5 版本,模型性能已經完成一次跨越。
1.5版本最重要的特點是:能夠生成直角。聽上去卻很“簡單”,就是更準確地生成直線、直角和或者平滑曲面,以及更好的邊緣銳度。
當外界對 3d 生成的期待變成動輒用幾句自然語言就能變出現實世界一角,一個更準確的“直角”,價值在哪裡?
使用 rodin 創建的影視級作品
“3d 生成,生成的究竟是什麼?”這是最基礎,但也最關鍵的問題。
有人覺得是視頻,或者說,大多數人對 3d 的理解,很大程度上等同於一段充滿 3d 元素的視頻內容。90 年代的《玩具總動員》,後來李安的數字版威爾史密斯,早年多邊形的遊戲,去年爆火的《黑神話:悟空》,所有人都能通過平面感受到 3d 作為一種影像呈現方式的魅力,不管是電影銀幕,還是遊戲電腦的屏幕。
於是,從 2d 視頻出發模仿 3d,成為了一條很重要的技術路線。
sora 在 2024 年初橫空出世,demo 視頻里的高一致性,引發了人們探討它是否會直接覆蓋 3d 生成的工作。但很快,sora 遲遲不發,追隨者表現一般,視頻模型距離“電影級”或加入遊戲管線還有很長的時間。
原因很多,比如生成式 ai 的能力仍然被高估了,就像電影概念藝術家和插畫家裡德·索森(reid southen)在早些時候的判斷,“這些視頻有點太草率了,有太多問題,尤其是時間一致性和額外肢體之類的偽影”。
但一個被忽視的問題在於,一段演示著 3d 形象的畫面,到底是“3d”,還是更偏向“視頻”?
視頻作品意味著直接面對著它的消費者,但遊戲和影視創作中的“3d”概念,本身是一個完整工業中的一環,比如一座虛擬建模的花果山,它需要能夠在後續的創作環節中被繼續使用。
“3d 生成,究竟生成的是什麼?”
“與視頻不同,3d 是個工業,它有下游環節。視頻輸出之後用戶可以直接分享,手機里就可以看,但是 3d 生產好之後要想去進一步使用,需要適配渲染器,需要適配遊戲引擎,如果是具身智能的話,需要適配仿真軟體。這就要求我們對(模型)輸出的東西,需要和一些工業標準需要去做好對應。”
用戶使用 rodin 批量生成的 3d 資產
文字、圖像或者視頻發展到現在,都已經成為消費級的內容,這意味著他們都是直接與 c 端用戶見面的。這在技術層面也就意味著,三個模態的表達已經在行業里達成基本的一致。
“視頻有它的主流編碼,圖像可能目前主流的是一個二維矩陣,每個位置上記錄它顏色。文字可能就是一些字符上的編碼”,啟煊說,“但 3d 不是,到現在為止它的表達還是很割裂的”。
這種割裂是指,比如一個 3d 數字人的面部建模,可能會使用特定的格式來支持複雜的面部表情和身體動畫,這通常需要高精度的網格和骨骼綁定技術;大逃殺遊戲中的建模更注重性能和效率,對地上的一把槍通常採用低多邊形風格的建模方式;而一款車在設計階段的 3d 建模,重點在於精確的幾何形狀和功能性表現,需要詳細地展示其內外結構、機械部件以及空氣動力學特性,這種建模通常需要使用專業的 cad 軟體,並結合工程和設計的嚴格標準,以確保模型的準確性和實用性。
所有對 3d 數據有需求的行業,目前幾乎都有著一套只對自身場景適用的標準和表徵方式,它們的數據信息相互之間不可復用。
影眸科技團隊一直希望將 3d 數據的表徵統一起來,變成一種標準化的資產,這件事從 rodin 1.0 開始就在做,團隊提出了一種 remesh 的模型重置策略,通過把每個模型都稍微“變厚”一點點來達到表徵一致,“變厚”之後對生成 3d 的美觀性和它所包含的信息其實沒有太大的影響,但是整個模型會看起來都圓鼓鼓的。
但在 rodin 1.0 真正落入工業的過程中,表徵的統一併不意味著生成的 3d 數據就可以順利的作為資產被被使用了。在大量真實的產品設計或遊戲工業里,對 3d 資產大量的需求並不是可愛的萌寵或者一個用雲朵質地拼成的字母“a”,而是更偏向於無機形狀(用數學的構成方式,由直線或曲線,或直曲線相結合形成的面)以及銳利邊緣感覺的東西。
無機形狀的生成能力、銳利的邊緣以及非常乾淨的拓撲結構,這是 rodin 1.5 在 3d 生成能力上最凸顯出來的的性能提升。而這種對於 3d 生成數據在一致性和“可用”上的重視,是吳迪和啟煊這幾年用一個個坑踩出來的。
02 、一定要 production-ready
幾年前,一個大客戶讓初出茅廬的吳迪和啟煊等人第一次碰壁,那就是《流浪地球 2》。
《流浪地球 2》的中有一些劉德華和吳京變年輕的鏡頭,後期團隊希望用特效來呈現。2021 年年初,影眸團隊在上海張江搭了一座直徑 3 米的黑色球形框架,光源和攝像機遍布球體內部,整個裝置占滿了一整個房間,這是影眸科技當時用於高精度人物面部採集的第一代穹頂光場。穹頂光場做出來後,一些影視行業的團隊陸續來問,其中就包括《流浪地球 2》。
穹頂光場
吳迪和啟煊對自己研發出來的人臉掃描設備非常自信,但現實也非常慘澹。據吳迪回憶,“流浪地球團隊的人來看了效果後,問的第一個問題:這玩意咋用?”
不能用的原因是,最初的穹頂光場其實本質上是一套純打光的系統。一個人進入球體中心,通過 360 度的光源可以採集所有方向的光照,在這個基礎上,可以在後期去合成不同的光照環境,然後再通過換臉的方法把它給換上去。,邏輯上更偏向現在說的視頻生成。這使得它很難進入電影工業的 cg 管線。
“真的要用在 cg 管線上的 3d 人臉,它首先得是一個完整的 3d 模型,它有優秀的拓撲、可以反映出各種光照變化的材質、能控制並且做出各種表情,這樣它才能夠很好地被接入在後面去使用。”
在那之後不久,影眸科技做了一個重大的決定–砍掉了當時所有 base 2d 的技術研發投入,全面 all in 3d。生成路線從 2d 往 3d 的轉向背後,是影眸科技團隊內部對於“production-ready”的共識。
“production-ready”這個詞來自 cg 行業。cg 行業中有一個詞–後期(post-production),而“production-ready”的意思就是後期可用。
用戶作品,70%模型來自 rodin
從第一代側重平面數據採集的穹頂光場,在與客戶不斷碰撞的過程中慢慢演進到後來第二代採集 3d 人臉數據的穹頂光場,再到隨著與客戶的接觸,技術最終達到了採集數據可以直接用於影視遊戲數字角色的構建,“production-ready”逐漸成為影眸科技由內而外的一種理念。
“production-ready 不是個容易量化的指標,如果一定要說的具體一點,那就是在技術路線的設計、選擇的優先級上,我們會把生成結果的可用性作為一個很重要的思考點。打個比方,如果一個技術它能帶來視覺質量的提升,但是不會讓 production-ready 的距離更近,我們就不一定會去做”,啟煊說。
“production-ready”的觀念也直接決定了影眸科技在生成式 ai 浪潮來臨後,在 3d 生成上選擇了一條反常識的道路。
在當時最主流的觀念里,3d 生成本質上是一種從 2d 的升維,在 stable diffusion 出現之後,通過 2d 擴散模型,結合 nerf 等方法實現三維重建的過程。由於可以利用大量的 2d 圖像數據進行訓練,這類模型往往能夠生成多樣化的結果。
隨著多視角重建工作通過把 3d 資產的多視角 2d 圖像加入 2d 擴散模型的訓練數據,在一定程度上緩解了這類模型對 3d 世界的理解能力有限的問題,但局限性在於,這類方法的起點終究是 2d 圖像,2d 數據終究只記錄了真實世界的一個側面,或者說投影,再多角度的圖像也無法完整描述一個三維內容,因此模型學到的東西依舊存在很多信息缺失,生成結果還是需要大量修正,難以滿足工業標準。
2d 升 3d 的路線,更像是在證明一個圖像模型見識了足夠多的圖像之後能夠理解 3d,但這種對 3d 的理解和工業上能夠被使用的 3d 數據仍然相去甚遠。從另一個角度,2d 升 3d 也反過來意味著一種對於 3d 信息的壓縮–就像一個 200 條邊的正多邊形仍然離一個理想的圓形有差距一樣。
影眸團隊,在大量的數字人和 3d 掃臉工作之後,面對這條 3d 生成里看起來最有共識的技術路線,“沒辦法說服自己”。
“我們知道三維掃描這件事的上限在哪裡。當前,它達到最完美的地步也很難直接投入到實際生產里,而拿 2d 的 stable diffusion 去升維到 3d 最好的情況也就是無限逼近了三維掃描的質量,憑什麼這種方法可以一步到位?”吳迪說。
3d 生成要能夠與人類工業對齊,只能走 3d 原生這條路,也就是拋棄從 2d 升維的想法,直接構建出 3d 模型。
計算機圖形學頂會 acm siggraph 2024 大會上,影眸科技團隊的兩篇論文–可控 3d 原生 dit 生成框架 clay 與 3d 服裝生成框架 dresscode–均入圍了最佳論文提名。論文中提出了一種 3d 原生的 diffusion transformer 架構,也就是完全從 3d 數據集訓練生成模型,從各種 3d 幾何形狀中提取豐富的 3d 先驗。
這兩篇論文的探索工作也引領了 3d 生成業內的技術路線變化,這之後 3d 原生開始取代 2d 升 3d,到現在已經是目前全球範圍內 3d 生成主流的探索路徑。
影眸團隊在 siggraph 上
03 、從實驗室到創業公司
早在影眸創辦第一年,他們就曾做出過一款明星產品。
2021 年,一款叫“wand”的二次元角色生成產品上線,上線第二天被一個知名的日本博主看到,然後迅速在國內熱鬧起來,在很短時間內拿到了 160 萬的用戶量。
wand 當年的 app store 頁面
流量與關注隨之而來,“接不住”吳迪說。
流量並沒有給吳迪和啟煊帶來選擇成為哪種公司的機會,反而是要剝奪了這種選擇的權利。
“所有人都覺得我們應該把自己做成個“wand”公司,包括我們周圍的人,還有一些想投資我們”,吳迪說。
但最終“wand”公司沒有出現。不久後,吳迪和啟煊就主動停掉了“wand”這個產品。現在外界更加熟悉的名字,是影眸科技和 rodin。
“我們沒有走那條大家認為該走的路,因為我們的技術能力和我們想做的事情,還是在 3d 上。”
完全拋開圖片生成路線的決心,得到了陸奇博士的支持。
“既然做了這個決定,你們就要狠下心來,只做那個你們認為對的東西。”陸奇博士在 2021 年奇績創壇秋季路演之後和影眸團隊說。
2021 年末的奇績創壇 2021 秋季創業營路演上,陸奇博士像“教練”一般,邊回收著麥克風,邊與剛完成路演的創業者激情擊掌。這一期 4226 家創業公司中,最終錄取了 53 個項目。1.25% 的錄取率,其中就包括了影眸科技。
wand 最終變成了讓吳迪和啟煊從實驗室走向商業世界的敲門磚。
吳迪在之後有問過陸奇博士為什麼會投自己這個團隊。同年爆火的 wand 是那個讓奇績注意到這個上科大年輕團隊最初的契機,但最根本的原因在 wand 背後,奇績看到了一個純研發團隊能夠難得在早期就具備商業化的思維。
這對一支 2021 年時平均年齡才 21 歲的創始團隊來說並不容易,但產品化和商業化這兩個非常企業式的思考維度,從影眸科技這個名字一開始在上科大的 mars 實驗室中醞釀成立時就有了。
吳迪在 2015 年進入上科大,啟煊則是 2018 年,兩人先後進入了上科大以人工智慧結合計算攝影為主要研究方向的 mars 實驗室,那時的實驗室里只有三位學生,也就是影眸科技最早的三位成員,第四位聯創在 2020 年進入 mars 實驗室,這時候第一代的穹頂光場正在搭建,外界正是元宇宙和數字人概念勢頭正盛,吳迪和啟煊們看到了這套數字採集設備背後的商業前景,就在實驗室里決定了影眸科技的成立。
上海科技大學是一個非常非常年輕的學校,創辦於 2013 年,吳迪是第二屆學生,那時候上科大還不是“雙一流高校”,校園只有一個宿舍樓,上課都要借其他學校的教室。
但有意思的地方在於,在上科大,無論是實驗室、學生會、還是最開始的課程,一切都要從頭開始搭建。吳迪很喜歡這種感覺,“念書念出了創業的味道”。
或者用啟煊的話說,“(上科大頭兩年的情況)決定了當時學生的屬性,都是他們這種膽大的,aka 創業精神。”
影眸團隊在 siggraph real-time live!環節展示 rodin 3d 生成
公司成立於 2020 年 6 月,之後的整整一年多時間,吳迪和啟煊都在生成內容和工業真實需求間的巨大落差之間受挫。將“production-ready”作為技術研發最核心的校準方向最初也是在這無數次受挫中形成的。
2021 年秋天,影眸拿到了第一筆來自奇績創壇的融資。在奇績創壇的路演日之後,他們又很快拿到了第二筆。
第二筆來自紅杉,吳迪記得敲定紅杉這筆融資的時候是 2021 年的聖誕節,那天下午他們見了好幾波投資人,直到很晚。“那天剛好是我們聖誕聚會,但弄到最後我跟吳迪就只是去聚會上結了個帳”,啟煊說。
這條創業道路並沒有從此一帆風順。從 2022 年開始,影眸科技在接近兩年時間裡沒有拿到融資,其中有一次融資過程消耗了吳迪大量的精力,卻最終沒能 close。
那次失敗帶來了兩個結果:
第一,影眸的性格,做 ai 創業,第一天就要考慮商業化,先活下去,保證現金流;
第二,徹底堅定 3d 原生路線的選擇。
“在這之前,我們做 3d 生成的想法是,招一個在 3d 生成領域有過嘗試的人來幫我們一起做,但那樣很可能跳不出當時技術路徑的慣性”,吳迪說,“恰恰是因為那次融資失敗,讓整個核心研發團隊下定決心,一定要做出真正可用的 3d 生成。”
幾個月後,有了最初的 rodin 1.0。
04 、3d 就是那塊拼圖
影眸希望 rodin 成為 wand 一樣的爆款 toc 產品嗎?
這個答案很明確。
“3d 生成最終一定會走向 c 端,但不是現在。”啟煊說,“現在拍一張圖片或者一段視頻可以很直接的分享社交平台上,但 3d 還不是一個可被分享的格式。”
或許新的硬體有機會,但肯定還需要時間。在那之前,“當你不清楚這個東西的終局在哪裡,不如先做,眼前永遠有很多值得攻克的問題。”吳迪確信,當前 3d 生成的機會,就在存量市場裡。
影視娛樂不必多說,工業領域對 3d 生成的需求也越來越多。比如建築設計,以往建築效果圖大多仰賴二維貼圖,算力限制了可視化的選擇。這種方法的局限性相當大,比如燈光永遠看起來不正確,攝影機總是要在一定的高度上,動畫也是大禁區。3d 原生技術可以讓整個虛擬空間在任何光線情境、任何攝影機下運作,給建築可視化帶來了更多的想像力。
目前影眸已經與多個遊戲、影視、製造業等行業的龍頭企業展開合作,rodin 的 saas 產品也積累了大量平面設計師、ar& vr 開發者、3d 列印愛好者等專業用戶人群。
rodin 用戶在 x 上的評價
“我們現在的目標是存量市場,存量市場有真實的需求,它能告訴我們,大家到底需要怎麼樣的 3d 生成模型?”吳迪說道。
那以後呢?
一年前 sora 石破天驚的時候,曾經一度讓人懷疑行業是否還需要 3d。
啟煊印象很深,“視頻生成剛出來的時候,所有做傳統圖形學的–我們–都覺得它會被顛覆掉。”他解釋說,對 3dcg 來說,視頻生成意味著不再需要三維空間,直接拿到渲染結果,“這對傳統 cgi 技術衝擊非常大,做 3d 生成的會擔心有一天 3d 不再被需要了。”
尤其,雖然 sora 當時是“期貨”,“但 openai 在期貨這件事上,reputation 還挺好的。”
影眸的研發團隊開始頻繁了解、測試視頻模型。他們很快意識到,視頻生成在做的只是“仿真”,是“模擬”,再“逼近”最終想要的結果。
“它是一個 frame consistency(幀間一致性)的生成器,並不是建立在 world model 之上,它做不到 world consistency(世界一致性)。”啟煊說,“這是兩個 level 的概念,如果只靠視頻生成,就只能停留在這裡。”
“但有意思的是,3d 模型原來在 cgi 工業里做的,就是 world consistency。”
一段電影中的 cg 視頻,比如房間裡的一個人,首先需要房間裡每個物品的模型,每個模型都需要表達光照屬性的材質,人物需要動作的動畫,需要虛擬世界裡有一個攝影,對人物的每一幀動作做光線追蹤,這時候光追就是渲染器的工作,通常離線渲染一個電影級 cg,往往需要集群級別的渲染才能達到逼真效果。
意識到這點,再看視頻生成,在以上的管線里,似乎“只取代了離線渲染器的工作–而不是整個 cgi 工業”。
“視頻不是 world model,”吳迪說,“它可能是 world model 輸出,展示給大眾時的一種形態。”
“一致性問題,尤其是 world-level 一致性,這是個信息量的問題,”啟煊解釋說,“如果這個世界的信息變化的描述,不能輸入給 ai,它就一定做不到這種 consistency。”
通向世界模型,至少需要 world consistency,所以這個時候,就需要一個新的模塊做好控制(control)。
缺少一塊拼圖,恰好就是 3d。
“我們有自己心目中的 world model。”有很多正在做、值得做的事,想想都很興奮。
原文網址:https://zh.gushiio.com/ai/160.html