recraft專訪:20人,8個月做出了最好的文生圖大模型,目標是ai版的photoshop
文章來源:鏡相工作室
image source: generated by ai
1966年,一個簡單的符號">"出現在計算機屏幕上。這個被稱為"命令提示符"的符號,成為了人類與計算機對話的開端。半個世紀後,當研究人員發現通過精心設計的提示詞能夠指引ai完成各種任務時,"prompt"成為了人工智慧時代最重要的術語之一。
現在,當我們與ai對話,說出的每一句話都是一個prompt。無論是讓ai生成一幅畫作,寫一段代碼,還是完成一篇文章,都需要通過prompt來表達我們的想法。這種人類與ai的對話方式,正在悄然改變我們的工作與生活。
這也是《the prompt》這個欄目的由來。在這裡,我們將與ai領域的創業者對話,發掘具有創新力的ai產品,記錄技術變革帶來的驚喜時刻。我們希望內容本身,也能成為一個prompt,為讀者打開思考的空間,在技術浪潮中,找到觀察和理解ai的支點。
2024年下半年在社交平台上最火的圖片,一類是hello kitty整頓職場,坐在起火的電腦前平靜地喝咖啡,掄起大錘砸辦公室;另一類是“夢核”膠片風,色彩濃郁、對比度高,構圖荒誕,被稱為“夢境模擬器”–這兩種風格的圖片都由ai設計軟體recraft生成,後者來源於recraft的預設風格“hard flash”。
● 圖片均由recraft生成,使用風格分別是photorealism、hard flash。(左右滑動查看)
2024年12月,我們和rectaft創始人兼ceo anna veronika dorogush進行了對話。
dorogush畢業於莫斯科國立大學應用數學和計算機科學專業。創業之前, 她在谷歌、微軟和俄羅斯最大搜尋引擎yandex都工作過,但她更想創造屬於自己的產品。辭職時,她並沒有想好自己到底要做什麼,2022年夏天的文生圖浪潮–stable diffusion在8月份開源發布,dall-e 2逐步開放訪問,midjourney開始beta測試,讓她決定投身於此。
與midjourney不同,recraft成立的初衷是“專注於為平面設計師提供ai輔助工具”。起初獲取用戶很難,設計師常常說recraft很好,但自己不會用,“這讓我們很痛苦,因為他們就是目標用戶”。於是她們決定自研模型。
2024年,recraft自研模型recraft v3在公開排行榜上排名第一,超過了midjourney、ideogram、flux等一眾圖像生成模型。recraft也在嘗試讓設計師對生成的圖像擁有更多的控制,比如生成風格一致的系列圖像,效果模擬(mock up,指可以將平面圖拓展到立體產品上),局部修改等,這也讓recraft被稱為ai版的photoshop。
目前,recraft團隊仍然不大,20多人–dorogush覺得已經不小。她們的總部在英國,註冊地在美國德拉瓦州,沒有繼續在俄羅斯創業的原因是ai制裁。
至於hard flash模式的流行,完全是意料之外的事。dorogush說,自己本來以為,這么小眾的風格肯定很少人使用。
以下是鏡相工作室和anna veronika dorogush的對話,略經編輯:
● recraft 創始人兼ceo:anna veronika dorogush
“用戶喜好很難預測,但找到受眾,使用潮就會出現”
鏡相工作室:中國社交媒體上很多人使用recraft,特別是hard flash風格。你們有注意到中國用戶在增加,或者這種風格被更頻繁地使用嗎?
dorogush:我們確實注意到了。一開始我們不太明白是什麼原因,直到後來和一位創業公司的朋友聊天–他們公司有箇中國背景的創始人。他向我們解釋說,這其實是一種文化現象。在中國,閃光燈攝影是生活的一部分,人們經常拍照,也習慣這種風格。對他們來說,這種風格非常熟悉、自然(feel right)。
這是文化的,也是地域性的。說實話,我們推出這個風格的時候,完全不了解這一點,這也讓我學到了很多。
鏡相工作室:你學到的是什麼?
dorogush:學到的是,不同的風格對不同的人來說有不同的含義,這很難預測。
在推出新風格時,我們會精心設計,確保它們能在專業場景中派上用場。有些風格適合用在網站上,有些更適合博客,我們挑選這些風格就是希望人們能在這些場景中使用它們。還有一些風格雖然不太常見,但很時尚,效果很驚艷,比如hard flash–它太不尋常了,有復古感,不是標準構圖,而是有不同的角度。
一開始,我們覺得有些風格,比如工作室或企業照片風格,肯定會很受歡迎。有些風格我們預計可能用的人不多,但可以用在特別場合,hard flash就是這樣。但對那些習慣用閃光燈拍照的人來說,這種風格特別對味,所以後來hard flash掀起了使用熱潮。這件事讓我明白,用戶喜好很難預測,但一旦某個風格找到了自己的受眾,(使用潮)就會發生。
● 用戶會使用hard flash風格生成超現實主義圖片,並稱之為“夢核”。(左右滑動查看)
鏡相工作室:recraft其他寫實攝影風格,比如organic calm和evening light,也都很獨特。你們是怎麼做到的?
dorogush:在創建風格時,我們會做很多實驗,讓這些風格要麼能解決某些任務,要麼看起來獨特,不死板、老套。我們還有一個特定的創造力指標,你可以在工具中看到,在生成圖像時,有一個創造力控制(creativity handle),能讓照片更標準,或不那麼標準。這是我們團隊設計師的選擇。
鏡相工作室:recraft還有一些很有創意的功能,比如讓圖片一鍵擁有萬聖節、聖誕節風格,用戶還可以直接讓recraft生成meme圖,團隊如何設計這些功能?
dorogush:這是整個團隊都在參與的創造性過程,如果有人提出足夠有趣的想法,我們就會去實現它。你看頁面的抓手(grabbing hand),會發現它有6根手指。recraft的工具中有一些幽默、意想不到的東西,這是文化的一部分。
鏡相工作室:是你們公司文化的一部分?
dorogush:是的,我們正在構建能讓人們生活、工作更有趣的東西,讓使用recraft成為一種愉快的體驗。
“所有用戶都是自然增長”
鏡相工作室:創業之前,你有很豐富的工作經歷,為什麼會想在2022年創業?
dorogush:我覺得自己是個產品人(product person)。我曾在谷歌、微軟和yandex工作過。在這些公司里,我從零開始構建了很多產品,都是我自己想出來的,開發並讓它們發展壯大,最終它們成長為一些成功的項目。外界所知道的例子是cat boost,它是一個開源庫,但我在這些公司內部還有其他產品。我喜歡做這些事,一直想建立屬於自己的東西,所以我決定創建一家公司。
一開始我並不知道具體要做什麼。好幾個月的時間,我一直在探索不同的選擇,和人交談,做實驗和原型。然後2022年夏天,圖像生成浪潮開始了,很明顯,你可以在設計領域做一些事情。
我有一個姐妹是平面設計師,幫我了解了這個領域;我們公司最早的成員之一也是設計師,現在他是我們的設計主管。我們經常和他交談,探索要做什麼,他也一直在figma上製作原型。這就是公司開始的故事。
鏡相工作室:包括midjourney在內的許多文生圖公司,目標受眾都是普通人,為什麼你要把目標群體定位為專業設計師?
dorogush:我認為在ai的影響下,設計世界正在發生變化。ai為設計專業人士提供了新的可能性,讓設計變得更容易上手,更多的人可以進入這個領域。它也讓專業用戶能夠做到以前做不到的事情。
目前在設計領域取得成功的公司並不多。因此,我們以及我們的每一個設計選擇、每一項正在開發的新技術,都在塑造著行業的未來。這種能夠參與定義行業發展的機會讓我很激動。
鏡相工作室:這樣的選擇有商業化的考慮嗎?或許專業設計師更願意為ai工具付費,而普通人想嘗試,但不會在ai工具上花太多錢。
dorogush:隨著chatgpt的出現,消費者為ai工具付費已經成為常態。不僅是專業人士,每個人都開始理解現在計算成本很高,所以支付一些訂閱費是正常的。
對於普通用戶來說,他們使用ai來做實驗和尋找靈感。大多數情況下,文生圖的功能就足夠了。但在專業設計領域,你腦子裡有想法,想要達到這個結果,僅僅靠文生圖是不夠的,你需要為用戶提供很多控制,讓他們能夠向模型解釋他們到底想要什麼。這是一個不同的任務,也是我們的技術與其他圖像生成公司的不同之處。我們不僅僅是構建文生圖,我們在構建新的方式來控制生成。
● recraft上有不同風格預設,以上圖片為同一提示詞“hello kitty is wearing headphones and reading a book on the sofa. the background is a warm room with a fireplace”,分別應用hard flash、retro snapshot、multicolor、grain 2.0、neon calm風格。(左右滑動查看)
鏡相工作室:recraft有超過200萬用戶,付費情況如何?
dorogush:我們從2024年9月開始實行基於點數(credit)的訂閱制,現在已經有一批訂閱用戶。我們有免費產品,每天有50次免費生成機會,對於想要看看ai能提供什麼的人來說,應該足夠了。但對於需要生成大量圖像的專業人士來說,這是不夠的,所以他們會付費訂閱。
鏡相工作室:除了喜歡hard flash的中國用戶,你們有沒有發現其他意想不到的事或者用戶群體?
dorogush:意想不到的是增長。通常情況下我們的用戶增長是波浪式的,因為我們所有增長都是自然的,要麼來自於人們與朋友或同事分享,要麼來自於社交媒體上分享。當某個有社交影響力的人發現了這個工具,開始發帖,那麼在這個特定的地理區域,我們就會有一大波新用戶。我們在不同國家都經歷過這樣的增長浪潮,你永遠不知道它什麼時候會發生。
剛開始我們確實想以一種可控的方式增長,這樣就知道明天的增長會和昨天一樣好。但我們還沒有做到,ai領域的大多數公司也都沒有做到,他們都是自然增長。
鏡相工作室:我很驚訝,很多中國ai公司在社交媒體上花了很多錢做廣告。
dorogush:如果效果好的話那很好。我跟其他ai創業公司和大公司都聊過,對很多公司來說,包括我們自己,帶來一個用戶的成本比這個用戶能為工具帶來的收益還要高–很多用戶只是在免費試用這個工具,使用廣告在數據上是說不通的,我們需要尋找其他的營銷渠道。
但自然增長比任何營銷都要好。我們最好的增長來自於發布最新模型–在圖像質量公開的基準測試中,recraft的模型是世界最好的。看起來,做到最好就是最好的營銷。當我們獲得第一名後,我們獲得了很多新用戶,並且僅僅因為這個原因,我們每天仍在獲得很多新用戶。
用8個月自研模型,每個人都睡眠不足
鏡相工作室:為什麼你們想要設計自己的模型?
dorogush:文生圖模型有兩種模式,通過api調用現有模型,或是訓練自己的模型。api調用只能實現基礎的文本到圖像轉換。這對靈感工具來說足夠了,但要做專業工具就不夠用–無法精確控制元素位置,也無法保持特定的風格一致性,讓模型用你的特定風格生成圖像。
我們一開始是在對開源模型進行微調,但後來發現即便付出最大努力,開源模型的質量還是達不到用戶預期,用戶留存率也很低。於是我們決定自己訓練模型,我們想讓模型通過額外的輸入來實現控制,讓用戶能夠精確控制位置、風格、顏色等元素。
在2024年1月,我們發布了第一個自研模型之後,一切都改變了。用戶留存率穩定了,他們開始持續使用這個工具。這讓我們明白,高質量的圖像生成能力對用戶有多重要。
鏡相工作室:你們的自研模型recraft v3在artificial analysis text to image model leaderboard上獲得了第一名,超過了midjourney、flux和stable diffusion。看到結果時,你和團隊的感受如何?
● artificial analysis text to image model leaderboard排名
dorogush:那真是太棒了,我和團隊到現在還為此感到非常高興。那是非常艱難的幾個月,我們計劃了發布時間,給自己設定了嚴格的ddl,機器學習團隊、後端以及前端團隊一起工作。但後來機器學習團隊無法按時完成,我們延遲了幾天。沒法在預定ddl前發布模型,讓人壓力非常大。到了發布時,每個人都超級疲憊,睡眠不足。所以在公開基準測試中獲得第一名,對團隊來說意義重大。
這個結果也改變了我們這次發布時的宣傳策略。這次發布本來包含幾個部分,一是從文字到圖像的基礎模型;二是 recraft 作為世界第一也是唯一一個長文本生成模型,它能在圖片中精準定位內容,可以按照你告訴模型的方式,將文本或其他圖像放在圖片的特定位置。(作者註:2024年12月的火山引擎大會上,即夢ai也實現了圖片中的文字生成。)
我們本來打算發布一個展示文本定位功能的視頻,但當模型在基準測試中獲勝後,整個世界開始關注recraft,我們想,好吧不發布這個視頻了,讓我們把重點放在新模型和它測試中的優勢上。
鏡相工作室:那獲得第一之後,你和團隊能好好休息了嗎?
dorogush:我們不只有一個模型,而是一整套模型,有很多預設風格和功能,除了文生圖,還有圖生圖功能(我們把它叫做微調)、改變圖像長寬比、局部修復、外部擴展,所以即使在主要模型發布之後,仍然有很多工作要做。但在主要模型發布兩周之後,團隊的大部分成員都休息了幾天。
鏡相工作室:公開信息顯示你們是一個很小的團隊。
dorogush:我們並沒有那么小,最開始只有5個人,但現在有超過20人,核心是工程和機器學習團隊,我們也有設計團隊。現在我們還組建了營銷團隊,負責社交媒體運營和博客文章。隨著產品發展和用戶規模的擴大,我們在功能開發和技術創新上的人才需求也在不斷增長。
鏡相工作室:recraft如何做到讓ai能夠生成帶有長文本的圖像?
dorogush:當你生成帶有文本的圖像時,只提供提示詞,和提供提示詞加上文本位置,模型看到的數據量是不同的。模型獲得的輸入數據越多,就越容易產生精確的輸出。因此,我們試圖給模型提供儘可能多的信息,即文本位置。對模型來說,遵循指令比僅僅理解提示詞要容易得多。
這中間包含了很多不同的模型和工作,比如幫助處理數據的模型,由非專業設計師的標註人員和專業設計師參與的標註工作,訓練ocr模型,新構建的數據集等等。
我們是第一家這樣做的公司。我相信其他模型提供商也會嘗試構建類似的東西,我們對此很開放。我們願意與所有人分享這些信息,所以其他公司可能也會使用相同的技術來生成文本。
作者註:recraft 團隊在《how to create sota image generation with text: recraft’s ml team insights》中解釋過他們的訓練原理,包括文字生成器和圖像生成器,他們通過繪製文本布局,來給模型提供更詳細的輸入條件,實現圖像中的文本生成。
● recraft生成帶有長文本圖像的流程圖解
鏡相工作室:你知道中國公司字節跳動最近也發布了長文本生成功能的文生圖模型嗎?他們也允許用戶生成帶有中英文文本的圖像。
dorogush:我不確定有多少公司能複製(replicate)我們。現在圖像生成領域非常擁擠,有很多公司在微調stable diffusion,通過api使用現有模型,用戶看到很多工具卻不知道該嘗試哪個。但實際上只有少數幾家公司,包括我們在內,真正在從頭訓練模型,能夠提供極高質量的圖像生成。
對recraft來說,主要挑戰是要突破這些噪音,讓人們開始嘗試它。
鏡相工作室:為什麼這麼少公司選擇創建自己的模型,是因為太難了還是成本太高?
dorogush:兩者都是。這確實非常困難,你需要有一個超強的團隊,組建這樣的團隊就很難,而且訓練自己的模型也很貴。你要麼已經是一家大公司,要麼需要從投資者那裡籌集資金,向投資者證明你有一個團隊,能夠利用這些錢提供世界最好的模型,這很有挑戰性。
鏡相工作室:我們注意到,recraft生成默認是外國面孔而不是亞洲面孔,而且生成的亞洲人有點不自然。這和數據集有關嗎?
dorogush:這是數據集的偏差。構建策略需要優化一些東西,否則模型就會默認傾向於它在數據集中看到的東西。比如如果你不微調模型來生成全身人像,它會默認生成半身像照片,因為數據集中有太多的人像照片,需要去平衡這一點。
現在我們有一系列質量指標,包括藝術質指標,解剖學正確指標(作者註:指能夠生成準確的人體結構,比如5根手指),低層次細節質量指標。我們正在建立多樣性的指標,這對圖像生成來說是一個非常重要的部分。但對於每個指標,你都需要標註它,讓它正確運行。我們正在一步一步地建立它,2025年這些問題將會得到解決。
在找投資上,“我們覺得很安全”
鏡相工作室:有人說recraft是photoshop的ai版本。你怎麼看這個說法?
dorogush:是,也不是。我們確實在為專業設計師構建工具,設計師會同時使用photoshop和illustrator,前者用於柵格圖像,後者用於矢量圖像,我們同時支持柵格和矢量圖像。實際上對於柵格還是矢量,局部修復、微調、擦除器等操作是一樣的。
不同在於,recraft以ai為中心。這是一種新的工作方式,ai將開始成為設計師的首選工具。我不認為adobe會消失,但越來越多的新用戶將能夠在沒有這些工具的情況下工作。
所以我們不是在和photoshop競爭,而是為設計師提供額外的工具選擇,讓設計師更有效地解決任務,獲得更多靈感和可能性。未來我們希望成為設計師的主力工具,讓他們不必頻繁切換軟體。
鏡相工作室:recraft是第一家生成矢量格式圖像的文生圖模型,midjourney等模型都不能做到這一點,recraft是如何做到的,這很難嗎?
dorogush:這的確是個難題,但我相信如果midjourney投入大量資源和人才來解決這個任務,他們可能會做到。
矢量格式主要對設計師重要,而普通用戶不太需要,因為矢量是一種有限制的格式,雖然可以無限縮放,但無法呈現複雜漸變和照片級的真實感。所以這其實是產品定位的問題–midjourney的大多數用戶不需要矢量功能,但我們的用戶是設計師,他們需要。如果投入大量的工作,有意地專注於這個問題,其他公司也可以做到,但對他們來說可能偏離策略。
鏡相工作室:現在有很多設計師擔心自己會被ai取代,你接觸到的設計師用戶是如何看待ai工具的?
dorogush:有一種想法認為ai取代設計師,參與設計過程的人數可能會減少,但實際情況並非如此。ai存在了兩年,設計領域並沒有以任何方式萎縮,人數還在增長。有一個全新的職業叫做ai設計師,在 fiverr上(一個自由職業者在線服務市場平台),ai設計師數量已經達到傳統圖形設計師的五分之一。
說回用戶,我們的用戶對這項新技術非常滿意。他們認為自己是第一批創新者,與技術和行業一起發展,為創新感到自豪。他們還認為ai非常富有啟發性,因為在文生圖時,ai會提供一些意想不到的結果。他們的效率也因此提升,我經常聽到這樣的故事,比如一位演示文稿設計師分享,現在一天就能完成以前需要一周的工作,他們能夠用ai產出更多、更高質量的結果,獲得更多的報酬。
● 使用的風格為hard flash,提示詞為“in the snow, a group of friends are having a snowball fight.”
鏡相工作室:版權一直是ai圖像生成的一個重要問題,包括數據集版權以及生成圖像的版權。去年在中國還發生過一起訴訟,4名設計師將一家圖像生成公司告上了法庭。你們遇到過這個問題嗎?你對版權怎麼看?
dorogush:這個行業的法律目前還沒有完全準備好應對ai,它的發展方向取決於公司如何處理它。
比如,如何為ai生成的東西申請版權。一般邏輯是,申請版權,需要證明你在構建一個角色或你想要申請版權的東西上投入了大量努力,比如處理圖像的歷史記錄能夠證明,但對於ai生成圖像,目前還沒有這樣的規定。
另一個問題是 ai 與插畫師社區的關係。ai行業沒有很好地處理這個問題,讓他們產生了很多恐懼和憤怒。問題在於公司沒有與插畫師社區合作,為他們提供價值。提供價值有不同的方式。一種方式是幫助他們實驗自己的風格,另一個方向是補償藝術家,我們也在這兩個方向努力。我希望在未來一年或幾年內,行業在這方面會有所改變,藝術界的所有參與者,或者說整個藝術界都能從ai中獲得足夠的價值,他們也會對這一切的發展感到滿意。
鏡相工作室:下一步,recraft打算做什麼?
dorogush:我們正在構建兩個部分。一個是技術,也就是帶有控制的模型。它包含圖像生成,也包括各種用ai進行的圖像編輯和設計編輯。
現在,行業和模型、技術都還沒有達到那個水平,設計師要獲得需要的結果還很難。人們可能覺得它就是寫一個提示詞,ai就能產出你想要的圖像。但事實並非如此。它需要大量的疊代,在很多情況下,這甚至是不可能的。所以我們明年的目標是解決這個問題。目標是構建能夠為用戶提供足夠控制的模型,讓他們能夠獲得他們需要的結果。
第二個部分是工作流程。現在,作為一個設計師,你在使用recraft,你也在使用其他一堆工具,你要為所有工具付費,而且要在它們之間切換。我們真的想消除這種情況。我們希望我們的用戶能夠在recraft中完全解決他們的任務,而不需要來回切換。
鏡相工作室:現在有更多投資者想投資recraft嗎?
dorogush:我們在投資者方面一直很幸運,而且我們從一開始就證明了自己的實力。
投資者關注幾個方面。一個是增長,公司在用戶和付費用戶數量方面是否在增長,我們確實在增長。另一個是變現,我們最近開始變現,也有願意付費的用戶。
第三是創新和創新的速度。我們建立了其他公司沒有的技術,是在圖像生成領域和設計領域創新最快的公司之一。我們團隊中有極其有才華的人–有編程世界的冠軍、決賽選手,有國際機器學習競賽的冠軍,這對公司來說也很重要,它能幫助我們能夠以如此快的速度做到我們正在做的事情。我們基本上滿足了所有條件。
在公司的創建歷史中,來自世界頂級風投公司的興趣一直很多。一開始就是這樣,現在也是。所以我們在尋找投資方面感到安全,如果我們決定需要籌集資金,我相信我們應該能夠做到。
原文網址:https://zh.gushiio.com/ai/155.html