985碩士進廠做數據標註,自嘲像個“包工頭”
文丨鏡相工作室,作者|黃依婷,編輯丨盧枕
2020年11月,黃土高原以南、關中平原以北,宜君縣進入深秋,大地的黃色與枯木的灰色交疊,阿娟開始了她的新工作。
這份枯燥的工作有著一個聽起來很響亮的名稱——“人工智慧訓練師”,是2020年2月才被正式納入國家職業分類目錄的新職業。但談起數據標註這份工作,在之前的兩三年間,通常和“低門檻”“欠發達地區”“勞動密集型”等名詞綁定在一起,從業者們對自動駕駛、人工智慧幾乎沒有了解,只是機械地點擊滑鼠,完成任務。
2023年後,以chatgpt為代表的生成式ai爆火,人工智慧發展進入新階段,數據標註的職業也有了一些新變化。
這一年,“985碩士”劉到閒轉行去做數據標註,網際網路大廠正編,月薪1.5萬元以上。不像縣城的標註員坐在工位上一整天,劉到閒九點半上班後,要對接產品、算法團隊的數據訓練需求,解答數據標註團隊提出的疑問,大部分時間花在大大小小的溝通與討論上。
本質上,劉到閒和阿娟的工作沒有不同,她們都是ai的人類老師。隨著行業變化,越來越多像劉到閒一樣的高學歷年輕人選擇成為ai訓練師,但阿娟們的擔憂是,數據標註工作的要求越來越高,她們會不會失去自己的工作。
ai的“985老師”
劉到閒的工作目標,是把ai教成一個專家。
這就像培養一個小孩。一開始,是阿娟們教給ai最基礎的知識,什麼是鳥,什麼是花,什麼是車,讓ai能理解最常用的話語。到了通用大模型,則像是ai去大學裡接受通識教育,掌握人類世界那些通行的、全面的知識。但如果想讓ai完成人類的工作,就需要教給它更專業的知識和技能。
培養一位專家並不容易。一方面,劉到閒需要對接“用人單位”,在公司里則是產品團隊,知道他們想要什麼樣的人才,達到什麼樣的要求,劉到閒再根據對方的需求去制定培養計劃,選取合適的教材,還要編寫考核的試卷,並對ai的答卷打分。
教ai學習的過程是漫長的,工作量龐大,也不能只靠劉到閒一人,她還需要把制定標註的規則,把專業的知識“翻譯”成大白話,讓沒有理論知識的一線標註員也能輕鬆理解。某種程度上,標註規則的可操作性,是考察一位專家型ai訓練師的核心標準。
劉到閒曾接到過一項提升模型意圖識別能力的需求。理想狀態下,經過數據標註團隊的調整,在和用戶對話的過程中,ai大模型能夠準確判斷用戶的輸入意圖,究竟是想要得到某個領域的信息,還是在尋求情感支持。
這樣的意圖判斷過程接近於人和人之間的交流,有很強的主觀性,如果直接交給一線標註員,可能理解各異,如果導致模型訓練偏差,糾錯成本非常高。而一份高可操作性的標註規則能極大程度地減少誤差,提高數據質量。
為了滿足需求,劉到閒首先要釐清用戶意圖的類別,並儘可能詳盡地列舉出來,然後給每個類別賦予清晰的定義,明確不同分類之間的邊界在哪裡。比如,用戶說“我很傷心”,她在標註規則中寫上,這是在尋求情感支持;用戶描述了一件生活中發生的開心事,她會將這定義為分享個人生活。
理解自然語言交互中字與字之間的微妙差異,是劉到閒擅長的事。今年28歲的她是985高校畢業的語言學碩士,曾在科技媒體工作過一年,因為對媒體工作24小時待命的厭倦,她開始尋找讓創作與科技結合的另一種可能性,比如“餵養ai”。
這是個可遇不可求的轉行機會。chatgpt的走紅帶來了生成式ai和預訓練模型的爆發,模型“堆量”訓練後湧現出的智能讓業內外驚嘆。她看到了模型訓練“走俏”之下,數據標註的重要性。她想踏上這波風口,離前沿技術更近一點。
和劉到閒一樣做數據標註的同事基本都是碩士研究生學歷,在公司內部被劃分為運營崗。她的一部分同事是衝著agi(通用人工智慧)理想來的,另一部分是衝著大廠正編和高收入來的。在人工智慧風口面前,數據標註崗位,成了為數不多非技術背景員工的職業跳板。
雖然薪水沒有預想中高,和公司里的其他運營崗同事相比,劉到閒的薪水甚至更低一些。但相比阿娟那樣基礎的數據標註工作,從事多模態對齊、知識圖譜構建等高端標註的薪資可達2-3倍,月薪兩三萬也很正常,有些公司還開放了從數據標註到產品、算法等崗位的晉升路徑。
相應的,專家型數據標註師的要求也越來越高。據劉到閒觀察,目前大廠招聘ai數據專家的學歷要求大多為碩士研究生,且需要在相關專業領域有所積累,比如醫療、法律、財經等。
連最基礎的一線數據標註員的門檻都在提升,大模型公司下游的數據標註崗也會對應聘者是否畢業於211高校有偏好。據《科創板日報》2023年8月報導,百度智能雲海口標註基地的數百名數據標註師,100%是本科學歷。
一份由百度數據標註外包公司提供的“文心一言2024筆試題”顯示,在判斷ai的回答是否準確時,應聘者需要考慮該回答是否符合客觀事實,邏輯是否通順,並給出相應的判斷理由;應聘者還要修改一篇800字以上的議論文——這已經類似高中語文老師的工作。
畢竟,ai已經不再是那個牙牙學語的孩童,它們需要學歷更高、能力更強的老師,才能繼續成長。
從拉框到打分
阿娟親歷了數據標註行業的變化。
作為鏈條最末端的一線數據標註員,在阿娟的想像中,她應當也是像劉到閒那樣工作的。她畢業於一所民辦普通高校,是誤打誤撞入的行。
2020年,在朋友的居間下,阿娟第一次聽說了“數據標註員”的工作,很陌生,但感覺挺高大上的,“我覺得可能是像以前大家想像中的大廠(員工)鍵盤敲得噼里啪啦響的那種,具有含金量”。
那時的招聘要求也簡單,只要會用一些辦公軟體就行。抱著試試的心態,阿娟報了名,通過培訓考試後於當年11月上崗工作。和她一起入職的基本都是宜君本地人,有孩子母親,也有中專剛畢業的年輕人。
最開始的標註任務主要是圖像類,涉及外賣、保險、醫療等各種領域。阿娟印象比較深刻的是一個寵物鼻紋項目。
很多寵物主人會給自己的寵物買保險,鼻紋是保險公司區分相同品種、長相相似的寵物的關鍵。她和同事需要做的工作是,給寵物照片中的鼻子部分畫框,幫助ai進一步識別鼻紋。這個項目讓阿娟感受到了工作的價值感。她認為這是在幫助寵物主人給寵物順利投保、向保險公司理賠,儘管她所在的小縣城幾乎沒有人會給寵物上保險。
圖像數據標註做得熟練了,阿娟又陸續接觸了很多文本類的項目。項目類型換得很快,業務需求也很龐雜,有時前一周還在做合同文件標註,下周又換成了醫學論文數據提取。經理給什麼項目,阿娟和同事們就照著標註規範去完成,遇到疑問就提出、討論、解決,絕大多數項目都沒有給她留下印象,她也很少好奇這些標註完的數據會用到哪裡。
工作近兩年後,阿娟的同事越來越多,原本的小辦公室容納不下,兩百多個人搬進了敞亮的寫字樓。她明顯感覺任務難度在上升,公司招聘的學歷要求已經提高到了大專以上。她們開始做形式更豐富、標註規則更複雜的項目。
在一個視頻侵權類項目的標註里,阿娟需要判斷給定的關鍵詞和視頻內容的關聯度。關聯度一般會按照百分比分為四檔,100%是完全關聯,0是完全無關。她和組員需要基於對關鍵詞和視頻內容的理解,按照標註規範一一對應標註,這能解決80%以上的任務,剩下的20%可能會存在異議,需要和業務方開會討論。
項目越來越複雜,同事的工作能力越來越高,行業飛速變化,但阿娟和同事們並不清楚這些變化是如何發生的。對處於行業末端的她們來說,和ai大模型有關的一切都在混沌間發生。
傳統的標註依賴規則,生成式大模型標註則需要邏輯,比如標註推理步驟(因為a所以b,但受c限制),或需要理解,比如多模態對齊(文本和視頻內容關聯),這類任務要求標註員具備抽象思維能力和跨學科知識儲備,普通勞動力無法勝任。
有無數的普通標註員正在陸續被行業淘汰。
模型卷不動,開始卷數據
阿娟工作內容的變化,和劉到閒有機會轉行做數據專家,都是同一件事的結果——大模型公司想活下去,必須去卷高質量數據。
2023年,大模型公司招算法專家,投入算力資源去訓練模型,比誰的模型參數大,誰疊代的速度快,誰在各類榜單上能名列前茅。但比來比去,大家拉不開差距,各家的模型都無法在生產力領域足夠勝任,砸在訓練上成本短時間收不回來。
到了2024年,大模型公司開始面臨生死考驗:從哪賺錢?怎麼活下去?怎麼實現大模型在垂直場景的商業化落地?甚至有頭部大模型公司放棄預訓練,全面轉向應用開發,把資源投入到能賺錢的事情上。
一個共識是,要想在專業領域落地,高質量的垂類數據是競爭的核心。比如醫療場景中的影像識別,需要臨床醫生進行標註,法律場景中的合同條款,需要律師標註條款中的邏輯關聯和司法解釋。要想一個專業模型好用,必須有足夠的精準的初始數據,這些數據難以從公開渠道獲取,標註成本也十分高昂,但卻是不得不做的投入。
一個高學歷的專家型數據標註員的人力成本,遠低於模型出錯要付出的代價:自動駕駛標註中一個漏標的行人可能導致百萬公里路測失敗,間接消耗的測試成本可能高達數千萬,而法律合同的標註錯誤可能讓企業面臨訴訟。專業型的數據專家也能顯著提升標註效率,比如醫學博士對ct影像的識別率是普通標註員的好幾倍,還能幫助優化數據採集策略。
這時像劉到閒一樣,有垂直領域專業知識的ai訓練師就成了香餑餑。& ldquo;垂直領域(模型數據)我們不太冒險去找普通的人標註,肯定要找專業的。比如說標語音(模型),我們就會偏向於去找學語言學的人,因為他們才能判斷答案的好壞。& rdquo;小琴說。
小琴在一家創立十多年的上市公司就職,該公司有多款成熟的ai產品,圍繞作為核心業務的語音模型搭建了自有的數據標註團隊。2023年後,標註任務從客觀選擇題變為了閱讀理解題,前期標註規範的制定、人機對齊工程更複雜。為了保證標註的一致性,她們可能會花半個月的時間研究標註規範,要求產品、算法、標註、評測團隊共同參與。
這一年,她所在的公司計劃研發音樂模型,面臨的第一個問題就是數據如何標註。他們發現在給模型投餵足夠多的數據後,模型能夠擁有“湧現”能力,在一定程度上“創造”音樂,但計算機專業出身的團隊成員無法判斷模型生成的音樂質量如何,也很難找到優化方向。
隔行如隔山,從語音模型到音樂模型,他們在音樂相關數據的標註上沒有經驗。於是,團隊計劃找一位在音樂學院就讀的學生做顧問。小琴認為,只有音樂專業的人才能分辨出模型生成的音樂到底合不合理,才會知道調整哪個韻律、哪種樂器可以輔助模型生成更好的結果。
更早之前,她所在公司還投入大筆資金,邀請了很多專業的錄音師到錄音室錄製一手的聲音數據。
小琴坦言,不管是現在還是未來,真實的數據一直都是無價之寶,只有把真實場景中產生的數據累積起來,才有可能做出更好的模型,專家型ai訓練師則是獲取真實數據的“捷徑”。
據新智元報導,openai為了提升模型處理客戶問題的能力,向醫學、法律、語言學、計算機科學、物理學等領域的專家提問,至少300人,每人每小時支付100美金報酬,每個問題平均耗時約兩小時。scale ai、turing和invisible等公司,也招募經驗豐富的程式設計師或博士,協助openai、google、anthropic和xai等公司,在ai開發的後訓練階段提高模型質量。
但這條“捷徑”並不好走。為了確保工作質量,大型ai公司越來越多地把高質量數據標註的工作放到了內部,或者直接僱傭專家,而不是以往的外包。數據就是壁壘,也是另一個燒錢遊戲。
教會ai之後,他們要去哪?
過去兩三年,在像泡沫一樣迅速膨脹的ai招聘市場裡,“985碩士”做數據標註不過是其中的一個縮影。
emily是一位從業多年的科技行業獵頭顧問,近兩三年為不少ai公司招聘海外人才。在招聘側,ai公司給她留下了一個非常深刻的印象——這些公司非常有活力、非常激進,招人一定要非常年輕。
曾有企業客戶告訴emily,作為一家年輕的ai數字人公司,員工一定要98後,95後可能太“老”了。這些企業還要求應聘者有足夠優秀的學習背景,“國內‘清北復交’,國外只看‘藤校’,211都覺得丟臉”。
生成式ai浪潮下,招聘市場最火爆時,一家ai初創公司的hr每天會收到100多封簡歷,根本來不及看。陸陸續續地,會有候選人跟emily說:“我覺得這個有點泡沫,我覺得我們公司好像有點不穩,下半年你幫我看看機會。& rdquo;
劉到閒也感受到了這種“不穩”。2024年以來,或許是模型已走過“堆量”訓練的階段,她看到自己支持的模型團隊對數據標註的需求正在減少。事實上,當標註精度越來越高,邊際收益開始遞減,長尾的數據成本極高,許多公司也難以負擔。
她開始反思,轉行後的兩年多時間,究竟都經歷了些什麼。
985碩士、大廠正編、ai風口之上,這些都無法掩飾工種處於產業鏈下游的事實。相比於產品、算法團隊,劉到閒所扮演的角色幾乎沒有話語權,她甚至自嘲像個“包工頭”。工作的“中台”性質,要求她日復一日地和各方溝通、協調,“你是去承接需求的,你要去聽算法的決定,聽產研他們想要什麼東西,然後去交付給他們。沒有那麼強的主動性,工作內容也不是特別有創造性”。她從工作中獲得的價值感越來越弱。
有次產研團隊讓劉到閒制定規則來提高模型某方面的能力,但她研究後發現,需要標註的數據質量不夠高,難以通過規則來界定自然語言間的模糊地帶。她根據自己的專業判斷反饋給了產研團隊,但對方只認為是劉到閒專業能力不夠,扣下來一個影響模型效果的“帽子”。
這種“背鍋”的經歷很多,讓她感到極度疲倦;和同行交流時,她也感受到了“怨氣”。& ldquo;合作的產研團隊,可能因為你是一個比較下游的角色,就會表現得高高在上,工作體驗不太好。& rdquo;劉到閒說。
“教會ai之後,數據標註員們怎麼辦?& rdquo;這是擺在每一個數據標註行業的從業者面前的難題,不論學歷,不論專業。現在,隨著ai越來越聰明,已經可以自己生成數據、自己訓練,越來越不需要人類的監督,ai的人類老師們也終將沒有東西可教。
劉到閒已經開始看其他的工作機會了。她可以回到媒體行業,繼續做科技報導,但薪水的差距讓她猶豫不決。像多數ai訓練師一樣,轉崗做ai產品經理或者運營也可以,不過反覆溝通、拉扯消耗的能量,需要花些時間來恢復。
阿娟還沒有去想這個問題。工作八個月後,她就升了小組長,至今已有18位組員。她需要為組員們的標註準確率和效率負責,多了些向上溝通的工作,薪津也漲到了四千多元一個月。在小縣城生活,做個“月光族”,這些錢已經讓她感到很幸福。
阿娟的親友都不知道她在做什麼,因為她從不在下班時間聊工作。這也是這份職業帶給她的快樂——她從前在培訓機構當英語老師,時常需要周末給學生們補課,很難有完整的休息時間。做了數據標註工作後,她到點下班,將生活和工作完全分離。
阿娟計劃多攢攢工作年限,這兩年再升個項目經理。
(應受訪者要求,文中阿娟、劉到閒、小琴、emily皆為化名。)
原文網址:https://zh.gushiio.com/ai/1252.html