AI數據供應鏈的中國拼圖:解碼藝恩數據的產業坐標
沿著大模型的“原材料”脈絡向上追溯,我們能在AI數據供應鏈的版圖中,發現一家名為藝恩的公司。
2026年3月的一個周四凌晨,北京中關村某大模型廠商的會議室里,氣氛凝重。幾位數據負責人圍坐在桌前,展開一場艱難的討論。桌上攤開的Excel表格,左邊一欄是“預訓練語料清單”,右邊是“來源備注”。此次會議的核心任務簡單卻棘手——剔除“來源不清”的語料,并尋找合適的替代品。這已是該公司半年內第四次開展此類工作。一位參會者事后感慨:“這就像給一艘已經下水的船換龍骨,也可以說是版權清洗。”
這并非個例。從舊金山的Market Street到北京的望京,從倫敦高等法院到慕尼黑地方法院,全球AI廠商都在為同一件事憂心:訓練模型的數據是否干凈、來源是否清晰、供應能否持續。也是在這一年,一條長期隱于幕后的產業鏈——AI數據供應鏈,被資本市場和產業記者推到了聚光燈下。Scale AI被Meta以143億美元高價收購;Surge AI傳出250億美元的驚人估值;Mercor在一年內估值從20億飆升至100億美元;而在中國,海天瑞聲2025年上半年營收同比增長約七成,新三板上的藝恩數據也交出了一份亮眼成績單:2025年營收3735.54萬元,同比增長49.86%,數據產品業務收入同比增長127.68%,無形資產(數據資源)同比增長103.34%,海外業務更是首次實現千萬級訂單突破。
一位長期跟蹤AI基礎設施的PE合伙人直言:“大模型的競爭,最終是數據的競爭;而數據的競爭,關鍵在于供應鏈的競爭。”
本文將沿著大模型的“原材料”脈絡,深入拆解這條供應鏈的五層結構,繪制全球與中國的對標圖譜,并探尋藝恩公司在這張拼圖中的具體坐標。
一、AI數據供應鏈的五層結構:從“原礦”到“菜肴”
若將大模型比作一家餐廳,算力是火,模型架構是菜譜,調參是火候,那么數據便是食材。而食材從田間到餐桌,需歷經五道關卡。
第一層是“采集層”,如同食材的“田間”。這里匯聚了原始數據的持有者,包括視頻與圖文平臺(如抖音、B站、YouTube、X)、版權方(出版社、影視公司、音樂公司)、公開數據抓取方以及合規的數據經紀商。這一層的核心問題是“誰擁有原始權利”。Anthropic曾從LibGen這類影子圖書館下載數百萬冊圖書,2025年8月,該案以15億美元現金和解,平均每部作品約3000美元,這一數字在2026年重新定義了“原礦”的采購底價。
第二層是“清洗層”,對應“洗菜切菜”。數據標注工廠、結構化工具、去重與去毒管線集中于此。海外有Scale AI、Surge AI、Mercor、Labelbox、Snorkel AI、Turing、Invisible Tech等標志性企業;國內則有海天瑞聲、云測數據、百度智能云數據眾包、字節火山引擎數據服務、數據堂、星塵數據等。2025年,Surge AI年化營收達14億美元;Mercor單日支付給3萬名合約工的費用超過150萬美元;Snorkel提出的“Expert Data-as-a-Service”概念,將標注從“按件計酬”推向“按專家小時計酬”。
第三層是“產品層”,如同“成菜”。這里的玩家不再局限于出售勞動力,而是將數據打包成“數據集/智庫/訂閱產品”對外交付。產品形式多樣,既有通用語料包,也有垂直數據集,涵蓋影視綜、醫療、法律、金融、電商、代言人、社媒情緒、投流素材等領域。藝恩數據的enbase數據智庫、藝恩營銷智庫便處于這一層。
第四層是“渠道層”,對應“配送”。數據交易所(上海、北京、深圳、貴陽數據交易所)、API分發平臺、IP授權平臺以及面向海外客戶的合規出口通道構成了這一層的基礎設施。隨著數據資產入表自2024年1月正式執行,這一層發生了會計層面的重大變革——數據首次成為可被“記錄”的資產。
第五層是“應用層”,如同“廚師”。大模型廠商、互聯網巨頭AI業務線、出海平臺、垂直Agent創業公司是這一層的買家。他們使用數據,也為數據“投票”。誰的數據能讓模型的某項指標提升,能讓一個Agent的轉化率增加幾個百分點,誰就能贏得下一個訂單。
這條供應鏈最反直覺之處在于:價值并非集中在最上游。原始數據擁有者未必盈利(平臺方面臨反爬困擾,版權方常陷入訴訟糾紛),清洗工廠利潤率也不高(依賴大量人力),真正獲得高毛利、高議價權和高估值的,是第三層產品層與第四層渠道層的復合卡位者。他們將原料加工成“標準菜”,以訂閱或授權的方式出售。Surge AI毛利率超過50%且已盈利,Scale AI在Meta入股前營收達8.7億美元并持續增長,藝恩數據2025年毛利率達48.79%,這三個數字揭示了同一產業規律。
二、五個痛點:供應鏈上的五道暗流
在產業鏈的每一層,都隱藏著一個難以回避的問題。
采集層面臨“數據孤島+版權不清”的困境。一位頭部大模型廠商的數據負責人透露:“近兩年的數據采購清單中,真正能拿出授權合同的僅約七成。剩下三成,我們既不敢放心使用,又不敢完全舍棄。”Bartz v. Anthropic案以15億美元和解后,這三成數據從“便宜”變為“昂貴”,因為一旦被起訴,單部作品的賠償中位線就是3000美元。
清洗層存在“質量波動+多模態對齊困難”的問題。RLHF數據對標注員的學歷、專業和語言能力要求日益嚴苛,Mercor上掛單的醫生、律師、PhD時薪從100美元起跳;視頻 - 文本對齊、物理一致性、音視頻同步等多模態任務,使舊式的“一圖一標簽”標注流水線徹底過時。
產品層面臨“垂直深度不足+通用與垂類失衡”的挑戰。過去兩年,通用語料供給過剩,垂類語料供給稀缺,形成一種奇特現象:大模型規模不斷擴大,但垂直場景的表現卻常常不升反降。Epoch AI預測,高質量公開通用文本可能在2027年前耗盡,而垂類高質量數據還遠未得到充分開發。
渠道層存在“交易機制不成熟+跨境合規”的問題。國內四家數據交易所成立多年,但實際成交量仍低于預期;數據資產入表雖寫入會計準則,但定價、審計、交易撮合、國際互認等問題仍有待解決。跨境方面,2025 - 2026年,中國數據出海和海外數據入華面臨新的監管迷宮。
應用層則面臨“采購缺乏基準+效果難量化+復購依賴信任”的難題。一位互聯網巨頭的AI業務線PM無奈表示:“我們購買數據最痛苦的不是價格高,而是不知道買得是否正確。”模型訓練具有典型的“滯后反饋”特點,今天購買的數據要到下一個版本才能知道是否有效,而下一個版本又存在諸多無法控制的變量。
五層結構,五個痛點,供應鏈上的每一層都在尋求秩序。這也是為何這個過去被視為“苦活累活”的領域,在2025 - 2026年突然爆發出產業級別的估值張力。
三、藝恩在這張圖上的坐標:三層復合卡位者
將藝恩數據置于產業鏈圖中,其位置十分清晰:它是橫跨產品層、渠道層與部分應用層的復合卡位者。
藝恩數據并非海天瑞聲那樣的“通用語料工廠”,不依賴人海戰術進行標注交付;也不像貓眼、燈塔等依托票務流水的“平臺派”,沒有天然的一方數據閉環;更不是一家純粹的咨詢公司。它更接近海外Snorkel AI所描述的“Expert Data-as-a-Service”模式——將行業專家積累和多年沉淀的結構化數據資產,打包成訂閱化、標準化的產品對外銷售。
藝恩的資產基本盤可概括為:視頻 + 圖像 + 文本三大模態,覆蓋影視綜 + 社媒 + 電商 + 版權四大行業領域。產品方面,enbase數據智庫面向專業使用者,藝恩營銷智庫面向品牌與代理商。這套產品矩陣在AI數據供應鏈中的獨特之處在于,它沒有在“通用語料的紅海”中拼量,而是在“垂類高質量結構化數據的藍海”中搶占先機。
2025年的財務表現,從市場角度驗證了這一坐標。營收3735.54萬元,同比增長49.86%,毛利率48.79%,凈利潤363.55萬元。這些數字在整個AI數據賽道中或許不算突出,但其中幾個結構性信號值得關注:
其一,數據產品業務收入同比增長127.68%,且毛利率同比上升16.83個百分點。這表明藝恩從“賣咨詢 + 項目”向“賣產品 + 訂閱”的轉型,在數量和質量上均取得進展。對比海外同行,Surge AI的增長曲線也是產品化曲線,Snorkel AI D輪估值13億美元,同樣得益于“數據即產品”的訂閱敘事。
其二,無形資產(數據資源)同比增長103.34%。這是數據資產入表落地后的賬本調整,也是一種“資產化”信號。當一家數據公司開始在資產負債表上將數據列為無形資產,意味著它正以資產而非服務的方式定義自身產業價值。
其三,海外業務首次實現千萬級訂單突破。Scale AI因Meta入股失去Google、OpenAI、xAI等關鍵客戶后,留下的市場真空正被Surge AI、Mercor和中國的AI數據公司填補。這并非藝恩一家公司的機遇,海天瑞聲2025年上半年在中國香港、新加坡、美國設立子公司,并購菲律賓交付基地,中國AI數據出海正開啟一條全新賽道。
從可替代性角度看,藝恩的通用咨詢能力和項目化定制能力可被替代,但在中國影視綜、代言人、劇綜軟廣、社媒聲量等細分垂類領域,其長達十余年的結構化資產積累,形成了一條難以在短時間內復制的護城河。當然,藝恩也面臨一些風險,如體量較小、客戶集中度較高、產品化比例仍在提升階段,但這些都是處于“拐點之上”的公司的真實寫照。
四、海外對標:給中國AI數據公司一面估值鏡子
將藝恩置于全球坐標系中,一些有趣的現象浮現。

兩個重要觀察值得強調:其一,高估值屬于“產品化 + 專家化 + 資產化”的復合型玩家,而非單純的人力密集型標注廠;其二,Scale AI的中立性危機,為中國AI數據公司打開了一個原本不存在的海外窗口。
2026年初,Anthropic以1830億美元估值完成約130億美元新融資,AWS累計加注至250億美元;OpenAI以8400億美元估值完成1100億美元融資。下游資金端的充裕,直接提升了上游數據端的采購能力。Surge AI年化營收沖至14億美元、Mercor ARR突破4.5億美元、Snorkel引入Expert DaaS產品線,背后都是這股資金浪潮的推動。中國AI數據公司也不會置身事外。
五、三個結構性機會和一個必須克制的判斷
站在2026年第二季度的觀察點,中國AI數據供應鏈存在三個結構性機會。
第一個機會是數據資產入表帶來的“資產化紅利”。財政部《企業數據資源相關會計處理暫行規定》自2024年1月起實施,數據首次作為無形資產或存貨進入資產負債表。藝恩無形資產(數據資源)同比增長103.34%,這不僅是一個會計動作,更是估值邏輯的切換——從“賣服務賺收入”轉向“攢資產賺資產溢價”。當數據資產可被審計、評估和質押,這條產業鏈的金融屬性將被重新發掘。
第二個機會是中國AI出海帶來的“合規數據出境通道”機遇。2025 - 2026年,中國短劇出海內購規模以“一年翻三倍”的速度增長;中國開源大模型在海外調用量一度超過美國;跨境電商AI應用、出海品牌的本地化營銷Agent需求呈井噴之勢。他們需要的不是一次性大單,而是一個可持續、合規、本地化的數據供應伙伴。藝恩海外業務首次千萬級突破,只是這條通道剛剛打通的信號。
第三個機會是多模態爆發帶來的“垂類高質量數據集”稀缺性。Sora 2、Veo 3、Kling 2.0等視頻生成模型的競賽,使視頻 - 文本對齊數據、幀級caption、劇情結構標注成為真正的“戰略物資”。Epoch AI的“數據墻”預言表明,通用文本將很快耗盡,未來十年的競爭將聚焦于垂類高質量數據集領域,“影視綜、代言人、社媒情緒、品牌合作、劇綜軟廣”恰好是藝恩長期積累的四大領域。
然而,必須清醒地認識到,機會并不等同于勝利。藝恩體量仍小,產品化比例仍在爬坡,數據產品業務的127.68%增速需要在更高基數上再次證明;海外千萬級突破只是起點而非終點;無形資產入表的會計動作,也需要相應的審計、評估、估值方法論跟進。產業鏈不會獎勵“站在風口上的人”,只會青睞“在風來之前就把房子蓋好的人”。
結語:被低估的供應鏈卡位者,還是被新秩序重塑的老玩家
回到文章開頭的會議室。凌晨兩點,數據負責人刪除了那三成“來源不清”的數據,開始討論替代方案。有人說需要真正“干凈”的數據,有人說需要更垂直、更具中國語境的數據,還有人表示需要一個能陪伴公司發展到下一個版本的“數據伙伴”。
這些聲音共同勾勒出2026年中國AI數據供應鏈的需求曲線,指向一批過去被低估的玩家——他們既非巨頭,也非網紅創業公司,而是在某一垂直領域默默積累十幾年結構化數據的“供應鏈卡位者”。藝恩數據便是其中之一。其坐標獨特:橫跨產品層、渠道層、應用層,覆蓋三模態四領域,資產化、產品化、出海化三條曲線同時上揚。
它會成為那個“被低估的供應鏈卡位者”,還是“被產業鏈新秩序重塑的老玩家”?這是2026年留給資本市場的一道開放題。答案不會出現在一份年報中,而將在未來三到五年的每一次訂單、每一次復購、每一次資產評估中逐漸揭曉。
但有一點是確定的:大模型的故事已進入第三季,而真正決定勝負的“原材料”問題,才剛剛翻開第一頁。
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
2026十大科技趨勢
2026 十大科技趨勢,定義新一年的每一次突破。祝大家馬年大吉,馬到成功!初八啟新程,萬事皆順遂!
[詳細]
華為ICT大賽十年:讓每一顆ICT“種子”都能長成參天大樹
當前全球圍繞AI、云計算、5G、大數據等科技的競爭不斷加劇,而科技競爭的根本是人才的競爭,因此中國一直提倡產學研用緊密結合,通過學科知識競賽、企業出題高校揭榜等方式培養ICT創新型、實..[詳細]
預算縮減與 AI 期許, CIO 如何在不確定性高點下應對
“砍預算了。”這可能是近年來,經常聽到的一話。Gartner的數據也印證了這點,自2014年開始,中國企業的IT預算占比基本維持在10%左右,但在2018年開始逐步下跌,2025年甚至達到最低點-0.8%,..[詳細]
從構想走向現實,6G邁入產業實戰新階段
作為下一代移動通信核心技術,6G正從概念走向現實,其技術突破、產業布局與全球競爭格局牽動業界神經,成為數字經濟領域最受關注的賽道。當前,6G正處于從理論與技術研究向面向產業的技術創..[詳細]
AI與網絡的深度融合,筑牢智能時代發展底座
近日,以“AI 融智,網聯萬物:共筑智能新紀元”為主題的“2026年·云網智聯大會”在北京召開,眾多行業專家及企業代表圍繞算力基礎設施、自智網絡、智能IP廣域網、智算中心網絡、算網安全、..[詳細]
人形機器人馬拉松,跑出產業新速度!
4月19日,北京亦莊上演了一場特殊的馬拉松比賽,一邊是人類跑者奮力奔跑,另一邊是人形機器人同步疾馳。當機器人穩穩沖過終點線,亦如撞開了科技與現實的邊界,宣告人形機器人終于告別實驗室..[詳細]
6G漸行漸近 全鏈協同邁向商用
隨著 “十五五”規劃綱要正式發布,6G 被明確納入國家未來產業核心賽道,其戰略定位完成從前瞻布局到產業培育的關鍵升級。這標志著 6G 不再是 5G 的簡單技術延續,而是以通信、感知、算力、A..[詳細]
移動通信的新蛻變,從機器人擺脫遙控器開始
每一年的MWC巴塞羅那過后,在國內總是會有一場Post-MWC思享匯活動,即總結分享巴展上的行業洞見,同時也揭開MWC上海的序幕。值得一提的是,今年的上海展將迎來第13屆,GSMA大中華區總裁斯寒..[詳細]
AI原生+通感算智+全域覆蓋:6G如何重塑我們的數字未來
4月13日,在香港開幕的2026世界互聯網大會亞太峰會上,6G與AI等新興信息技術成為關注焦點,被普遍視為驅動數字經濟騰飛的核心引擎。當前,6G發展已從愿景探索邁入工程驗證的關鍵階段,其“通..[詳細]
駕駛自動化進入爆發階段,全場景智能化演進加速
以人工智能為代表的科技革命推動產業創新呈現涌現式躍遷,汽車智能化網聯化協同并進的格局已然形成。智能網聯汽車涉及汽車、電子、信息通信、交通運輸等多個領域,以網絡為紐帶、數據為資源..[詳細]













