作為人工智能產(chǎn)業(yè)鏈上游的關(guān)鍵基礎資源,“AI語(yǔ)料”正迅速成為資本市場(chǎng)新的焦點(diǎn)。A股上市公司也紛紛加快布局,力求在人工智能產(chǎn)業(yè)鏈上游搶占戰略制高點(diǎn)。
市場(chǎng)前景廣闊
所謂AI語(yǔ)料,是指用于訓練人工智能算法和模型的文本、語(yǔ)音、圖像或其他形式的數據集合。AI語(yǔ)料作為訓練人工智能算法和模型的核心資源,其重要性隨著(zhù)技術(shù)發(fā)展與行業(yè)滲透持續提升。求思咨詢(xún)數據顯示,2023年我國AI語(yǔ)料市場(chǎng)規模達68.7億元,預計到2025年將突破100億元大關(guān),增長(cháng)至109億元,年復合增長(cháng)率超過(guò)25%。
中國電子商務(wù)專(zhuān)家服務(wù)中心副主任郭濤向《證券日報》記者表示:“隨著(zhù)AI技術(shù)在各行業(yè)的滲透日益深入,AI語(yǔ)料市場(chǎng)有望持續擴容。尤其是在醫療、金融、教育等對數據質(zhì)量和安全性要求極高的行業(yè),定制化、高質(zhì)量的AI語(yǔ)料將擁有極為廣闊的市場(chǎng)空間。而且,隨著(zhù)技術(shù)的不斷進(jìn)步,語(yǔ)料的收集、整理、標注和應用效率也會(huì )不斷提升,這無(wú)疑將進(jìn)一步推動(dòng)AI語(yǔ)料市場(chǎng)的發(fā)展。”
政策層面的支持也為行業(yè)發(fā)展注入強勁動(dòng)能。2024年12月份,國家發(fā)展改革委等六部門(mén)聯(lián)合印發(fā)《關(guān)于促進(jìn)數據產(chǎn)業(yè)高質(zhì)量發(fā)展的指導意見(jiàn)》,明確提出支持企業(yè)面向人工智能應用創(chuàng )新,開(kāi)發(fā)高質(zhì)量數據集,大力發(fā)展“數據即服務(wù)”“知識即服務(wù)”“模型即服務(wù)”等新業(yè)態(tài)。2025年2月19日,國家數據局召開(kāi)高質(zhì)量數據集建設工作啟動(dòng)會(huì ),明確指出要扎實(shí)做好高質(zhì)量數據集建設工作,加快推動(dòng)形成一批標志性成果,以此賦能行業(yè)高質(zhì)量發(fā)展。
中國數實(shí)融合50人論壇智庫專(zhuān)家洪勇在接受《證券日報》記者采訪(fǎng)時(shí)表示:“在政策紅利與市場(chǎng)需求的雙重推動(dòng)下,AI語(yǔ)料的價(jià)值正經(jīng)歷全面重估。優(yōu)質(zhì)語(yǔ)料庫不僅是AI模型訓練的基礎材料,更成為企業(yè)構建差異化競爭優(yōu)勢的核心資產(chǎn)。其價(jià)值將通過(guò)市場(chǎng)估值提升、商業(yè)合作拓展、技術(shù)創(chuàng )新突破等多維度得以體現。”
相關(guān)行業(yè)龍頭搶灘
面對如此廣闊的市場(chǎng)前景,眾多上市公司積極投身AI語(yǔ)料領(lǐng)域。
在文本語(yǔ)料領(lǐng)域,中文在線(xiàn)集團股份有限公司依托20余年文化數字產(chǎn)業(yè)積累,構建起涵蓋文學(xué)、教育、科技等多類(lèi)型的高質(zhì)量語(yǔ)料庫;中國科技出版傳媒股份有限公司、中國出版傳媒股份有限公司等出版龍頭則將專(zhuān)業(yè)學(xué)術(shù)資源轉化為AI語(yǔ)料,服務(wù)于科研、教育等領(lǐng)域的AI應用。
視頻語(yǔ)料賽道呈現多元化布局態(tài)勢。浙江華策影視股份有限公司憑借影視劇制作優(yōu)勢積累海量原始素材庫,為AI在視頻領(lǐng)域的應用提供了豐富資源;中廣天擇傳媒股份有限公司的“淘劇淘”平臺匯聚了優(yōu)質(zhì)電視劇版權,并出售大模型客戶(hù),為大模型訓練提供深度數據支持。
視覺(jué)(中國)文化發(fā)展股份有限公司在圖片語(yǔ)料領(lǐng)域優(yōu)勢突出。作為全球領(lǐng)先的視覺(jué)內容數字版權供應商,其擁有近5億專(zhuān)業(yè)級圖文對、80萬(wàn)小時(shí)視頻音樂(lè )素材,還具備完善的結構化元數據,為AI視覺(jué)應用提供了海量圖像和視頻語(yǔ)料。
除文化傳媒行業(yè)外,其他行業(yè)巨頭也紛紛布局AI語(yǔ)料領(lǐng)域。浙江核新同花順網(wǎng)絡(luò )信息股份有限公司、上海鋼聯(lián)電子商務(wù)股份有限公司等公司在金融和大宗商品領(lǐng)域的語(yǔ)料庫建設,推動(dòng)金融科技的快速發(fā)展。北京值得買(mǎi)科技股份有限公司、匯納科技股份有限公司等公司則通過(guò)消費語(yǔ)料庫,助力AI更好地理解和滿(mǎn)足消費者需求。中遠海運科技股份有限公司在航運領(lǐng)域的語(yǔ)料庫布局,將有助于提高航運效率和安全性。而成都市貝瑞和康基因技術(shù)股份有限公司在醫療語(yǔ)料庫方面的深耕,有望為醫療AI的發(fā)展提供有力支持。
此外,多家上市公司通過(guò)投資者互動(dòng)平臺披露了其布局動(dòng)態(tài)。比如,杭州當虹科技股份有限公司于2月11日回應稱(chēng),公司目前已針對多個(gè)行業(yè)場(chǎng)景建設對應的語(yǔ)料庫;居然智家新零售集團股份有限公司于2月7日回復,截至2024年12月底,公司擁有設計模型超1600萬(wàn),空間設計案例超3900萬(wàn),這些模型及設計方案可作為AI學(xué)習的語(yǔ)料庫,公司針對這類(lèi)數據資產(chǎn)已建立戶(hù)型庫、模型庫、素材庫和優(yōu)質(zhì)方案庫等對應數據庫。
深度科技研究院院長(cháng)張孝榮對《證券日報》記者表示:“AI語(yǔ)料市場(chǎng)作為AI產(chǎn)業(yè)的關(guān)鍵支撐,正迎來(lái)黃金發(fā)展期。相關(guān)上市公司積極布局,有望在這一領(lǐng)域構建起強大的競爭優(yōu)勢。但企業(yè)也需清醒認識到,要在激烈的市場(chǎng)競爭中脫穎而出,不僅要在技術(shù)創(chuàng )新、資源整合上持續發(fā)力,還需高度重視數據安全和隱私保護。同時(shí),政府和行業(yè)協(xié)會(huì )也應加強引導與規范,推動(dòng)行業(yè)標準化建設,共同促進(jìn)AI語(yǔ)料行業(yè)健康、可持續發(fā)展。”