大模型數據集現狀與對電信運營商的啟示

2023-10-13 06:49:06杜曉明趙曄蕾張媛玥李一明

互聯網天地 2023年9期

□ 文杜曉明趙曄蕾張媛玥李一明

0 引言

截至2023年7月底，國內10億參數以上的各類大模型，已達113個，當前模型的擴展速度比數據集快3倍。谷歌研究發現，數據集大小至少與模型大小一樣重要，數據集和模型大小應該大約1：1以達到給定數量的訓練計算下的最佳性能。因此下階段AI的突破將得益于高質量數據，這是大模型性能提升、行業應用落地的關鍵，能否掌控相應的數據集，直接決定能否構建產業競爭優勢。

目前用于大模型訓練的國內數據集主要有公開數據、自有數據、合作伙伴數據、外部采購數據等。

1 我國數據集的現狀

通過梳理國內機構在訓練大模型時所使用的數據來源，可以看到目前用于大模型訓練的國內數據集主要有公開數據、自有數據、合作伙伴數據、外部采購數據等。當前100%的機構使用公開和自有數據，67%的機構使用合作伙伴數據，22%的機構外部采購數據，即從第三方機構或平臺購買或租賃而獲得。

1.1 公開數據：質量較低、專業度不足，競爭壁壘小

公開數據包括開源數據集和公開資料。目前有國內的政府、行業巨頭、開源組織、學術界單獨或聯合發布開源數據集，如百度DuReader數據集、阿里天池數據集等。總體來看數據質量相對較低，存在噪聲、偏差或過時等問題。公開資料主要是電子、紙質等媒介上的各類公開信息，數量較多，形態多樣，需要自行抓取并進行預訓練才可使用，且行業專業度不深，如各類政府公開數據、新聞、網頁數據、百科類數據（百度百科等）、問答數據（知乎等）、共享文檔、自媒體等。

1.2 自有數據：專業度較高，有較高競爭壁壘

自有數據主要是指各個機構在業務經營、研究過程中，自行積累的數據。這類數據領域性和專業針對性較強，適合與行業大模型深度結合，并且因為私有性和壟斷性，具備差異化優勢。如騰訊“混元”大模型的自有數據主要來自微信公眾號、廣告數據和微信搜索等，華為盤古大模型的行業數據涵蓋了B端的氣象、礦山、鐵路等，阿里通義大模型的部分自有數據來自阿里達摩院，包括一些專業知識和技術文檔等。這類數據存在質量不佳、數量不足等情況且機構一般不具備專業的數據處理能力，需要數據服務提供商協助企業構建自有高質量專業數據集。只有擁有大量數據積累并且具備行業know-how的企業才能夠在大模型的基礎上學習行業特色數據與知識打造出行業大模型。

1.3 合作伙伴數據：可能存在合規性問題

機構與其他機構或企業進行合作或交換而獲得的數據，合作伙伴以私有接口等方式或授權平臺方使用其數據，這類數據通常是針對相關領域或任務的數據，可靠性與實用性較高，但存在定向授權，涉及隱私、安全或法律等合規性問題，如華為盤古大模型使用華為云平臺上脫敏后的企業數據等。

1.4 外部采購數據：數據質量較高、競爭壁壘低

截至2022年末，全國已有56家正規數字交易所，通過API接口對外提供數據，部分機構也在自有平臺上對外銷售研究報告、聚合型數據表格等數據資源。這類數據可根據需求定制化采購，專業性或需求針對性較高，數據結構性較強質量較高，如上海數據交易所截至2023年7月底，已有1258條數據要素資產在線銷售，貴數所已上架產品1055個，交易888筆。萬得通過聚合并梳理宏觀、上市企業等公開經濟、金融類數據，整理形成數據字段，并以數據產品形式對外銷售，天眼查等工商信息網站聚合工商、司法等信息，形成關鍵字段，對外銷售。

2 數據集存在問題分析

2.1 中文互聯網生態封閉，有效公開數據量不足

相較于英文生態的數據總量而言，中文生態中的可用數據總量仍有差距。一方面是由全球互聯網語言現狀所導致，如維基百科數據截至2023年6月末，英文詞條超過600萬，而中文為113萬；在雜志期刊方面，中國高引用論文的數量占世界份額為27.3%，落后于美國的42.9%，若疊加其他類型英文文章，則落后幅度更大。另一方面，中文互聯網生態逐步邁向以移動互聯網為代表的私域化模式，限制了數據可采集性。根據IDC的研究，2022年中國數據總量為23.88ZB，與北美的28.05ZB相差無幾，但是在產業實際運營中，可供形成數據集的資源量卻不充足。以可供公開采集的互聯網站為例，截至2023年6月底，全球前100萬互聯網站中，英文為53.9%，而中文僅為1.4%。盡管百度、阿里等部分廠商開放了數據，或者由民間基于數據抓取在Github上開放，但規模一般在10GB以下。數據集規模直接影響中文大模型的競爭潛力。

2.2 中文數據管理分散，高質量數據集缺乏

一是高質量數據集需要從頂層設計、標注規范、標注質量把控以及發布后更新升級各個方面嚴格把關，是需要長期積累且持續性巨大資金投入的過程。一般是長期投入的企業或者自然基金項目才有能力開展，如Common Crawl 2008年起抓取網頁制定數據集，被公認全球大模型優質基礎數據集，目前規模已達TB級別。二是對于訓練行業大模型所需要使用的工業、醫療、金融、交通等領域的數據，公共數據來源顯著不足，除了彭博、萬得、恒生、天眼查、千里馬等聚合數據平臺之外，在政務、交通等領域需要逐一對接各地的公共數據開放平臺或大數據交易平臺。不僅如此，這些行業數據需要進一步預處理，例如對阿里天池等行業數據開放平臺的監測，眾多開放的行業數據實際聚焦于某些單一場景，需要使用者經過聚合整理后方能作為訓練大數據的數據集。

2.3 因私域化或版權化保護，限制中文多模態數據集發展

目前網頁抓取、自有數據和開源數據集仍然是多模態大模型數據集的重要來源，其中通過機器翻譯開源數據集的方式仍存在風險，如2023年3月，百度文心的AI繪圖功能上線，由于具有西方風格，行業內最初質疑是“換皮”方式實現，經過研究主要是百度缺乏國內高質量圖片數據集進行模型訓練，而使用國外的數據集并采用機器翻譯方式將英文標注直接翻譯為中文導致。我們分析主要是因為多模態數據私域化或版權化保護導致國內多模態數據集不足。當前各類交通監控、工業視覺等均保存于行業平臺，國內2/3高質量圖片版權歸屬于視覺中國，長短視頻主要由抖音等平臺方運營，這些高質量多模態數據尚未形成多模態數據集或不對外開放。

運營商作為信息通信產業的基礎設施服務提供商，在人工智能大模型時代，需積極拓展業務邊界，將通信信息服務向戰略新興業務方向拓展。

3 對電信運營商的啟示

電信運營商作為信息通信產業的基礎設施服務提供商，在人工智能大模型時代，需積極拓展業務邊界，將信息通信服務向戰略新興業務方向拓展。布局大模型的同時在數據能力方面夯實AI發展基礎能力，賦能企業自身和行業客戶數字化轉型。

3.1 加快技術核心能力培養，打造和輸出高質量數據集的能力

電信運營商支撐著幾十億用戶24小時數字生活以及近百億的各類連接數據，數據資產規模巨大。由此一方面可以通過有效的數據規劃，實現資源的內部整合，匯聚多源數據打造成可復用的數據資產，將“數據資源”轉變為“數據資產”，進而將高質量數據集用于自身網絡大模型的訓練，借助大模型工具優化網絡能力提升基礎業務；另一方面要加強數據脫敏、隱私計算等核心技術能力培養，融合數據、工具、算法、算力、服務等多種要素，抽取共性需求，實現數據的價值萃取，打造以高質量數據集為基礎的數據價值經營體系，實現基于數據集跨行業跨領域的交換、交易及安全管理。通過與相關垂直行業企業合作輸出高質量行業數據集用于訓練各行業大模型，進一步增強了行業大模型的領域專業性和場景適配性，更有利的賦能企業數字化轉型。

3.2 加強產業合作，打造數據開源生態環境

一是與合作伙伴共享數據擴大數據規模，增加數據的維度和深度，以支持更復雜、更精細的模型訓練，并持續推動優質數據集的構建。二是聯合高校、互聯網巨頭、非盈利機構等組織加強產學研聯合創新，打造開源數據集。作為國資央企，電信運營商需發揮產業鏈號召力鏈接產業鏈上下游，激活數據交易流通市場，促進數據集之間的合作共享，提供更多樣化的數據產品，如基于電信運營商特有的通信類數據打造通信類高質量數據集，并實現數據集的采集、管理和運營的全棧式服務。三是加強與政府的溝通，推動國家、地方數據集標準化建設，涵蓋對格式、合規性等要求，推動示范性數據集的建設，如目前北京市已經推出了標桿數據集，電信運營商具備較高數據合規性能力，可以承擔數據交易領域的標桿示范作用。

4 結束語

目前，數據集的規模和質量已經成為產業競爭關鍵之一?？蒲蓄I域，人工智能領域權威學者吳恩達發起“以數據為中心運動”；產業實踐來看，在一個大模型項目中，數據工程（包括數據采集和標注）時長，占總項目時長的80%，并對模型準確率產生10%的影響；而模型工程（模型訓練和部署），僅占總時長的10%，并僅影響1%的準確率。

隨著支持政策發布、數據處理技術進步和數據服務產業發展，國內可用的大模型數據集的數量、質量和種類都將得到提升和完善，更好滿足大模型對數據集規模更大、樣式更多、質量更高的需求，并為我國大模型的發展奠定良好基礎。