周樂

大模型技術要賦能千行百業,其中一個重要領域就是借助大模型范式和技術,投喂優質行業數據訓練行業大模型。圖/視覺中國
數據,尤其是電子數據,是伴隨著處理數據的應用系統而出現的,因此,數據價值會通過應用系統在提高決策質量、優化業務流程、推動創新和個性化服務等方面發揮出顯性作用,在信息化時代,人們普遍認為這種作用是由開發應用系統帶來的,因此,應用系統的研發費用很早就可以計入企業的資產負債表。
數據要素化,進一步強調了數據的重要性。國際數據管理協會(DAMA)對“數據”的定義是,以文字、數字、圖形、圖像、聲音和視頻等格式對事實進行表現。而“要素”是構成事物的必要因素。數據要素化,即將數據作為生產要素。
農業經濟時代,勞動力和土地是生產要素,工業經濟時代,資本和技術是生產要素。進入數字經濟時代后,數據則上升為新的關鍵生產要素,這意味著,數據將成為人類社會進步更加重要的驅動力。
將數據變成一種新型生產要素已是共識。上到國家政策,下到千行百業,數據要素化的探索之路已經走了很遠。積累了不少經驗和教訓。
中國具有完整工業體系,在全球供應鏈中占據重要地位,具有最豐富的產業“暗數據”,這是我國在大模型時代最大的優勢,基于這個背景,中國的行業大數據是不折不扣的“石油”,數據要素化需要一臺更加有力的“內燃機”。行業大模型可能是當下最適合的“內燃機”。
2017年12月8日,習近平總書記在主持中共中央政治局就實施國家大數據戰略進行的第二次集體學習時指出:“要構建以數據為關鍵要素的數字經濟。建設現代化經濟體系離不開大數據發展和應用。”數據的生產要素地位得到進一步明確。2010年后,全球各主要經濟體開始將數據相關發展問題上升到國家戰略層面。2020年3月30日,中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》,明確提出要加快培育數據要素市場。2022年12月19日,為進一步讓數據“活起來、動起來、用起來”,中共中央、國務院發布《關于構建數據基礎制度更好發揮數據要素作用的意見》。2023年10月25日,國家數據局成立,同年12月發布了“數據要素X”三年行動計劃。2024年,在全國數據工作會議上,國家數據局進一步明確將數據要素市場化配置改革作為一條主線推進相關工作。促進數據要素大規模流動和市場化配置成為改革發展的重要方向。
這體現了國家層面對數據作為戰略性資源的重視程度,另一方面,行業其實也在積極找尋數據要素化的最佳模式。
不過,由于數據的無形性、非獨占性、非消耗性、時效性、動態性等特點,數據在成為要素之路上還存在不少問題。
在促進數據要素流通方面,政府借鑒了搞活市場經濟的成功經驗,通過設立數據交易所來激發數據交易。但總體來看,市場反應沒有預期的熱烈,尚未形成可持續的商業模式。
出現這種情況,與數據交易所的交易方式有很大關系。交易所成立初期采用了數據直接買賣的方式,后期加入了數據產品的交易。初期模式下,數據脫離了具體使用場景,數據價值大部分情況下靠數據量大小來度量,這直接導致定價標準和實際價值難以匹配,并對數據權屬和數據安全提出了巨大的挑戰。
后期模式一定程度上解決了初期問題,但產品標準化程度低,不少數據產品是將數據批量交換變成API接口,數據的交換邏輯其實沒有本質變化。另外,雖然也有成功的數據產品,但總體來看,存在供給與需求不匹配問題。
推進數據資源入表是數據要素化的重要一步。在這方面,財政部發布的《企業數據資源相關會計處理暫行規定》,明確了數據資源作為資產進行確認、計量和報告的具體要求。中國資產評估協會發布的《數據資產評估指導意見》為數據資產評估提供指導原則,明確了收益法、成本法和市場法等評估方法。
但在實際操作中仍存在不少挑戰。
一是數據資源的取得和處理、權屬認定方面必須合規合法,涉及個人信息和重要數據的保護更需要謹慎處理。
另外,數據是活的,它的活躍度、顆粒度、新鮮度和匹配度決定了數據資源成本或價值的可靠計量存在難度,時效性導致數據價值經常變動,企業內部數據雖然在企業經營管理方面作用十分明顯,但入表價值延伸到諸如金融領域時,大家擔心在出現風險的時候,這些抵押數據能發揮多大風險緩釋作用?
還有一個規避不了的挑戰是,企業需要在會計報表附注中對數據資源進行詳細披露,但從另一個層面來說,這也屬于企業的商業秘密。
以及,不同行業的數據資源特性和業務模式差異較大,導致數據入表的方法需要個性化處理。
目前的模式一定程度上讓數據“要素化”,但并不徹底。
數據是“石油”,數據要素化要尋找數據時代的“內燃機”。
生產要素具有功能性和時代性特點,資源之所以成為生產要素,是因為存在利用這些資源創造經濟價值的技術或載體。正如石油需要內燃機來彰顯其能量,土地需要建筑物呈現其價值一樣。當數據獨立出來要素化,必須找到數據“石油”的“內燃機”。這臺“內燃機”,應該解決一些現實痛點。比如:具備更強的標準化程度;能顯性呈現數據的內在價值并能倍增單一個體不具備的價值;可以有效規避數據保護、隱私等安全問題;能發揮出歷史數據作用,解決數據時效性問題;擁有更簡單、透明的價值計量方式等特點。
大模型可能是當下最適合的數據要素時代的“內燃機”。
目前的大模型多是以公開數據訓練出的通用大模型,這些公開數據俗稱“明數據”,還有大量的數據是存在各單位內部的“暗數據”。大模型技術要賦能千行百業,其中一個重要領域就是借助大模型范式和技術,投喂優質行業數據訓練行業大模型。
假以時日,一旦訓練出具有行業特點的行業大模型,并能在基礎理論、研發設計、中試驗證等關鍵環節展現出“多任務泛化”能力,甚至是超預期的“智力涌現”能力,將對行業帶來顛覆式影響,這在生物制藥領域已有成功案例。
需要注意的是,目前大模型落地方案中,利用自有數據開展微調、RAG或智能體應用提升自有數據檢索和理解能力的大模型還十分初級,距真正賦能行業的大模型還相距甚遠。最近華裔數學家陶哲軒領銜的一份美國總統報告總結預測了AI對半導體、超導體、宇宙基礎物理學、生命科學等領域帶來的巨大改變。如果這些預測在幾十年后能夠實現,美國醞釀的“AI登月計劃”就將成真。

資料來源:作者提供。制圖:顏斌
中國具有最完整的工業體系,在全球供應鏈中占據重要地位,具有豐富的產業“暗數據”,這是我國在大模型時代的比較優勢,以大模型范式做為新科研范式,通過大模型尋求大參數因果律也許是彌補我們基礎理論和創新研發短板的一種可能,我們期望帶有“智力涌現”能力的“金融大模型”“煉鋼大模型”“醫療大模型”“育種大模型”等行業大模型能早日出現。
筆者將“以大模型為中信的數據要素化”流程制作成了一張圖表,如上圖所示,可以有效落實《關于構建數據基礎制度更好發揮數據要素作用的意見》中發揮數據要素作用,賦能實體經濟等目標,以及數據要素收益分配制度中“誰投入、誰貢獻、誰受益”的原則,有效化解數據要素化中的主要問題。
在數據匯集環節,相對于通用大模型訓練“無數不用”,行業大模型訓練具有明確行業主題,更喜歡長周期歷史數據,標準相對統一,數據質量更容易甄別。因此,這個環節的數據貢獻度具有很好的度量性。
模型訓練是個相對封閉過程,訓練后的模型呈現的是萃取后的參數,不會暴露任何原始數據,完美解決了加工和流通中的數據安全問題。行業大模型服務具有很好的標準化程度,既回避了原始數據流通各種不便,還能體現出“智力涌現”的增值,收費會更公平、高效、規范。這幾個環節配合將形成數據要素流通的閉環,促進商業模式的成熟。
上述過程的關鍵是數據匯集這個環節,該環節需要有能力的牽頭單位和合理的匯集機制。能承擔這個角色的主要有兩類單位:政府或行業主管部門,以及行業龍頭企業。在公共數據上,政府更容易發力。以醫療大模型為例,可由政府牽頭匯集醫療機構的數據,同時利用自己的公信力,通過引入保險等金融服務或以未來的大模型服務做為回報來獲得患者數據的授權,再借助大數據局等機構做為持有者聯合外部機構開展大模型訓練工作。行業龍頭企業更聚焦到具體產業領域,以自有數據為基礎,再以自身影響力聯合其他同行共建行業數據集。有些行業競爭格局比較復雜,就需要發揮行業主管部門的統籌作用了。
上述過程在實際操作中還將面臨各種問題,比如,部門籬笆墻對數據匯集的限制,龍頭企業缺少高質量數據積累,但時代大勢不可逆,大模型是一種革命性技術,它影響著國家競爭力。
在行業大模型訓練這件事上,需要拋棄內部競爭的小格局,思考國際對手如果早于我們訓練出行業大模型,將對我們產生什么影響?我們需要盡最大力量、在最大范圍、以最高效率匯集行業大數據,有針對性、有序開展行業大模型建設工作,以此為抓手在數據要素化上探索出一條中國特色之路。
(作者為中信集團信息技術部副總經理;編輯:謝麗容)