顏玉奎 石文龍


[摘 要]為了提高海量新聞信息分類的效率,本文探索研究基于Transformer(轉換器)模型和《中文新聞信息分類與代碼》標準的自動分類標引,包括自動歸類、聚類、檢索標志的智能抽取,以及人工標引和自動標引的互相結合。Transformer模型訓練數據特征效率更高,適應能力更強。基于標準的自動分類表更靈活,更高效,自動標引具有廣泛的應用前景。
[關鍵詞]中文新聞信息分類與代碼;自動分類;自動標引;Transformer模型
[中圖分類號]G254.1[文獻標志碼]A[文章編號]1005-6041(2023)05-0027-06
1 引 言
《中文新聞信息分類與代碼》(Classification and code of Chinese news information,簡稱CNCC)是我國新聞界首次研制的中文新聞信息技術兩項國家標準之一,于2006年首次發布實施,2013進行第一次修訂,2022年完成第二次修訂,是我國新聞技術領域的一項重要的基礎性標準,也是一部非常實用的分類法[1],已有多家新聞單位應用實施了該標準。基于CNCC的分類標引有人工標引和自動標引,本文在實踐的基礎上探索研究基于CNCC的自動分類標引。
2 CNCC的基本概況及應用中存在的問題
CNCC以主題立類為主,學科立類為輔,類目的設置兼顧科學性、實用性、穩定性和可擴展性,采用線分類和面分類相結合的分類方法[2],適用于通訊社、報社、廣播電臺、電視臺、雜志社、網絡媒體,以及各種資訊機構對中文新聞信息進行分類、檢索、標識等方面的處理與交換業務[3]。最新修訂的CNCC(GB/T 20093—2022)類目表包括主類表和復分表。主類表是一級類表、簡表和詳表的統稱,詳表從粗到細最多分為5個層級,一級類目24個,二級類目385個(其中含交替類目13個),詳表的全部類目6 927個。通用復分表包括總類復分表、人物復分表、新聞信息體裁表,也包括世界國家(地區)代碼表、中國行政區劃代碼表、中國各民族名稱代碼表。
隨著網絡、手機等新媒體的迅猛發展,傳統媒體和新興媒體深度融合發展是大勢所趨,對于用戶畫像的數據挖掘也愈演愈烈。以前,人們依賴媒體看新聞,現在則是用戶自己選擇想看的新聞。總體來說,中文新聞信息分類需要一個統一的分類標準,而具體媒體單位和用戶的需求豐富多樣,需要進行靈活實用的分類,標準的規范性與需求的多樣性之間存在著矛盾。
在對新聞信息分類時,人工標引效率低下,需要采用自動標引的方法和技術以提高分類的效率。
3 基于規則的自動分類技術及其相關研究概述
文獻標引是對文獻的內容特征進行分析、描述,從而揭示文獻的過程。蔡迎春等[4]全面系統地回顧和梳理了我國文獻標引技術的發展脈絡,指出我國的文獻標引經歷了從分類標引、主題標引到多元化標引的過程,逐步由人工標引、機器輔助標引過渡到自動標引,進一步向智能標引方向發展。自動標引是利用計算機系統從擬存儲、檢索的事實情報或文獻(題目、文摘、正文)中抽取檢索標志的過程。自動分類是用計算機系統代替人工對文獻對象進行分類,一般包含自動聚類與自動歸類。自動聚類是根據數據的相似性將數據分類,自動歸類是根據規則將數據分類。
3.1 基于CNCC的自動分類相關研究
基于CNCC的自動分類相關研究并不多,經檢索知網,僅發現2篇相關的文章:1)2005年,CNCC作為我國第一部即將上報的新聞信息分類標準,為了真正體現該標準的現實價值,鄧茜等[5]從圖情領域知識組織角度提出了實現自動分類、自動標引的總體框架,認為包含多個詞表、規則庫在內的知識庫是自動標引的基礎模塊,提出了知識庫結構的設想(但只是基于CNCC自動分類標引的理論設想,沒有實際的應用和測試)。2)2010年,張志平[6]從語言學領域語言分析的角度,探索了基于CNCC的自動分類方法:從分類體系的類目信息和類目說明中獲得初始主題詞詞表,利用獲得的初始主題詞構建中文新聞信息分類與代碼體系的特征向量,采用CCA自動分類(Class Centralized Auto-Classification,類中心)方法將文本按該體系進行自動分類。然而,其研究中所述的每個類目對應特定主題詞的分類主題詞表方案更多是理論上的意義,在實際工作中很難真正應用實施。
3.2 基于規則的主流自動分類方法
基于分類規則的主流自動分類方法有CCA自動分類和Transformer(轉換器)自動分類。
CCA自動分類采用特征向量中心、貝葉斯方法、K-近鄰方法、決策樹方法、中心向量法等相結合,是一種基于特征選擇的分類方法,其優點是可擴展性強、靈活性高、能夠有效地避免過擬合等,缺點是需要大量的預處理工作和大量的訓練數據來進行特征提取和分類,對新領域的探索能力較弱,可解釋性不足,尤其是為了能進行數據的準確匹配,需要維護龐大的中心庫數據。中心庫數據包括各種主題詞表、近義詞表、專用名詞表、詞典等。主題詞是經過規范化的詞,我國有《漢語主題詞表》以及《航空科技資料主題詞表》《醫學主題詞表》等專業主題詞表,新華社也曾經編制過《新聞主題詞表》,此外《中國分類主題詞表》則是中國第一部大型綜合性分類主題一體化主題詞表。詞庫、規則庫的建設和維護成本巨大,而且往往滯后,在一定程度上制約了圖情領域基于分類法的自動分類研究和應用。2009—2016年,關于自動分類,采用“分類法”做篇名詞或者關鍵詞,檢索結果只有1篇文章,而該文無論在原理方面還是方法方面,都沒有新的發現和發展[7]。
Transformer是一種基于自注意力機制的深度神經網絡模型,廣泛應用于自然語言處理領域的各種任務,如文本分類、機器翻譯和問答系統等。Transformer對自然語言進行分析獲取特征并對內容分類。Transformer自動分類利用Transformer模型的特點,從原始文本中自動提取特征信息并將其轉化為上下文向量,進而對文本進行分類。Transformer通過自然語言處理分析數據特征,僅從原始數據中就能提煉出對應的特征,只需要完善對應的特征、維護儲存學習特征的模型,無需維護龐大的詞庫、規則庫等中心庫數據,降低了大量的數據維護成本。
Transformer自動分類在自然語言處理任務中取得了很好的效果,在很多應用場景中表現出了優異的性能,尤其是在大規模數據集上的表現尤為出色。它的突出優點在于能夠自動學習到好的特征,并且可以通過簡單的模型結構來擴展到更多的任務中,具有很高的可拓展性。
2016年前,文本的自動分類主要使用傳統的機器學習模型進行訓練;2016—2018年,自動分類主要使用深度學習循環神經網絡(RNN)相關模型進行訓練;2019年之后,主要使用“Transformer預訓練模型+遷移學習”方式進行訓練。隨著Transformer預訓練模型的不斷發展和優化,2022年之后,“Transformer預訓練模型+遷移學習”方式已經成為一種通用的文本分類工具。
綜上所述,在基于規則的主流自動分類方法中,Transformer模型訓練數據特征效率更高,成本更低,適應能力更強。本文在實踐的基礎上,探索研究基于Transformer模型和CNCC標準的自動標引,包括自動歸類、聚類以及其他檢索標志的智能抽取。
4 基于CNCC的自動分類標引實踐與研究
廣西日報社與業內領先的數據智能應用科技公司合作,建設數據中臺,采用智能文本分析系統,基于“深度學習+遷移學習”方式和Transformer模型,基于CNCC的分類體系進行自動分類標引。
4.1 基于CNCC及實際標引的數據狀況確定適用的自動分類表
自動歸類是根據規則將數據分類,即按照一定的分類標準或分類參考,將被考察對象劃歸到不同類目的過程。因此,自動歸類需要有一個合理適用的分類體系,這是非常重要的前置工作。
4.1.1 基于CNCC標準和實際使用的條目,確定自動分類的使用類目。自2006年CNCC頒布實施后,廣西日報社率先應用實施了該標準,擬定了Excel格式的CNCC使用本,報社旗下全部歷史數據中的原創數據均按CNCC使用本進行了分類,分類字段同時標引分類代碼和類目名稱,擁有了一大批分類數據語料。
廣西日報社電子數據的CNCC使用本共有1 145個使用條目,類目級別較多,一些地方資料類目的級別多達7級,組配后的專題資料類目的代碼更為復雜。如此復雜的分類表不適用于自動分類。
我們使用Transformer預處理已有的分類數據,對原始數據進行清洗和標準化,對分類字段的標引值也進行了清洗,把復分表代碼、類目名稱去掉,只以分類代碼作為唯一的分類標示,將原始數據轉化為更為直觀的表型數據,提取已有的分類數據集的所有類別,保留重要類別,減掉數據量少的類目,合并相似類別,得到包含實際使用條目的分類表。
在原有CNCC使用本的基礎上,結合數據分類實際情況,保留全部的一級類目,根據本單位重點報道和數據狀況,選擇比較有使用價值、數據量較多的條目,確定自動分類需要使用的類目,對于沒有使用的類目,其內容歸入上位類。
4.1.2 對使用類目的層級進行降維,確定自動分類表。由于CNCC的分類層次太多,類別關系復雜,上述自動分類的使用類目也存在同樣的問題,容易互相干擾,影響自動分類的準確性,類目級別太多,給用戶也帶來學習的壓力。而二級分類相對于多級分類來說,具有更簡潔的結構,更易于理解的數據變量,方便用戶理解和篩選,可以加強產品和用戶的互動能力。因此,自動分類表使用兩個分類層級,以提高模型的效率和減少誤分類的可能性。
根據實際需求設計一個二級分類模型,將確定好的自動分類使用類目由多分類層級降維到二級分類,然后把二級分類的模型(指定最高分類層級為二級)和原先的多級分類數據(多分類層級)交給NLP模型進行學習,進行降維處理。
下面以“11.21;經濟會議、經濟博覽會”為例,比較CNCC、CNCC使用本和基于CNCC的自動分類表三者的區別和聯系(見表1)。
按照CNCC標準,“中國—東盟博覽會”的相關信息應歸到“11.21;經濟會議、經濟博覽會”的下位類“11.21.03;經濟博覽會”。CNCC使用本,根據CNCC的擴展使用規則,擴展了本單位的特色專題類目“11.21.03.DF450100.B11;中國—東盟博覽會”,其中DF450100是南寧的地區代碼,B11的“B”表示本單位的擴展類目,在11.21.03。經濟博覽會類下,也可以擴展其他在各地舉辦的各種經濟博覽會,各類經濟博覽會類還可以進一步按照屆次進行細分。基于CNCC的自動分類表,把“中國—東盟商務與投資峰會”和“中國—東盟博覽會”兩個相近的內容一起歸到“11.21.03.DF450100.B11;中國—東盟博覽會”,并對其代碼進行降維:
{ncode:“001007009”,resourceId:null,
sourcecode:“11.21.03”,name:“經濟會議、經濟博覽會”,aliasName:null,level:2,…}
{ncode:“001007010”,resourceId:null,
sourcecode:“11.21.03.DF450100.B11”,name:“中國—東盟博覽會”,aliasName:null,…}
降維后將新編碼與原始基底數據編碼進行了關聯,保證新舊分類數據的一致性和多態性。在分類降維后,使用者可以更快速、準確地找到所需的信息,優化搜索體驗,提高頁面加載速度,縮短用戶的等待時間。
最終的自動分類表保留CNCC的24個一級類目,全部類目共98個,經過降維后,最大的類目級別只有二級。
4.1.3 基于CNCC可以靈活制定行業、專題和各類新媒體的自動分類表。基于CNCC可以根據數據對象的特性選擇全部或部分類目,提升或降低部分類目的級別,甚至可以改變類目的順序,制定簡潔實用的自動分類表使用本,分類表使用本的分類條目ID只需對應關聯CNCC的代碼即可。例如,新華社技術實驗室基于CNCC在新媒體環境中存在不適用的情況研制了《中文新媒體新聞信息分類法》,其中一級類目分為政治、社會生活、經濟和文化4個部類,共包含14個一級類目、88個二級類目[8]。其實,在數據庫的底層這些條目ID也可以和CNCC的分類代碼關聯對應起來。
基于CNCC制定的自動分類表更靈活、更高效,在保證底層使用統一的分類代碼基礎上,各平臺可自由定制適用的分類體系,實現分類數據的高可用、松耦合,各平臺之間的數據可以友好交互,減少溝通成本,消除各平臺分類數據的自有壁壘,從而實現各媒體平臺之間分類數據的融合。
4.2 模型的訓練與優化
已有的分類數據為自動分類的深度學習提供了語料基礎。采用Transformer模型對原始數據進行處理,包括分詞、去除標點符號、轉換大小寫等操作,以消除數據中的噪聲和提高模型的收斂速度,提取出文本數據的高層次特征(如詞向量、詞頻等)輸入模型。將大量的文本數據壓縮成更簡潔的結構,以減少數據量。使用Transformer模型對數據集進行訓練,通過交叉驗證來評估模型的表現。在訓練過程中,不停嘗試對模型進行調整,提高模型的準確率和泛化能力。將訓練好的模型接入訓練環境中,調試模型來獲得預測結果。
對基底數據集多次訓練后生成對應的大模型,依據訓練好的模型進行評估準確率、召回率等指標,在進行數據校對后使用。
在擁有充足標注數據的場景下,深度學習可以發揮較大的威力,而當沒有足夠的標注數據語料時,就需要遷移學習,即將一個任務中訓練出的模型參數遷移到另一個模型任務上,能有效加快模型收斂速度,降低過擬合問題。因此,采用基于“深度學習+遷移學習”的訓練方式能使自動分類系統的適用性更強。
模型初步建立后,還需繼續改善和優化,提升后續模型對數據的處理效率,如人工對自動標注的結果進行糾正或優化深度標引。這些經過糾正、優化的語料將作為訓練素材用于下一次的機器學習,整個工作流程是一個閉環,機器自動標注的準確率會不斷提高。
4.3 數據的匯入及標引
由于數據類型多、來源廣,需要將各種數據整合在數據中臺,以便進行統一管理和分析。例如,廣西云數據中臺的數據包含報社所有新舊媒資數據,包括報紙庫、期刊庫、網站庫、App庫、融媒體庫、媒資庫、新華社電稿庫、小康數據庫、黨建平臺庫、圖片庫等,同時涵蓋了廣西14個設區市及各縣(市、區)的黨報、黨端、廣播、電視的數據。
數據的匯入需要考慮數據源的選擇、數據格式的一致性、數據量的龐大程度等。不同的數據源,需要對其進行相應的處理和整合,確保數據的一致性和可讀性。此外,如果數據量太大,在進行匯入時可能會出現一些性能上的問題。數據的匯入需要采用一些專門的技術手段,如數據庫、API接口等。
數據匯入時,自動標注系統實時對這些數據進行自動分類,并標引其他檢索特征。這個過程需要結合多種技術手段,如NLP(自然語言處理)和組織信息抽取等。其中,NLP可以用來處理文本數據中的語義和關系,而組織信息抽取則可以從非結構化數據中提取出有用的信息。通過這些技術的配合,可以更加精準地對數據進行標注和分類,從而提高數據的質量和準確性。
5 自動聚類及檢索標志的智能提取
自動聚類,主要是根據文本的內在數據分布、語義特征,將海量文本數據自動聚合成多類,并為每一類數據給出描述性關鍵詞,對文本進行核心關鍵詞分析,聚合相似的文章。自動聚類功能的實現,在標注系統上主要體現為給每一篇文章自動標注核心關鍵詞。
檢索標志的智能提取,主要是通過智能識別文本中包含的命名實體信息和專業用語,在標注系統上主要體現為:對文章中的地區命名實體、人物命名實體、機構命名實體、時間、專業術語等檢索標志的自動標引。
數據中臺在匯入圖片、音頻、視頻數據時,會自動調用預設置的AI(人工智能)中臺智能解析能力,將匯入的多媒體內容進行語音識別、人臉識別、字幕識別等解析操作,同時將對應的語音、字幕識別成文字,并根據內容標注人物的名稱,標注涉及的地點、事件以及相關機構。
對多個檢索標志的智能提取,就是對新聞信息的多維度標引。CNCC在一定程度上具備了分面分類法的特征:主表的列類以內容主題為主,從“面”分類的角度看,主表是主題分面表,上述自動分類表主要是根據主表對內容主題的標引,便于把握各主題的縱向從屬關系和橫向相關關系,有利于新聞信息的族類檢索;CNCC的幾個復分表相當于新聞體裁分面表、國家地區分面表、中國行政區劃分面表、人物分面表、中國民族分面表,對文章檢索標志的智能提取,對新聞信息的體裁、地域、人物、民族等多維度的標引,相當于依據各個分面表的分面分類標引,通過組配可以形成復雜的概念,使檢索結果更加精準,也可以讓用戶單獨從不同的途徑進行檢索。盡管檢索標志的智能提取不必依據預定的類表,但依據CNCC復分表標引的數據為檢索標志的智能提取提供了訓練數據語料。
6 基于分類標準自動標引的展望和思考
人工智能和機器學習技術是當今新聞技術發展的趨勢,人工智能技術的發展將為媒體機構帶來巨大的挑戰和機遇。
6.1 自動標引具有廣泛的應用前景
人工智能的自動標引技術可以快速、高效、實時地對信息資源進行處理,能為媒體機構提供非常好的新聞挖掘和分析能力,具有廣泛的應用前景。在實際應用中,當各類新聞信息匯聚到數據中臺時,就可以對該信息實時進行自動分類和相關特征的自動提取。這些經過標引的數據被賦予了更多的價值:可以根據需求制作成各類智能專題;各類智能專題可以關聯各類新媒體采編發業務系統的相關欄目,助力各類新媒體欄目的信息發布;編輯部每天的采前會可以在大屏上實時分析已發布新聞的傳播狀況,研究確定各個新聞專題的后續報道計劃。
隨著ChatGPT等國內外自然語言大模型的不斷涌現,內容生產成為AI應用的重點領域。2023年4月,首個全國性媒體AIGC研究機構成立[9],助力廣西云融媒體平臺建成融合AI中臺、業務中臺、數據中臺的“智媒中臺”,廣西14個設區市主流媒體的加盟,整合了自治區各家媒體的資源優勢,實現了數據共享與應用。AIGC(Artificial Intelligence Generative Content,人工智能生成內容)的核心思想是利用人工智能模型,根據給定的主題、關鍵詞、格式、風格等條件,自動生成各種類型的文本、圖像、音頻、視頻等內容。AIGC的強大功能需要有豐富完善的數據資源作為基礎,自動分類、自動標引是其技術支撐之一。自動標引的未來研究方向包括深度學習和神經網絡技術的優化、自適應智能標引、多模態標引等。
6.2 人工標引與自動標引的相輔相成
盡管自動分類、自動標引技術已經發展到智能標引階段,但由于自動分類表比較簡單,自動分類的輸出結果也比較粗糙,在查全率和查準率方面有一定的局限性。
實際應用中,一般會采用兩種自動標引與人工標引相結合的方式:一是人工標引與自動標引采用相同的字段,用同樣的分類表,人工標引對自動分類標引的結果進行糾正;二是人工標引和自動標引并存,人工標引與自動標引的結果分別采用不同的字段,人工標引主要標引原創、
專題等重要數據,需要標引的數據占比較少。人工標引和自動標引的分類表也可以有所不同:人工標引的分類表是CNCC使用本,直接標引標準的代碼和類目名稱,分類條目及其層級較多;自動分類表比較簡單,使用的分類條目數量較少,一般降維到二級,但底層對應的分類代碼和人工標引的分類代碼是相同的。第二種方式更易于操作,而且可以方便顯示和檢索數據庫的重要數據。檢索時,如需要精確檢索,可以只選擇人工標引的字段進行檢索,而模糊檢索則包含人工標引和自動標引的所有結果。
人工標引的分類數據是更有價值的模型訓練語料,有助于改善模型、優化深度標引。建議業界重視原創數據的深度標引,基于標準進行分類,以便于共享和利用,而分類標引數據共享用于模型的訓練,也有助于自動分類準確率的提高。
6.3 關于標準修訂的思考
融媒體時代更需要新聞信息技術標準[10]。CNCC是新聞信息分類的標引工具,自動分類、自動標引的廣泛應用,需要進一步完善CNCC,推廣新聞信息分類標準應用實施。建議基于CNCC靈活制訂自動分類表使用本,使用本條目底層對應CNCC的代碼。在應用實施的過程中,積極反饋新聞信息的新主題、新需求和存在問題,按照《國家標準管理辦法》及時進行修訂。在CNCC修訂中需要注意以下問題:1)跟蹤新聞信息的發展狀況,及時補充新出現的報道主題類目,并細化新增的類目。2)修訂時要注意分類標準的延續性,如需修改類目名稱和代碼時,要非常謹慎,避免對標準的使用單位增添過多的麻煩。3)嚴格遵循代碼唯一性的原則,新增類目和修改代碼時,不使用曾經用過的廢棄舊代碼,因為對使用單位來說舊代碼可能會有對應的數據。4)參考、兼顧新聞信息分類的相關國際標準,如國際上多家媒體單位采用的IPTC Media Topics新聞主題分類國際標準,它共有13種語言和語言變體版本,其中包含了中文版,特點是有利于從主題的角度標引新聞信息的內容,CNCC修訂時可以參考借鑒。
7 結 語
為了提高海量新聞信息分類的效率,自動標引是新聞信息分類標引的發展趨勢。基于規則的自動分類,Transformer模型訓練數據特征效率更高,成本更低,適應能力更強。標引工具是進行文獻標引的基礎支撐,
[HJ1.77mm]
對于整體的中文新聞信息來說需要一個統一的新聞信息分類標準,而對于具體的媒體單位和用戶來說需要更靈活實用的分類工具。建議依據CNCC制訂適用的自動分類表,選擇適當的智能文本分析系統,對新聞信息進行自動分類和自動標引,或者實現人工標引和自動標引相結合。基于標準制定的自動分類表更靈活、更高效,底層使用統一的分類代碼,可以消除各平臺分類數據的自有壁壘,促進各平臺數據的友好交互,減少溝通成本,便于數據的融合和共享。
基于標準的自動分類標引具有廣泛的應用前景。媒體深度融合需要新聞信息技術標準,業界應積極應用、維護和修訂,使分類標準更具適用性。
[參考文獻]
[1]張琪玉.我國情報檢索語言在進步中:兩部新分類法的特點[J].圖書館雜志,2008,27(7):24.
[2]蔣建華,張莉莉,李清華.新聞資料工作理論與實踐[M].北京.中國廣播電視出版社,2006:151157.
[3]全國中文新聞信息標準化技術委員會.中文新聞信息分類與代碼.GB/T 20093-2022[S].北京.中國標準出版社,2022.
[4]蔡迎春,趙心如,朱玉梅,等.我國文獻標引技術的回顧與展望[J].圖書館雜志,2022,41(3):1831.
[5]鄧茜,林紅.中文新聞信息自動分類標引的構想與實現[J].中國傳媒科技,2005(9):2123.
[6]張志平.基于“中文新聞信息分類與代碼”文本分類[J].太原理工大學學報,2010,41(4):402405,411.
[7]陳志新.分類法研究的十五個問題:我國2009至2016年分類法研究綜述[J].情報科學,2018,36(6):149155.
[8]付蓉,張璐,馮巖松,等.研制新媒體信息分類 促進新聞業務發展[J].中國傳媒科技,2016(4):5557.
[9]石睿鵬.首個全國性媒體AIGC研究機構在南寧成立[EB/OL].[2023-05-19].https:∥baijiahao.baidu.com/s?id=1763245180916892794&wfr=spider&for=pc.
[10]武國衛.融媒體時代更需要新聞信息技術標準[J].中國傳媒科技,2018(2):78.
[收稿日期]2023-07-19
[作者簡介]顏玉奎(1965—),女,本科,副研究館員,廣西日報傳媒集團;石文龍(1988—),男,本科,工程師,廣西日報傳媒集團。
[說 明]本文系廣西文旅廳2023年度文化和旅游研究課題“全媒體數據中臺自動分類及其分類體系研究”(課題編號:112)的研究成果之一。