


收稿日期:2023-08-31
DOI:10.19850/j.cnki.2096-4706.2024.07.005
摘? 要:文章分析討論了半結構化信息管理技術的發展狀況和應用情況,在梳理和總結半結構化文本信息抽取載體類型、內容和技術方法的基礎上,設計了科創項目信息提取系統。該系統數據源以科研院所/創業團隊提供的商業策劃書為主,采用B/S架構,以基礎設置、數據層、應用層和用戶層四層邏輯構架為基礎,通過業務邏輯后臺、文件解析模塊、項目關鍵信息抽取服務三大功能模塊,實現對科創項目策劃書文本數據采集、關鍵信息提取、數據存儲以及數據服務的高效管理。實踐結果表明,該系統功能達到了預期設計目標,運行穩定、高效。
關鍵詞:半結構化信息;科創項目;信息提取系統
中圖分類號:TP311? 文獻標識碼:A? 文章編號:2096-4706(2024)07-0019-06
Design of Information Extraction System for Science and Technology Innovation Projects
BAI Bin
(Shanghai Yunju Shuchuang Network Technology Co., Ltd., Shanghai? 201401, China)
Abstract: This paper analyzes and discusses the development and application of semi-structured information management technology. Based on sorting and summarizing the types, contents, and technical methods of semi-structured text information extraction carriers, an information extraction system for science and technology innovation project is designed. The data source of this system is mainly business proposals provided by research institutes/entrepreneurial teams, using a B/S architecture. It is based on a four layer logical framework of basic settings, data layer, application layer, and user layer. Through three functional modules: business logic backend, file parsing module, and project key information extraction service, it achieves efficient management of text data collection, key information extraction, data storage, and data services for science and technology innovation project proposals. The practical results show that the system function has achieved the expected design goals, it operates stably and efficiently.
Keywords: semi-structured information; science and technology innovation project; information extraction system
0? 引? 言
科技成果轉化的關鍵在于“精準對接”,其核心在于識別科技成果的核心亮點,進而從海量數據中快速、準確的檢索到匹配需要的資源。傳統的做法主要依靠人力完成,效率低且效果不可靠。利用人工智能技術對項目文檔中關鍵詞信息抓取、整理、關聯挖掘出有效信息,并以可視化的方式直觀展示,可以大幅提高科技成果和企業需求匹配效率。
1? 現狀分析
從科創項目策劃書文本數據構成上看,主要是以半結構化信息為主,結構化信息只占了其中很小的一部分,如何有效提取大量的以半結構化化信息為主的科創項目信息,在此基礎上提煉出對項目決策有輔助作用的知識,已成為當前科創項目信息處理的一個熱點。本文通過對前人在面向半結構化文本信息抽取載體類型、內容和技術方法方面的研究進展進行了梳理和總結,從而為更好地實現以半結構化文本為主的科創項目文本關鍵信息的提取提供思路。
在半結構化文本抽取載體類型研究方面,按半結構化文本資源的表達形式將信息抽取的載體類型劃分為科技文獻和網絡文獻[1]。其中,在科技文獻方面,丁君軍等人[2]對學術期刊中的屬性描述進行了情感信息和數量關系的分析,并對學術概念屬性抽取系統進行設計和實現。劉一寧等人[3]提出了一種學術定義抽取系統,通過使用語法規則和詞頻統計的方法實現信息抽取目的。在網絡文獻方面,Shah等人[4]設計了一種從包含自由文本和語義標記Web中檢索文檔的方法,并發現通過結合索引和語義標記提高檢索效率的目的。Tang等人[5]討論了在ArnetMiner系統中的關鍵問題,針對在學術社會網絡中實現對專家信息的抽取并挖掘。
在半結構化文本抽取內容研究方面,Pollak等人[6]通過使用形態語法、自動術語識別和語義標注技術,提出了針對領域語料中抽取定義候選集的工作流,定義抽取工作能夠被重復使用并可轉化為其他語言類型。Ferneda等人[7]以法律文書為載體,研究了法律定義詞匯特定的規范性規則,利用規模樣本訓練了SVM分類器,并在一個測試語料中對該方法進行了評價。王雪芬等人[8]針對專家信息庫來源單一等問題,結合專家庫中人物屬性的特點,提出了基于社會網絡的專家檢索技術方案。
在半結構化文本抽取技術方法研究方面,Califf [9]提出采用一種模式匹配規則對文本信息進行抽取。Ciravegna等人[10]通過利用LearningPinocchio工具包對規則進行學習,實現了對以簡歷為樣本的半結構化文本信息進行抽取。黎偉健等人[11]采用大數據思維研究了半結構化數據的文本挖掘方法,總結出針對較大規模文本量的分析過程,為海量文本的數據提取方法提供了參考。周法國等人[12]基于內在認知機理的知識發現理論,探討了半結構化信息抽取中的關鍵技術,如機器學習技術、篇章分析與理解技術等,對非結構化信息實體識別、關系識別都有涉及。張博[13]對比各個統計模型后,采用一種優化后的方法對各類半結構化文本的關鍵信息進行抽取,結合領域知識庫對抽取結果進行二次抽取,抽取結構準確性得到了有效提高。
2? 系統功能需求分析
科創項目信息服務系統的數據源主要來自科研院所/創業團隊提供的項目策劃書文本信息,其系統功能需求主要從數據配置管理、項目文本數據采集、項目文本信息提取、項目數據存儲、項目數據服務、系統維護以及用戶管理幾個方面進行分析:
1)數據配置管理??蓪崿F對項目文本關鍵詞字段參數增、刪、改、查及導入導出功能。
2)項目文本數據采集。可實現對圖片和文字性PDF格式的項目文件進行數據采集功能。
3)項目文本信息提取。根據配置字段內容,可實現對項目文本文件關鍵信息進行提取,并能對文本提取后的關鍵信息進行瀏覽、編輯、入庫。
4)項目數據存儲。包括數據庫結構設計和實現,提取信息入庫,數據增、刪、改、查及數據的導入和導出功能。
5)項目數據服務。包括門戶界面、項目檢索、項目策劃書內容詳情查看、項目策劃書關鍵信息提取后的文檔查看、校訂、檢索與對比、批量導出、項目人員權限管理等模塊。
6)系統維護(系統設置)。包括用戶信息、系統日志、軟件升級等。
7)用戶管理。包括超級管理員、用戶、數據維護人員等類型用戶的注冊、登錄、密碼和角色管理。
3? 系統設計
3.1? 系統設計概述
系統采用以瀏覽器和服務器架構模式的B/S架構,用戶通過NGINX代理訪問前端頁面,同時所產生的數據請求交互通過NGINX反向代理后臺業務服務完成對存儲于MySQL、Redis、Minio等永久化數據進行交互。后臺業務服務主要通過Java環境運行,其中項目抽取部分則依賴項目抽取服務,先將PPT和PPT形式的PDF文件轉換為文本信息,在對文本信息進行處理。系統體系架構圖如圖1所示。
3.2? 系統構架設計
系統構架圖如圖2所示,從邏輯結構上系統結構主要分為基礎設施、數據層、應用層和用戶層,其中,基礎設施層主要包括網絡、服務器、存儲、存儲設備等硬件條件是系統運行的基礎保證。數據層是用戶存儲系統的數據,系統數據有多種類型,包括項目數據庫、用戶數據庫、日志數據庫、文件數據庫。其中文件數據庫是用戶存儲項目原始文件。應用層根據系統需求可分為應用層和服務層。服務層介于數據層和業務應用層,為業務應用層提供支持,包括文件解析服務、文本解析服務、自然語言處理服務、關鍵信息抽取服務及關鍵詞邏輯表達式解析服務,從物理結構上將服務層劃分為PDF解析模塊及項目信息抽取模塊;業務應用層是指具體的業務應用系統功能模塊,包括文件上傳、項目管理、項目分享及評價、項目推薦及對比、用戶權限管理、關鍵字段管理、導出報告、版本存檔,該部分從物理結構劃分到業務邏輯后臺。用戶層為用戶提供使用系統的入口,主要通過瀏覽器進行訪問,包括用戶登錄及統一認證服務。
3.3? 主要功能模塊
在上述系統構架設計基礎上,將系統應用層從物理結構上劃分為業務邏輯后臺、文件解析模塊、項目關鍵信息抽取服務模塊,功能模塊組件圖如圖3所示。
3.3.1? 業務邏輯后臺
業務邏輯后臺模塊主要包括文檔上傳、項目管理、項目分享及評價、項目推薦及對比、用戶權限管理、關鍵字段管理、導出報告、版本存檔等子模塊,各個子模塊之間相對獨立。
業務邏輯后臺基于Java語言進行開發,主要使用Spring Boot框架,搭配使用MyBatis Plus、Spring Data Redis框架對數據庫進行操作。其中文檔上傳中的各文檔數據主要存儲在Minio文件存儲系統中。
3.3.2? 文檔解析模塊
文檔解析模塊基于Python語言進行開發,主要基于PDFPlumber提供對PPT形式的PDF進行解析??刹檎襊DF文本字符、矩陣、行的詳細信息。該模塊主要提供對PPT形式的PDF進行解析的API接口,將PDF中的文本解析提取進行返回,以便后續關鍵信息抽取模塊的使用。
3.3.3? 項目關鍵信息抽取模塊
項目關鍵信息抽取模塊主要包括對文件的文本解析、對解析后的文本進行分詞處理、對預定義的關鍵字段及自定義的關鍵詞邏輯表達式的關鍵字段信息進行抽取。
抽取模塊主要采用NLP及其基礎處理(分詞、詞性標記、命名實體識別)、文本分類(深度神經網絡;簡單關鍵字規則)、基于語義特征的文本抽?。ㄕZ法、詞性、命名識體識別結果)、基于規則的文本檢索(雙向關鍵字復合搜索算法)。
抽取過程中,首先對文本進行預處理包括分句、大小寫轉換,符號統一等,最終獲取句子級別的文本。通過BERT-LSTM-CRF多任務自然語義處理(NLP)基礎模型對句子進行分詞、詞性標記、命名實體識別。其次,通過設計觸發詞,基于詞性標記、命名實體識別結果,并輔助以距離約束設計抽取模型分析句子中不同分詞之間的潛在聯系,對目標關鍵字進行抽取,獲取詞級別和句子級別結果。同時,為滿足不同關鍵字搜索需求,借助基于雙向關鍵字復合搜索算法、文本分類算法,識別特定目標關鍵字的句子級別結果。隨后,基于文本分類對頁面標題進行頁面類型檢測,對頁面內抽取結果進行約束過濾,并對部分缺失字段結果使用頁面級別結果進行填充。最后,進行抽取結果去重、清洗。
3.4? 用戶界面設計
3.4.1? 項目管理頁面設計
圖4為項目管理列表頁,表單中包括項目名稱、創建人、創建時間及加入對比/詳情/分享/刪除操作。通過頁面快速查找項目,并在頁面中提供上傳項目文件入口,支持對項目的導出、分享及對比,為查看項目詳情提供入口。
3.4.2? 項目關鍵字段管理頁面
通過導航【關鍵字段管理】菜單,可以進入關鍵字段管理頁面,如圖5所示,可通過輸入關鍵字段名稱中的關鍵字對關鍵字段進行檢索,并可通過選擇關鍵字段類別進行過濾。
3.4.3? 項目詳情頁面
圖6為項目詳情頁,包括項目文件解析后的文本及抽取后的內容,可對項目進行詳細操作,包括項目抽取后結果導出word版本文件、項目對比操作等,具體如圖7和圖8所示。
3.4.4? 日志管理頁面
圖9為日志管理系統頁面,統計報表為每日上傳或解析項目文件數量的統計,包括賬號、操作類型、操作對象、操作時間、操作狀態。
4? 結? 論
本文根據項目策劃書的文本特點,對信息抽取系統設計需求進行了簡要分析,以基礎設置、數據層、應用層和用戶層四層邏輯構架為基礎,設計了以業務邏輯后臺、文件解析模塊、項目關鍵信息抽取服務三大功能模塊的科創項目信息抽取系統。該系統有效解決了傳統依靠外部行業專家或通過密集的人力、且效率低且效果不可靠的做法。通過對項目文檔中關鍵詞信息抓取、整理、關聯挖掘出有效信息,并以可視化的方式直觀展示,大幅提高科技成果和企業需求匹配效率。
參考文獻:
[1] 丁玉飛,王曰芬,劉衛江.面向半結構化文本的知識抽取研究 [J].情報理論與實踐,2015,38(3):101-106.
[2] 丁君軍,鄭彥寧,化柏林.基于規則的學術概念屬性抽取 [J].情報理論與實踐,2011,34(12):10-14+33.
[3] 劉一寧,鄭彥寧,化柏林.學術定義抽取系統實現及實驗分析 [J].情報理論與實踐,2011,34(12):15-19.
[4] SHAH U,FININ T,JOSHI A,et al. Information Retrieval on the Semantic web [C]//Proceedings of the Eleventh International Conference on Information and Knowledge Management,2002:461-468.https://dl.acm.org/doi/10.1145/584792.584868.
[5] TANG J,ZHANG J,YAO L M,et al. Arne Miner: Extraction and Mining of Academic Social Networks [C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD),2008:990-998.https://dl.acm.org/doi/10.1145/1401890.1402008.
[6] POLLAK S,VAVPETIC A,LAVRAC N,et al. NLP Workflow for On-line Definition Extraction from English and Slovene Text Corpora [EB/OL].[2023-08-06].http://www.oegai.at/konvens2012/proceedings/10_pollak12o/10_pollak12o.pdf.
[7] FERNEDA E,DOPRADO H A,BATISTA A H,et al. Extracting definitions from Brazilian legal texts [C]//International Conference on Computational Science and Its Applications,2012(4):631-646.
[8] 王雪芬,王曰芬.專家庫中的專家檢索技術研究 [J].情報理論與實踐,2011,34(2):96-99.
[9] CALIFF M E. Relational Learning Techniques for Natural Language Information Extraction [C]//Relational learning techniques for natural language information extraction.ACM Digital Library:The University of Texas at Austin,1997:1-200.
[10] CIRAVEGNA F,LAVELLI A. Learning Pinocchio: Adaptive Information Extraction for Real world Applications [J].Natural Language Engineering,2004,10(2):145-165.
[11] 黎偉健,胡斌,李威,等.大數據視角下的非結構化文本挖掘分析方法 [J].新媒體研究,2021,7(8):8-10+52.
[12] 周法國,王映龍,楊炳儒,等.非結構化信息抽取關鍵技術研究探討 [J].計算機工程與應用,2009,45(14)1-6+21.
[13] 張博.基于領域知識庫的簡歷信息抽取系統的設計與實現 [D].北京:北京郵電大學,2018.
作者簡介:柏斌(1990—),男,漢族,湖南永州人,項目總監,研究方向:信息系統軟件開發與應用。