高并發漢英信息抽取系統的設計與實現

2019-08-23 05:34:47張少迪艾山·吾買爾鄭炅石剛

現代電子技術 2019年16期

張少迪艾山·吾買爾鄭炅石剛

摘? 要：隨著大數據時代的來臨，如何從海量數據中抽取出最有效的信息成為人們最迫切的需要。為了能夠在大數據的環境下更好更快地進行漢英文本的信息抽取，文中采用Python編程語言，Django+uWSGI+Nginx框架，基于TextRank的圖排序算法實現漢英文本信息抽取系統。該系統包含文本關鍵詞提取，文本關鍵短語提取以及文本摘要提取。測試結果表明，該系統能夠實現大規模數據的高并發穩定調用，在兼顧抽取質量的同時，還能實現超高效率的信息抽取，具有很好的實際應用價值。

關鍵詞：大數據; 高并發; 信息抽取; TextRank; uWSGI; Nginx; Django

中圖分類號： TN912.34?34; TP391? ? ? ? ? ? ? ? ? ?文獻標識碼： A? ? ? ? ? ? ? ? ? 文章編號： 1004?373X（2019）16?0104?04

0? 引? 言

隨著互聯網的飛速發展，大數據時代已經來臨，普通民眾們面對海量的信息，往往只能了解所關注信息中很小的一部分，這樣會讓很多民眾錯失很多感興趣的信息，也會讓很多信息失去其應有的價值。因此，如何使用戶能夠快速地發現自己所需要的信息，減少不必要的時間花費，也讓一些信息能夠順利地被其受眾找到，實現其應有的價值成為了學者們研究的重要課題。然而通過人工提煉文本關鍵詞、關鍵短語、摘要的時間成本消耗過大，人們往往需要通讀整篇文章，并領會大致的意思才能總結和發現足以概括整篇文本的信息，因此信息自動抽取[1]的需求也就變得越發迫切。

漢語和英語作為全世界范圍內使用人數最多的兩種語言，對于信息抽取的需求也相對更加迫切，這也極大地推動了相當一部分人去從事漢語和英語信息抽取相關技術的研究。通過這些年的研究，已經有很多比較成熟的算法被提出，如Taeho Jo提出一種基于KNN的表格關鍵字提取方法[2]，黃小江等人提出基于協同圖排序的對比新聞自動摘要提取方法[3]，何國萬等人提出一種基于領域主題詞表的網頁關鍵詞提取方法[4]，朱澤德等人提出一種基于LDA模型的關鍵詞抽取方法[5]，北京大學的萬小軍等人構建的PKUSUMSUM系統[6]以及CTSUM系統[7]也對文檔摘要提取的發展起到了較大的作用。近年來，隨著深度學習的盛行，基于深度學習的信息抽取方法也逐漸得到了發展，Zhang Yong等人提出一種基于卷積序列的深度關鍵詞生成模型[8]，洪冬梅提出一種基于LSTM的自動文本摘要提取技術[9]，王煒提出一種基于深度學習的自動文摘提取技術[10]。

本文選擇在信息抽取領域中較為成熟和穩定的TextRank算法[11]來作為本系統的核心算法，Django+uWSGI+Nginx作為框架，在面對大規模的數據以及高并發的調用時有著非常出色的表現，不僅速度方面能滿足需要，而且在質量方面也不遜色于其他開源的系統，關鍵詞抽取，關鍵短語抽取，文本摘要抽取的準確率分別達到了0.43，0.43和0.41。

1? 信息抽取系統相關原理

1.1? TextRank

TextRank算法的思想來源于Google的網頁排名算法PageRank。它是一種基于圖模型的排序算法。該算法主要用于關鍵詞抽取、短語抽取、摘要抽取等工作。TextRank算法在進行運算時，首先把文本分割為單詞或句子，然后將這些單詞或句子構建為圖模型，最后利用投票機制來對其進行排序。此外，與LDA[12]，HMM[13]等模型不同的是，TextRank算法只需要單篇文檔就可以實現關鍵詞、短語、摘要的提取，不需要進行訓練，所以相對更加簡潔和高效。TextRank算法的模型可以表示為一個有向有權圖G=（V，E），由點集合V和邊集合E組成，E為V×V的子集。TextRank算法的公式為：

[WS（Vi）=（1-d）+d·Vj∈In（Vi）wjiVk∈Out（Vj）wjkWS（Vj）] （1）

式中：[WS（Vi）]表示點[Vi]的TextRank值;d為阻尼系數，是常置于0～1之間的一個常數，通常取0.85;wji為圖中任意兩個點[Vi]，Vj之間邊的權重;In（[Vi]）為指向點[Vi]的點的集合;Out（[Vi]）則為點[Vi]所指向的點的集合。使用TextRank算法計算圖中各個點的得分時，需要先給圖中的點指定任意的初值，并遞歸計算直至收斂;然后將結果按照倒序排序，選取前N個值作為候選關鍵詞。

1.2? Django+uWSGI+Nginx框架

Django是基于Python的一種Web[14]應用框架，采用經典的MVC[15]框架模式。它最初是源于一個在線的新聞Web站點，于2005年時以開源的形式發布出來，近年來一直得到廣泛的使用。在實際項目中，Django雖然有簡便、快速、APP可插拔等優點，但是在并發性方面表現卻不太良好，所以在較大的項目中通常不單獨使用。

uWSGI是一種實現了WSGI協議、uWSGI協議以及HTTP協議的Web服務器。它具有快速、自我修復以及開發人員和系統管理員友好等優點，由于uWSGI是完全采用C語言編寫的，所以其也具有效率高和性能穩定的特點。Nginx是一個高性能的HTTP和反向代理服務，它有著許多非常優越的特性，不僅能夠作為Web服務器，還能夠作為負載均衡服務器以及郵件代理服務器，無論作為何種服務器，它的性能和速度都能令人滿意，本系統主要用Nginx作為負載均衡服務器。本系統采用Django+uWSGI+Nginx框架。uWSGI可以使服務所支持的并發量更高，而且也更方便管理多線程，可以更好地發揮多核的優勢;此外，還能提升性能，因為uWSGI協議比WSGI協議更有優勢。而Nginx作為反向代理服務可以根據服務器的負載情況，動態地將請求交給不同的Web服務器，從而降低單個服務器的壓力，讓服務的調用更加穩定和高效。

2? 信息抽取系統的設計與實現

2.1? 系統流程

本系統使用經典的服務器?客戶端形式，由客戶端向服務器發送請求，并發送JSON格式的請求數據，服務器接收到客戶端傳遞過來的請求后，獲取并解析JSON格式的數據。之后通過解析出的數據調用客戶端所請求的功能模塊的算法，得到結果后將結果重新封裝成為JSON格式的數據，并通過回調函數將數據返回給客戶端，完成該次客戶端的調用請求。具體的實驗流程見圖1。

文本的內容、語言類型、任務類型、用戶認證ID以及返回的數據類型皆由客戶端封裝為JSON格式發送給服務器端的總接口，具體如表1所示。

2.2? 系統功能

本系統的主要功能設計如下：

1）具有關鍵詞抽取功能，并且可以針對漢英雙語的特點進行不同的處理來實現對其關鍵詞的抽取。此外，抽取關鍵詞的個數可以根據文本信息量的大小自動進行判定抽取關鍵詞的個數。

2）具有關鍵短語抽取功能，可以識別所抽取的關鍵詞在原文中是否相鄰，如相鄰則可組合成為關鍵短語。

3）具有文本摘要抽取功能，可以抽取文本中權重最高的3句話作為文本的摘要，當所抽取文本中的句子小于3句時，默認輸出全文為摘要句。

4）通過uWSGI+Nginx+Django框架可以解決Python多線程調用表現不好的情況，實現高并發的多線程調用。

2.3? 調用示例

輸入的JSON格式的數據為：{ “text”：“會議指出，礦產資源是國民經濟和社會發展的重要物質基礎，也是實現現代化工業建設的重要保障，礦產資源保護與合理開發利用事關現代化建設全局。”， “lang”：“zh?CN”， “task”：“kw”， “key”：“user”，“format”：“JSON”}

返回的JSON格式的數據為：{“code”： 200， “data”： [“實現現代化” “合理開發利用”“礦產資源保護”“現代化建設”“國民經濟”]}，code值為狀態碼，200表示此次請求成功，0為失敗。

3? 實驗結果與分析

為了驗證漢英信息抽取系統的性能，本文設置了多組實驗從系統的準確性、并發性等方面對該系統進行測試。

3.1? 實驗環境

本實驗所使用的主要硬件配置如下：CPU E5?2690 V4@2.60 GHz，內存為500 GB，操作系統使用的是Centos 7.2，編程語言采用Python 3.5.2，接口采用Django+uWSGI+Nginx框架。

3.2? 系統準確性測試

系統的準確性測試方面采用準確率P（Precision）、召回率R（Recall）和F1?score的方式來對系統的關鍵詞抽取、關鍵短語抽取和摘要抽取進行評測。

[P=Correct WordCompute Word] （2）

[R=Correct WordAll Correct Word] （3）

[F1-score=2PRP+R] （4）

式中：Correct Word為該文本中正確的關鍵詞;ComputeWord為該文本中系統提取的所有關鍵詞;AllCorrectWord為人手工標注的所有關鍵詞。測試的文本為人工標注的50篇新聞文本，其中每篇文本手工標注10個關鍵詞以及5個關鍵短語，摘要句的數量根據文本的長度來決定。在50篇文本中共選出500個關鍵詞，250個關鍵短語以及181句文本摘要，使用上述的三個指標對該系統的性能進行測試。此外，采用開源工具HanLP的關鍵詞提取和短語提取以及開源工具BOSON的摘要提取作為BaseLine，與本系統采用的算法進行一系列的對比。實驗結果如表2所示。

從表2可以看出，本系統的三個功能在準確率方面較開源的工具來說也有著一定幅度的提升，關鍵詞提取在召回率方面表現得非常出色。

3.3? 系統并發性測試

由于本系統需要處理大規模的數據，所以對其并發性和處理速度有著較高的要求。從天山網以及騰訊大豫網上面爬取了10 000篇中文語料和5 000篇英文語料來對本系統的速度以及并發性進行測試，中英文本信息抽取速度結果見表3、表4。

根據表3、表4可以發現，使用了Django+uWSGI+Nginx的框架后，一定范圍內多線程調用的速度提升非常明顯，當達到硬件的瓶頸上限之后，速度不再提升，但是系統依然十分穩定，所有的請求能夠成功地返回結果。

4? 結? 語

本文針對漢英文本的信息抽取問題，采用基于圖模型的TextRank算法，針對漢語和英語的不同特點，對文本進行處理，繼而實現了漢英文本信息抽取系統。此外，采用Django+uWSGI+Nginx的框架，在保持高質量的同時，彌補了Django并發能力不足的弱點，實現了高并發的調用系統。由于要同時兼顧性能和速度，所以沒有采用相對復雜的基于語義算法，所以質量方面與目前最為追求質量的算法有所差距。在未來的研究工作中，會對基于語義的算法落地到項目工程方面做進一步的研究。

注：本文通訊作者為艾山·吾買爾。

參考文獻

[1] CHEN Q， JIANG Z R， BIAN J Q. Chinese keyword extraction using semantically weighted network [C]// Proceedings of 6th International Conference on Intelligent Human?Machine Systems and Cybernetics. Hangzhou： IEEE， 2014： 83?86.