999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Trie樹(shù)的關(guān)鍵詞匹配算法在電子政務(wù)領(lǐng)域的應(yīng)用

2019-12-05 08:35:54陳有偉康磊
關(guān)鍵詞:信息模型

陳有偉 康磊

摘 要:傳統(tǒng)的行政管理方式隨著互聯(lián)網(wǎng)的高速發(fā)展,其效率低下的弊端已經(jīng)逐漸顯露。各級(jí)部門(mén)在依托互聯(lián)網(wǎng)快速發(fā)展的基礎(chǔ)上積極引進(jìn)現(xiàn)代互聯(lián)網(wǎng)技術(shù),結(jié)合現(xiàn)有行政管理的基本方式形成了符合當(dāng)代環(huán)境的電子政務(wù)行政管理方式。民生訴求是電子政務(wù)的一個(gè)重要組成部分,保障和妥善解決民生問(wèn)題是職能部門(mén)的重要職責(zé),是反映其辦事效率的一個(gè)窗口。然而由于民生訴求涉及到的投訴信息范圍廣、數(shù)量多、情況錯(cuò)綜復(fù)雜,這給職能部門(mén)快速處理民生訴求帶來(lái)了挑戰(zhàn)。本文通過(guò)在電子政務(wù)系統(tǒng)中引入基于Trie樹(shù)的關(guān)鍵詞匹配算法,對(duì)市民提交的信息進(jìn)行分析、匹配,從而快速分派到相應(yīng)部門(mén)處理、極大地提升了各部門(mén)處理事務(wù)的效率。

關(guān)鍵詞: 電子政務(wù);Trie樹(shù);模糊匹配;關(guān)鍵詞匹配

【Abstract】 With the rapid development of the Internet, the dilemma of the low efficiency of traditional administrative management methods has gradually emerged. On the basis of the rapid development of the Internet, departments at all levels actively introduce modern Internet technologies, and in combination with the basic methods of government administration, form an e-government administrative approach that conforms to the contemporary environment. People's livelihood appeal is an important part of e-government. Safeguarding and properly solving people's livelihood issues is an important duty of the department and a window reflecting the efficiency of department affairs. However, due to the wide range of complaints and the large number of complaints involved in the people's livelihood appeals, this has brought challenges to the department's rapid handling of people's livelihood demands. This paper introduces Trie tree based on keyword matching algorithm in the e-government system to analyze the information submitted by the citizens, and then quickly dispatch them to the corresponding departments for processing, which greatly increases the efficiency of the department's handling of affairs.

【Key words】 ?e-government; Trie tree; fuzzy matching; keyword matching

1 國(guó)內(nèi)外研究現(xiàn)狀

隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,民眾的訴求呈現(xiàn)出多樣化的趨勢(shì),涵蓋著從醫(yī)療、就業(yè)、教育等大的方面,直至尋物、家政等小的方面在內(nèi)的眾多議題觀(guān)點(diǎn)[1]。研究可知,信息匹配技術(shù)在電子政務(wù)系統(tǒng)中是處理民生訴求的一項(xiàng)核心技術(shù)。如今,信息匹配技術(shù)在世界各國(guó)都取得了長(zhǎng)足進(jìn)步,依靠國(guó)家力量的支持,以信息匹配技術(shù)為核心的應(yīng)用系統(tǒng)也得以廣泛的發(fā)展[2]。斯坦福大學(xué)的特克和郝克特開(kāi)發(fā)了一種基于內(nèi)容的關(guān)鍵詞匹配系統(tǒng)SIFT(Standford Information Filtering T001) [3]。用戶(hù)憑借這個(gè)系統(tǒng),能夠單獨(dú)創(chuàng)建屬于自己的詞匯庫(kù),并通過(guò)使用相關(guān)關(guān)鍵字和空間模型來(lái)完成用戶(hù)的訴求和網(wǎng)絡(luò)信息內(nèi)容間的相互匹配。美國(guó)國(guó)家安全局為了應(yīng)對(duì)恐怖活動(dòng)、軍事威脅,建設(shè)了“Echelon”通信監(jiān)視網(wǎng)絡(luò)[4],可以通過(guò)衛(wèi)星攔截大量包含個(gè)人信息的傳真、電話(huà)和電子郵件等,Echelon也是一個(gè)通過(guò)關(guān)鍵字匹配來(lái)獲取通信的電子通信系統(tǒng)[5-6]。在英國(guó),一個(gè)專(zhuān)門(mén)收集情報(bào)機(jī)構(gòu)“英國(guó)政府技術(shù)援助中心”,在英國(guó)政府的主導(dǎo)下也隨之成立,這個(gè)援助中心可以獲取進(jìn)出英國(guó)網(wǎng)絡(luò)的所有信息[7]。

在國(guó)內(nèi),由于信息匹配技術(shù)和文本處理技術(shù)革新的相繼問(wèn)世,相關(guān)科研機(jī)構(gòu)、高等院校以及公司,也設(shè)計(jì)了大量結(jié)合系統(tǒng)化技術(shù)的優(yōu)秀產(chǎn)品[8]。例如中科天鞏公司與中國(guó)科學(xué)院聯(lián)合設(shè)計(jì)研發(fā)的“天機(jī)網(wǎng)絡(luò)網(wǎng)頁(yè)關(guān)鍵字監(jiān)測(cè)系統(tǒng)”[9]。2009年1月國(guó)內(nèi)首個(gè)網(wǎng)絡(luò)關(guān)鍵字安全研究機(jī)構(gòu)在北京交通大學(xué)成立,如今該機(jī)構(gòu)正在全方位地推進(jìn)網(wǎng)絡(luò)關(guān)鍵字的產(chǎn)生、傳播和導(dǎo)控等方向的研究以及網(wǎng)絡(luò)輿論安全關(guān)鍵技術(shù)的研發(fā)[10]。北京大學(xué)方正技術(shù)研究院設(shè)計(jì)推出了“方正智思網(wǎng)頁(yè)關(guān)鍵字預(yù)警輔助決策支持系統(tǒng)” [11],該系統(tǒng)依靠對(duì)網(wǎng)頁(yè)中的離線(xiàn)數(shù)據(jù)的自動(dòng)解析和預(yù)報(bào),合理分析并規(guī)劃網(wǎng)頁(yè)關(guān)鍵字的監(jiān)控內(nèi)容,產(chǎn)生了一種具有生命周期特征的社情民意反饋系統(tǒng) [2]。

隨著國(guó)內(nèi)外對(duì)于網(wǎng)絡(luò)信息關(guān)鍵字的分析技術(shù)逐步成熟,關(guān)于信息匹配的軟件產(chǎn)品得到了大量推廣,國(guó)內(nèi)電子政務(wù)領(lǐng)域的處理流程得到了部分改善。但是在處理專(zhuān)用信息上,關(guān)鍵詞匹配技術(shù)還不夠完善。特別是,對(duì)于市民提交的民生訴求信息的識(shí)別技術(shù)也仍表現(xiàn)出一定不足,難以滿(mǎn)足智能化的要求,其準(zhǔn)確率和時(shí)效性也有待提高,存在許多問(wèn)題亟待解決。

2 基于關(guān)鍵字的布爾模型匹配算法

布爾模型因?yàn)閷?shí)現(xiàn)方式簡(jiǎn)單、匹配速度快、檢索方式易于用戶(hù)理解[12]等特點(diǎn),在諸多領(lǐng)域得到了應(yīng)用,成為了網(wǎng)站搜索引擎使用的首選方案。布爾模型是結(jié)合集合論和布爾代數(shù)思想的簡(jiǎn)單數(shù)學(xué)模型,這種模型把文本信息中的關(guān)鍵詞從文本信息中提取出來(lái),作為文本的特征值[13]。匹配過(guò)程也很簡(jiǎn)單,把匹配詞用“與”、“或”、“非”進(jìn)行連接就可以組成相應(yīng)的正則表達(dá)式,而后利用正則表達(dá)式與模型關(guān)鍵詞進(jìn)行對(duì)比得出匹配到的內(nèi)容是否存在于該文檔中。

設(shè)文檔di(i=1,2,3,…,n)為文本集D=(d1,d2,…,dn)中任意一個(gè)文檔,Ti=(t1,t2,…,tm)為文檔di標(biāo)引詞集,對(duì)于某檢索,形如Q=W1∧W2∧…∧Wn,如果存在W1∈Ti,W2∈Ti,Wi∈Ti,則稱(chēng)文檔di存在于檢索結(jié)果當(dāng)中,這里di為命中文檔,反之di為不命中文檔;對(duì)于檢索形式為Q=W1∨W2∨…∨Wn的檢索式,如若存在一個(gè)或多個(gè)Wk∈Ti,(k=1,2,…,n),則di為命中文檔,反之若不存在滿(mǎn)足條件的Wk∈Ti,(k=1,2,…,n),則di為不命中文檔[14]。

布爾模型的優(yōu)勢(shì)表現(xiàn)在其匹配速度快、實(shí)現(xiàn)方式簡(jiǎn)單等方面,但是這種模型的不足也十分明顯。對(duì)此可做闡釋分析如下。

(1)布爾模型對(duì)滿(mǎn)足其前提條件的文檔進(jìn)行匹配時(shí)容易造成遺漏。由于布爾模型擁有嚴(yán)格的匹配規(guī)則,關(guān)鍵字的選取如果稍有偏差就有可能會(huì)被過(guò)濾,例如當(dāng)使用“與”作為連接詞進(jìn)行匹配時(shí),系統(tǒng)匹配僅僅只命中與匹配詞一致的文檔,但是那些和匹配詞不一致、內(nèi)容卻一致的文檔通常會(huì)被遺漏,所以如何選取合適的匹配詞就變得十分困難[15]。

(2)無(wú)法匹配重點(diǎn)結(jié)果。由于布爾模型匹配到的結(jié)果是一個(gè)大致的范圍,對(duì)于數(shù)據(jù)量小的情況比較適用,但是對(duì)于在電子政務(wù)領(lǐng)域逐步增長(zhǎng)的海量數(shù)據(jù)信息,布爾檢索在處理能力上的不足就顯得尤為突出。

(3)容易造成匹配結(jié)果的冗余。

(4)因?yàn)椴紶柶ヅ涞膶?shí)現(xiàn)方式過(guò)于簡(jiǎn)單、往往不能完全反映出想要的結(jié)果。

正是由于民生訴求包含的社會(huì)信息十分復(fù)雜、龐大,為了能快速地處理這些信息,引入了一種高效的數(shù)據(jù)結(jié)構(gòu)—Trie樹(shù)。

3 基于Trie樹(shù)的匹配算法

3.1 Trie樹(shù)

Trie樹(shù)也叫作字典樹(shù),是對(duì)一組詞進(jìn)行結(jié)構(gòu)化處理后的組織 [16]。

其中,字典樹(shù)對(duì)含有相同前綴的詞進(jìn)行壓縮處理,使其所占用的空間得到了極大優(yōu)化。同時(shí)由于將相同公共前綴的詞放在了一起,則使得通過(guò)前綴進(jìn)行匹配也變得十分迅速。研究中構(gòu)建的一顆字典樹(shù)即如圖1所示。

字典樹(shù)通過(guò)從根節(jié)點(diǎn)到子節(jié)點(diǎn)的路徑來(lái)表達(dá)一個(gè)詞,圖1中e,f節(jié)點(diǎn)為一個(gè)詞的最后一個(gè)節(jié)點(diǎn),也就是說(shuō)圖1字典樹(shù)代表的單詞有ade、ad、bd、cbf、cb。字典樹(shù)的根節(jié)點(diǎn)不表示任何字符。字典樹(shù)不僅節(jié)省了存儲(chǔ)空間,同時(shí)為模糊匹配技術(shù)的發(fā)展提供了堅(jiān)實(shí)的基礎(chǔ)。

3.2 構(gòu)造基于中文的Trie樹(shù)

英文Trie 樹(shù)的結(jié)點(diǎn)是由26個(gè)英文字母組成的,所以英文Trie樹(shù)的一個(gè)節(jié)點(diǎn)最多擁有26個(gè)子節(jié)點(diǎn)。但是中文卻不一樣,生活中常用的漢字就高達(dá)7 000多個(gè),如果按照英文Trie樹(shù)的構(gòu)建法則來(lái)構(gòu)建中文Trie樹(shù),將會(huì)極大地降低匹配的效率。因此如何構(gòu)造基于中文的Trie樹(shù)結(jié)構(gòu)就有著至關(guān)重要的研究意義。

比如,在向教育局投訴的信息中,根據(jù)教育局的相關(guān)關(guān)鍵詞構(gòu)建屬于教育局的Trie樹(shù)結(jié)構(gòu),以關(guān)鍵詞“教育局”為例:

首先,基于拆詞的思想,利用正則表達(dá)式將關(guān)鍵詞“教育局”拆分為教、育、局三個(gè)字。

接著,檢查根節(jié)點(diǎn)是否已經(jīng)有字符“教”節(jié)點(diǎn),如果已經(jīng)有這個(gè)節(jié)點(diǎn),依次重復(fù)檢驗(yàn)并添加“育”、“局”兩個(gè)節(jié)點(diǎn)。如果沒(méi)有,則將“教”添加在根加點(diǎn)下。

最后,當(dāng)插入了每個(gè)關(guān)鍵詞時(shí),在其末尾增加一個(gè)標(biāo)志符,使用這個(gè)字符作為此關(guān)鍵詞的結(jié)束標(biāo)志(如圖2中的灰色三角),利用這個(gè)字符來(lái)標(biāo)記查找到了這個(gè)關(guān)鍵詞。

循環(huán)插入所有關(guān)鍵詞。構(gòu)造出的中文Trie樹(shù)如圖2所示。

3.3 利用中文Trie樹(shù)解決中文匹配

以一則民生投訴為例:“我是X中初四學(xué)生家長(zhǎng),聽(tīng)孩子說(shuō)上體育課跑操時(shí)老師大聲罵學(xué)生,有時(shí)還用腳踢學(xué)生,學(xué)生真害怕,3、4班的。請(qǐng)求幫助。”利用圖2已經(jīng)構(gòu)造好的中文Trie樹(shù)來(lái)開(kāi)始匹配。

首先,將投訴內(nèi)容利用正則表達(dá)式拆成單個(gè)字符“我”、“是”、…;從根節(jié)點(diǎn)處查找第一個(gè)字符“我”,并沒(méi)有查找到以“我”為首字符的關(guān)鍵詞,然后繼續(xù)移動(dòng)字符指針,直到查找到符合條件的字符節(jié)點(diǎn)“學(xué)”;接著在“學(xué)”這個(gè)字符節(jié)點(diǎn)下查找字符節(jié)點(diǎn)值為“生”的節(jié)點(diǎn),成功找到時(shí)計(jì)算子樹(shù)的深度為2,關(guān)鍵詞的長(zhǎng)度是2,此時(shí)字符指針繼續(xù)移動(dòng),如果發(fā)現(xiàn)結(jié)束標(biāo)志,就意味著匹配成功,將匹配到的關(guān)鍵詞返回,如果未碰到結(jié)束標(biāo)志則繼續(xù)向后移動(dòng)指針結(jié)點(diǎn)尋找下一個(gè)字符。

循環(huán)遍歷完畢,返回所有匹配到的關(guān)鍵詞。

3.4 Trie樹(shù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)

Trie樹(shù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)采用PHP語(yǔ)言,結(jié)合了PHP數(shù)組的hash特性,代碼如下:

Private $root = array(

‘depth=>$depth,

// 深度,用來(lái)判斷命中的字?jǐn)?shù)

‘next=> array(

$val =>$node, // 使用PHP數(shù)組的hash結(jié)構(gòu),增加子節(jié)點(diǎn)的查找速率

4 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)環(huán)境為MacBook Pro(Retina,15-inch,Mid 2015),處理器為2.2 GHz Intel Core i7,內(nèi)存16 GB 1600 MHz DDR3,使用PHP語(yǔ)言實(shí)現(xiàn)。實(shí)驗(yàn)中的給定文本內(nèi)容來(lái)源于某市民心網(wǎng)1 000個(gè)市民提交的訴求問(wèn)題。

將1 000個(gè)市民提交的問(wèn)題內(nèi)容分成4個(gè)小組,每組250篇,并計(jì)算其查全率、查準(zhǔn)率以及所耗時(shí)間。基于Trie樹(shù)結(jié)構(gòu)的關(guān)鍵詞匹配結(jié)果,見(jiàn)表1。

基于正則表達(dá)式的關(guān)鍵詞匹配結(jié)果,見(jiàn)表2。

要應(yīng)用在電子政務(wù)領(lǐng)域,至關(guān)重要的就是效率與準(zhǔn)確率。通過(guò)以上實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),與在電子政務(wù)系統(tǒng)中單純使用正則表達(dá)式相比,使用Trie樹(shù)結(jié)構(gòu)處理250條數(shù)據(jù)基本耗時(shí)在1 s左右,并且根據(jù)關(guān)鍵詞匹配到的結(jié)果,將其分發(fā)到命中的部門(mén),準(zhǔn)確率基本都高達(dá)93%以上,明顯改善了處理民生訴求問(wèn)題的效率,符合電子政務(wù)領(lǐng)域的基本要求。

5 結(jié)束語(yǔ)

本文通過(guò)在電子政務(wù)系統(tǒng)中引入Trie樹(shù)這種效率極高的數(shù)據(jù)結(jié)構(gòu)結(jié)合正則表達(dá)式,極大地提高了匹配效率,使得職能部門(mén)在處理民眾訴求時(shí),能夠及時(shí)將民眾反映的相關(guān)問(wèn)題分派到相應(yīng)的部門(mén)去辦理,優(yōu)化部門(mén)辦事效率,提升了民眾對(duì)職能部門(mén)的工作滿(mǎn)意度。

參考文獻(xiàn)

[1]麥范金, 李東普, 岳曉光. 基于雙向匹配法和特征選擇算法的中文分詞技術(shù)研究[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,36(1):47-51.

[2]靳瑞敏. 網(wǎng)頁(yè)關(guān)鍵字過(guò)濾研究及改進(jìn)[D]. 呼和浩特:內(nèi)蒙古大學(xué),2012.

[3]http://zjnustdl.blogdriver.com/zjnustdl//1196699.html.

[4]俞文洋,張連堂,段淑敏. KMP模式匹配算法的研究[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版),2007,22(5):64-66.

[5]HARALICK R M. Statistical and structural approaches to texture[J] . Proceedings of the IEEE, 1979,67(5):786-804.

[6]TAMURA H, MORI S, YAMAWAKI T. Textural features corresponding to visual perception[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1978,8(6):460-473.

[7]CHEN Yixin, WANG J Z, KROVETZ R. Clue:Cluster-based retrieval of images by unsupervised learning[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2005,14(8):1187-1201.

[8]FLECK M, FORSYTH D,BREGLER C. Finding naked people[C]// 1996 European Conference on Computer Vision. Berlin, Germany:Springer-Verlag, 1996,2:592-602.

[9]WU S, MANBER U. A fast algorithm for multi-pattern searching[R].Tucson:University of Arizona, 1994.

[10]SAGE D, NEUMANN F R, HEDIGER F,et al. Automatic tracking of individual particles:Application to the study of chromosome dynamics[J].IEEE Transactions on Image Processing, 2005,14(9):1372-1383.

[11]http://www.ekany.corn/wd998/cg/tutorialapter8/lesson8-6.html.

[12]李靜.基于概念匹配度模型的文獻(xiàn)檢索系統(tǒng)[D].成都:西南交通大學(xué),2009.

[13]段立娟,崔國(guó)勤,高文,等.多層次特定類(lèi)型圖像過(guò)濾方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2002,14(5): 404-409.

[14]范曉,申銥京.基于IE瀏覽器的色情圖片過(guò)濾器「J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2004,22(6): 631-637.

[15]馮軍紅,劉桂林,高立新,等.基于小樣本訓(xùn)練集的膚色模型建立方法「J].計(jì)算機(jī)工程與應(yīng)用,2003(28):67-71.

[16]趙曉暉.基于內(nèi)容的敏感圖片過(guò)濾技術(shù)的研究及其在IE瀏覽器中的實(shí)現(xiàn)[D].長(zhǎng)春:吉林大學(xué),2005.

猜你喜歡
信息模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: a亚洲视频| 欧美乱妇高清无乱码免费| 一本一道波多野结衣av黑人在线| 欧美另类视频一区二区三区| 一级毛片a女人刺激视频免费| 国产青榴视频| 91精品啪在线观看国产60岁| 国产成人无码Av在线播放无广告| 国产成人精品一区二区| 国产极品美女在线播放| 最新精品久久精品| 国产成人综合亚洲网址| 永久成人无码激情视频免费| 色噜噜久久| 欧美黄网在线| 亚洲精品高清视频| 爽爽影院十八禁在线观看| 久久semm亚洲国产| 最新国产午夜精品视频成人| 国产一区二区三区在线观看免费| 毛片一区二区在线看| 国产剧情国内精品原创| 欧美有码在线| 丝袜高跟美脚国产1区| 99国产在线视频| 国产一级片网址| 91精品国产自产91精品资源| 精品国产乱码久久久久久一区二区| 欧美精品一二三区| 人人艹人人爽| 欧美精品影院| 婷婷伊人五月| 国产美女叼嘿视频免费看| 无码国产伊人| 午夜视频免费一区二区在线看| 99久久精品国产综合婷婷| 天堂中文在线资源| 久久香蕉国产线看精品| 99精品国产高清一区二区| 亚洲成av人无码综合在线观看| 欧美一区二区精品久久久| 久草网视频在线| 亚洲欧美一区二区三区蜜芽| 日韩中文精品亚洲第三区| 一级做a爰片久久免费| 成人午夜福利视频| 天堂成人在线| 国产不卡一级毛片视频| 在线精品自拍| 欧美笫一页| 亚洲一道AV无码午夜福利| 欧美日韩福利| 亚洲天堂网2014| 午夜天堂视频| 97av视频在线观看| 青青久在线视频免费观看| 在线欧美一区| 无码福利视频| 国产成人综合亚洲欧美在| 亚洲国产中文精品va在线播放| 亚洲成a人片7777| 亚洲首页国产精品丝袜| 99热这里只有精品2| 91麻豆久久久| 日韩福利视频导航| 青青草国产精品久久久久| 亚洲AV电影不卡在线观看| 依依成人精品无v国产| 71pao成人国产永久免费视频| 国产情精品嫩草影院88av| 九九热这里只有国产精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 精品撒尿视频一区二区三区| 欧美国产精品不卡在线观看 | 亚洲欧美日本国产综合在线| 91在线精品麻豆欧美在线| 亚洲国产成人精品一二区| 国产对白刺激真实精品91| 五月天久久婷婷| 国产无人区一区二区三区| 国产精品久久久免费视频| 99热国产这里只有精品无卡顿" |