999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子政務(wù)中基于詞頻分析法的熱點(diǎn)發(fā)現(xiàn)

2018-03-03 05:51:33吳素研吳江瑞李文波
天津科技 2018年2期
關(guān)鍵詞:建議

吳素研,吳江瑞,李文波

(1. 北京市科學(xué)技術(shù)情報(bào)研究所 北京100044;2. 河南工學(xué)院 河南省新鄉(xiāng)市100044;2. 中國(guó)科學(xué)院軟件研究所 北京100081)

0 引 言

電子政務(wù)是利用現(xiàn)代信息網(wǎng)絡(luò)技術(shù)和其他相關(guān)技術(shù)支持更加適合時(shí)代要求的政府結(jié)構(gòu)和運(yùn)行方式的實(shí)現(xiàn)。推行電子政務(wù),是提高執(zhí)政能力、深化行政管理體制改革的重要措施,是支持各級(jí)黨委、人大、政府、政協(xié)、法院、檢察院履行職能的有效手段。目前,電子政務(wù)在政協(xié)和人大工作中起到很大的作用,基本上完成了代表或者委員的網(wǎng)上履職功能,代表或者委員可以通過互聯(lián)網(wǎng)進(jìn)行提案或者建議的提交,人大和政協(xié)工作人員能夠進(jìn)行建議或者提案的相關(guān)處理。隨著北京市電子政務(wù)工作從數(shù)字北京到智慧北京的轉(zhuǎn)變,根據(jù)多年電子政務(wù)運(yùn)行積累的數(shù)據(jù)和經(jīng)驗(yàn),運(yùn)用自然語言處理、文本挖掘等相關(guān)技術(shù)對(duì)建議或提案進(jìn)行智能分析,如初步確定主題詞和承辦單位、自動(dòng)發(fā)現(xiàn)本屆建議和提案的熱點(diǎn),以及通過分析幾屆建議和提案,找出代表或者委員關(guān)注點(diǎn)的變化等。通過智能分析,可以協(xié)助工作人員對(duì)建議或者提案有更深入的了解和掌握,進(jìn)一步提高辦公效率。

每年為期 6~7天的兩會(huì)期間,代表和委員集中提交建議和提案,需要工作人員每天對(duì)建議和提案進(jìn)行處理,而且要根據(jù)當(dāng)天建議和提案情況寫出統(tǒng)計(jì)分析報(bào)告,其中很重要的一項(xiàng)是代表或者委員今年關(guān)注的熱點(diǎn),得出這個(gè)報(bào)告需要工作人員短時(shí)間內(nèi)查看完所有提案并進(jìn)行統(tǒng)計(jì)分析。人工完成這項(xiàng)工作壓力大,而且容易出錯(cuò)。為此,考慮目前在不擴(kuò)充系統(tǒng)硬件,并且不影響目前服務(wù)運(yùn)行效率的基礎(chǔ)上,設(shè)計(jì)出盡可能少占用系統(tǒng)資源的熱點(diǎn)抽取方法。一般情況下,建議或者提案的題目基本上能代表本建議或者提案的主要內(nèi)容,相對(duì)于上千字的文本內(nèi)容,對(duì)十幾個(gè)字的題目進(jìn)行文本挖掘占有更少的內(nèi)存開銷。因此根據(jù)系統(tǒng)現(xiàn)狀和實(shí)際業(yè)務(wù)的需求,本文提出了基于知識(shí)庫(kù)和詞頻統(tǒng)計(jì)分析的建議或提案熱點(diǎn)抽取方法。

1 詞頻統(tǒng)計(jì)分析方法

詞是文獻(xiàn)中承載概念的最小學(xué)術(shù)單位。詞頻分析法常用于科技文獻(xiàn)分析領(lǐng)域,是利用能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動(dòng)向的文獻(xiàn)計(jì)量方法。如加拿大蒙特利爾大學(xué)的Robert教授等以加拿大國(guó)家研究理事會(huì)確定的79個(gè)納米科技關(guān)鍵詞為依據(jù),采用詞頻分析的方法,分析了全球范圍內(nèi)納米科技論文的產(chǎn)出和分布。

科技文獻(xiàn)是學(xué)術(shù)論文,用語比較規(guī)范,學(xué)術(shù)化,而且一般都有關(guān)鍵詞或者主題詞。但是建議和提案是關(guān)系民生各個(gè)方面的內(nèi)容,涉及范圍廣,目前分析方法采用的是一個(gè)建議或者提案的題目,而不是已經(jīng)分好的關(guān)鍵詞。因此需要進(jìn)行切詞處理,之后進(jìn)行詞頻分析,包括詞出現(xiàn)的數(shù)量和關(guān)系,去除多余的詞。最后根據(jù)詞出現(xiàn)的關(guān)系,形成小的詞團(tuán),最終得出熱點(diǎn)。

2 相關(guān)技術(shù)及難點(diǎn)和解決方案

2.1 分詞

由于提案建議包括教育、民生、法律等社會(huì)多個(gè)方面的內(nèi)容,也包括很多比較生僻的專有方向,例如口述史等。因此利用專門分詞軟件容易遺漏這些偏僻詞,而且也容易把一個(gè)概念分為幾個(gè)詞。如中小企業(yè),分為中小、企業(yè)兩個(gè)詞。雖然很多專門針對(duì)中文分詞的軟件如 IKAnalyzer,都設(shè)計(jì)有詞典庫(kù),可以添加各個(gè)領(lǐng)域的專業(yè)詞,但是詞典維護(hù)需要時(shí)間積累,因此對(duì)初期沒有信息積累的建議和提案系統(tǒng),沒有采用專門分詞軟件,而是采用多元N-gram分詞方式。N取值區(qū)域?yàn)閇2,6]。

由于建議或者提案題目中經(jīng)常包含與熱點(diǎn)沒有太大關(guān)系的詞,而采用N-gram分詞方式且N取值空間為[2,6]會(huì)切出很多詞,占據(jù)內(nèi)存太多,最終計(jì)算量太大,考慮到服務(wù)器性能和效率,因此將常用詞作為停用詞,先從題目中去掉,去完后將題目分成幾個(gè)段,之后對(duì)這些段進(jìn)行分詞。

如“關(guān)于進(jìn)一步完善北京市最低生活保障制度”的提案,去除“關(guān)于、進(jìn)一步、完善、北京市、制度、的提案”后,被分為“最低生活保障”進(jìn)行切詞,最終切詞為:最低/低生/生活/最低生/低生活/最低生活。

此處停用詞和一般做中文處理的停用詞點(diǎn)不太一樣,經(jīng)常使用的停用詞典,一般將數(shù)字和單個(gè)字母都當(dāng)成停用詞去掉,但在此處不行。首先此停用詞用法和別的分詞軟件不一樣,一般分詞軟件將停用詞作為非單獨(dú)的單詞出現(xiàn),本方法停用詞是直接從分詞句子中去掉,其次因?yàn)榻ㄗh或提案的題目都是代表和委員精心設(shè)計(jì)的,不會(huì)出現(xiàn)沒有意義的數(shù)字和字母,將此去掉將會(huì)錯(cuò)過新出現(xiàn)的詞,如 pm2.5等;最后,由于最終目的是熱點(diǎn)分析,因此在其他分詞軟件中認(rèn)為是有意義的詞在此處則沒有用,如北京、首都、提高、完善等。

鑒于此,需要建立建議和提案專門應(yīng)用的停用詞典。一般建立停用詞主要依靠 TF/IDF。詞頻(Term Frequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。以防止它偏向長(zhǎng)的文件,這個(gè)數(shù)字通常會(huì)被歸一化。由于熱點(diǎn)搜索只在建議或者提案題目進(jìn)行,而一個(gè)詞在題目中基本上都只出現(xiàn)一次,因此TF在此沒有實(shí)際的意義,進(jìn)行停用詞發(fā)現(xiàn)不用考察 TF。

逆向文件頻率(Inverse Document Frequency,IDF)是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:

由 IDF定義可知,可以把它作為停用詞的一個(gè)判斷標(biāo)準(zhǔn),一般 IDF高的話很可能就是停用詞,但是IDF究竟為多少時(shí)是停用詞,還需要借助于其他的信息進(jìn)行判斷。

建議和提案因?yàn)楣ぷ餍枰紭?biāo)識(shí)有主題詞。主題詞是一個(gè)三級(jí)的結(jié)構(gòu),一級(jí)大約有 13個(gè),二級(jí)有40個(gè),三級(jí)主題詞大約有380個(gè)左右。下面所得主題詞以三級(jí)為考察對(duì)象。一般熱點(diǎn)問題也跨主題詞,但基本上跨的都比較小,如養(yǎng)老問題,在三級(jí)主題詞為老齡問題、社會(huì)保障、離退休、待遇、社區(qū)、津貼、救濟(jì)、失業(yè)、安置等都有涉及,但是基本上都不超過10個(gè)。而停用詞的主題詞跨度比較大,在一次會(huì)議1,480條提案的題目中有 170條提案中出現(xiàn),而且這些提案的主題詞種類為 110個(gè)。將主題詞映射為自然語言處理中的主題(即類別),則定義主題數(shù)TN(Topic Number):即一個(gè)詞 term 所出現(xiàn)的提案對(duì)應(yīng)的不同主題詞個(gè)數(shù)。將此因素作為考察一個(gè)詞是否為常用詞的一個(gè)因素。

根據(jù)對(duì)已有 11次數(shù)據(jù)、兩萬多條的考察,則將idf>1.5且 TN>10為自動(dòng)發(fā)現(xiàn)常用詞,同時(shí)常用詞還可以人為添加和刪除。

2.2 詞頻統(tǒng)計(jì)

在進(jìn)行去除常用詞和切詞后,可以根據(jù)詞頻進(jìn)行統(tǒng)計(jì),這時(shí)候會(huì)對(duì)整個(gè)題目的 term 根據(jù)詞頻有個(gè)排序。排序后顯示如下(格式為詞及出現(xiàn)的次數(shù)):出租23,租車 21,出租車 21,車難 14,打車 8,打車難 8,世界城3,界城市3,世界城市 3,回龍觀 17,居民 4,出行3,地鐵29。

我們通過考察,直接計(jì)算出來的詞頻有以下幾個(gè)問題:

①可以看出N-gram分詞的弊端,如出租、租車和出租車應(yīng)該分為一個(gè)出租車,但是3-gram分完為出租車,2-gram繼續(xù)分就會(huì)出現(xiàn)出租和租車這兩個(gè)詞。后邊的車難、打車、打車難也存在這個(gè)問題。

②另外一個(gè)問題是出租車和打車難,這個(gè)問題對(duì)于政府來說都?xì)w結(jié)為出租車問題。如有的代表或委員說出租車難打,有的人直接說打車難,其實(shí)意思都是一樣的。一個(gè)問題不同的描述,導(dǎo)致按照詞頻排序統(tǒng)計(jì)熱點(diǎn)時(shí),同一個(gè)熱點(diǎn)分幾部分統(tǒng)計(jì),導(dǎo)致熱點(diǎn)分散或者本來是熱點(diǎn)的詞統(tǒng)計(jì)不出來。

③還有一個(gè)重要的問題是,詞以獨(dú)立的個(gè)體存在,很難看出詞與詞之間的聯(lián)系,但實(shí)際上是詞聯(lián)系起來組成題目,詞之間是有關(guān)連的,如回龍觀出現(xiàn)了17次,那么大家可能更想了解,17個(gè)回龍觀的問題都是什么問題,是零散的,還是集中的問題。

針對(duì)以上3個(gè)問題,提出了如下解決方案:

問題①對(duì)于世界城/界城市/世界城市類似的詞,因?yàn)榻绯鞘泻褪澜绯菦]有特別的含義,基本上和世界城市出現(xiàn)次數(shù)是一樣的,因此可以利用它們的出現(xiàn)次數(shù)進(jìn)行考察,如果相近,則去除長(zhǎng)度短的詞,留下長(zhǎng)度長(zhǎng)的詞。具體算法如下:

C是一個(gè)常量,根據(jù)經(jīng)驗(yàn)取0.9;t ermi(n?k)意思是長(zhǎng)度為n?k的詞;∈符號(hào)的意思是左邊的詞包含在右邊的詞中;T F(termi(n-k))表示詞 termi(n-k)在文檔集中出現(xiàn)的次數(shù)。

經(jīng)實(shí)際運(yùn)行證明,這種算法可以很好地把類似世界城/界城市這樣的詞去掉,而且還能夠保留城市這樣的詞。因?yàn)槭澜绯鞘性陬}目中出現(xiàn)的次數(shù)和城市比相差較大,畢竟城市也可能指北京,不只是世界城市。

問題②的解決需要建立知識(shí)庫(kù),目前階段采用手工建立,憑借多年積累的對(duì)建議和提案的理解,人工總結(jié)其中的知識(shí)存入知識(shí)庫(kù)。目前,存入的主要是詞匯間的關(guān)系,主要有同義關(guān)系和同類關(guān)系。同義關(guān)系是指同義詞之間有完全的相等性,可以用其中的詞代替另外一個(gè)。如地鐵、城鐵和城市軌道,首都和北京,交通擁堵和交通堵塞。同類的關(guān)系是指針對(duì)建議和提案,同類詞說的是一樣的問題,但不能用其中一個(gè)詞完全代替另外一個(gè),如出租車和打的,中小學(xué)、中小學(xué)生、初中生、高中生等。同義關(guān)系在處理中直接取詞頻最高的代替其他詞。同類關(guān)系處理中不代替,但是在結(jié)果排序中(正常按照詞頻排序)將其排在詞頻出現(xiàn)最高的詞后邊,形成詞匯聚類。

問題③比較復(fù)雜,但也是最有實(shí)際價(jià)值的問題。多個(gè)詞語羅列出來讓人們很難發(fā)現(xiàn)其中的關(guān)聯(lián),失去很多有價(jià)值的信息。解決這個(gè)問題我們借助于知識(shí)圖譜(Mapping Knowledge Domain)的理論,它在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。該理論后來在Google搜索中應(yīng)用,大大提升了Google的搜索效果,主要針對(duì)搜索的改進(jìn)是:找到最想要的信息;提供最全面的摘要。有了Knowledge Graph,Google可以更好地理解用戶搜索信息,并總結(jié)出與搜索話題相關(guān)的內(nèi)容。例如,當(dāng)用戶搜索“瑪麗·居里”時(shí),不僅可看到居里夫人的生平信息,還能獲得關(guān)于其教育背景和科學(xué)發(fā)現(xiàn)方面的詳細(xì)介紹,讓搜索更有深度和廣度。

知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)。其結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語義關(guān)系。我們借鑒知識(shí)圖譜的理論,提出詞匯關(guān)系圖譜的概念。將節(jié)點(diǎn)代表詞匯、節(jié)點(diǎn)之間由無向線段鏈接,其上的數(shù)值表示兩個(gè)詞共同出現(xiàn)在一條建議或者提案中的次數(shù)整個(gè)圖形成無向圖。我們將以一屆數(shù)據(jù)中17條包含回龍觀提案的一部分進(jìn)行展示如下:

圖1 回龍觀提案的一部分Fig.1 Part of the Huilongguan Proposal

圖1中圓球代表節(jié)點(diǎn)即詞匯,記錄一個(gè)詞語和它出現(xiàn)的次數(shù);同顏色的球代表出現(xiàn)次數(shù)一樣,并按照次數(shù)高低進(jìn)行距離中心點(diǎn)不同距離的排列。從這張圖中,我們很容易看出17條回龍觀的提案都是圍繞什么問題的。

圖中形成閉環(huán)的部分說明閉環(huán)節(jié)點(diǎn)所代表的詞在一條建議或者提案中出現(xiàn)。例如,設(shè)施/閱覽室/圖書館。看一個(gè)詞所連的詞,說明了它的相關(guān)問題。這樣能讓單個(gè)詞匯語義聯(lián)系起來,給人更豐富的信息,更直觀呈現(xiàn)詞匯之間的聯(lián)系。

3 進(jìn)一步工作設(shè)想

目前,因?yàn)榉?wù)器硬件條件的限制,熱點(diǎn)抽取信息源僅來自于建議、提案的題目,雖然題目包含了提案核心思想,但是內(nèi)容則含有更加豐富的語義和語用信息,利用內(nèi)容進(jìn)行計(jì)算機(jī)智能分析將會(huì)更加準(zhǔn)確。其次,知識(shí)庫(kù)太過簡(jiǎn)單,僅限于同義和同類,還應(yīng)該定義更多的關(guān)系,隸屬等,應(yīng)能從知識(shí)庫(kù)中推算出概念是什么性質(zhì),如是地點(diǎn)還是人,能推出概念聯(lián)系起來組成的語義關(guān)系。另外,知識(shí)庫(kù)是手工建立,之后還要研究自動(dòng)建立。在切詞和搜索熱點(diǎn)方面可以加入更高級(jí)的自然語言處理方法,使得熱點(diǎn)更加確切,關(guān)聯(lián)關(guān)系更加清晰。■

[1]鞏永強(qiáng),劉莉. 基于詞頻分析法的情報(bào)學(xué)研究熱點(diǎn)透析[J]. 圖書館學(xué)研究,2011(7):9-13.

[2]夏立新,程秀峰,桂思思. 基于電子政務(wù)平臺(tái)查詢關(guān)鍵詞共現(xiàn)多維可視化聚類分析研究[J]. 情報(bào)學(xué)報(bào),2012,31(4):352-361.

[3]吳小莉. 基于科技文獻(xiàn)的科技熱點(diǎn)監(jiān)測(cè)方法研究與應(yīng)用[D]. 北京:中國(guó)科學(xué)技術(shù)信息研究所,2007.

[4]劉劍蘭,朱東華. 信息抽取技術(shù)在情報(bào)監(jiān)測(cè)中的應(yīng)用[J]. 情報(bào)學(xué)報(bào),2004(23):103-107.

[5]邱均,平呂紅. 基于知識(shí)圖譜的國(guó)內(nèi)知識(shí)管理發(fā)展研究[J]. 情報(bào)學(xué)報(bào),2013,32(5):548-560.

猜你喜歡
建議
接受建議,同時(shí)也堅(jiān)持自己
好建議是用腳走出來的
我的學(xué)習(xí)建議
高考二輪復(fù)習(xí)的幾點(diǎn)建議
建議答復(fù)應(yīng)該
浙江人大(2014年4期)2014-03-20 16:20:16
“有聯(lián)大家改”第十二期聯(lián)作修改建議選登
保暖的建議
幾點(diǎn)建議
建議等
主站蜘蛛池模板: av尤物免费在线观看| 亚洲色中色| 一级爱做片免费观看久久| 第一区免费在线观看| 成人久久18免费网站| 久久精品91麻豆| 青青草欧美| 欧美激情综合一区二区| 国产在线观看第二页| 国产在线一区二区视频| 一级全黄毛片| 色悠久久久| 992tv国产人成在线观看| 免费毛片全部不收费的| 亚洲第一综合天堂另类专| 久久亚洲日本不卡一区二区| 无码内射在线| 日本人妻丰满熟妇区| 日韩精品亚洲精品第一页| 色天天综合| 国产视频一区二区在线观看 | 天天综合网色| 久操线在视频在线观看| 成年人国产网站| 手机成人午夜在线视频| 日日拍夜夜操| 国产va欧美va在线观看| 国产福利一区二区在线观看| 天天躁日日躁狠狠躁中文字幕| 色视频久久| 高清无码一本到东京热| 国产打屁股免费区网站| 欧美乱妇高清无乱码免费| 亚洲成a人片7777| 天天摸天天操免费播放小视频| 九色视频最新网址| 国产成人永久免费视频| 九九九九热精品视频| 毛片基地美国正在播放亚洲 | 欧美人人干| 亚洲一区无码在线| 无套av在线| 国产一区免费在线观看| 2021天堂在线亚洲精品专区 | 免费无码在线观看| 亚洲首页在线观看| 欧美激情伊人| 国产成人综合亚洲欧洲色就色| 中文字幕av一区二区三区欲色| 久久青青草原亚洲av无码| 国产精品香蕉在线| 狠狠亚洲婷婷综合色香| 久久成人18免费| 色综合综合网| 久久99精品久久久久纯品| 91po国产在线精品免费观看| 日本一区二区三区精品视频| 好久久免费视频高清| 91国内外精品自在线播放| 漂亮人妻被中出中文字幕久久| 免费看美女毛片| 熟女日韩精品2区| 天天操天天噜| 香蕉久人久人青草青草| 高清免费毛片| 亚洲伦理一区二区| 欧美www在线观看| 亚洲天堂成人| 福利小视频在线播放| 91久久偷偷做嫩草影院免费看| 综合色在线| 国产精品久久自在自2021| 思思热在线视频精品| 8090成人午夜精品| 男女男精品视频| 亚洲精品欧美日本中文字幕| 成人福利在线视频| 秋霞午夜国产精品成人片| 久久综合伊人 六十路| 国产亚洲精品97AA片在线播放| 亚洲一级无毛片无码在线免费视频 | 99爱在线|