徐濤
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)
校園中文訊息自動(dòng)摘要系統(tǒng)
徐濤
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州516007)
近年來(lái),基于手機(jī)之類移動(dòng)終端的信息傳遞和發(fā)布成為移動(dòng)終端App市場(chǎng)的一類重要應(yīng)用[1-4],人們開始習(xí)慣于在手機(jī)上獲取和閱讀信息。在大學(xué)或中學(xué)校園內(nèi),很多重要文件、新聞等都需要及時(shí)由校方轉(zhuǎn)發(fā)給廣大師生員工,手機(jī)等移動(dòng)通訊工具由于便于隨身攜帶,因此面向移動(dòng)手機(jī)端的訊息轉(zhuǎn)發(fā)顯得尤為必要,雖然現(xiàn)在已經(jīng)出現(xiàn)了諸如“校訊通”之類的校園移動(dòng)通訊軟件,但需要注意的是,這些軟件并不具備自動(dòng)文本摘要功能。手機(jī)之類移動(dòng)設(shè)備的網(wǎng)速和屏幕大小明顯受限,一般情況下不能保留文件和新聞的全文,那些次要、重復(fù)的內(nèi)容只能選擇拋棄。目前很多校園通訊軟件采用人工操作來(lái)實(shí)現(xiàn)重要文件或新聞的內(nèi)容簡(jiǎn)化,這樣做雖然可行,但明顯會(huì)造成額外負(fù)擔(dān),假如面臨大量的重要文件或新聞需要及時(shí)進(jìn)行發(fā)布時(shí),采用手工操作將嚴(yán)重影響發(fā)布進(jìn)度和時(shí)效性,因此采用自動(dòng)文本摘要技術(shù)顯得尤為必要。
近年來(lái)已經(jīng)出現(xiàn)了一些自動(dòng)文本摘要技術(shù),針對(duì)網(wǎng)頁(yè)文檔結(jié)構(gòu)往往組織和結(jié)構(gòu)散亂、包含主題雜亂無(wú)章,網(wǎng)頁(yè)文檔摘要領(lǐng)域出現(xiàn)了一些較新的自動(dòng)摘要技術(shù),具有代表性的在iOS上運(yùn)行的新聞閱讀類應(yīng)用Summly,采用了自然語(yǔ)義算法,生成的摘要可將原文凝練為不足400詞。
本文設(shè)計(jì)了一個(gè)用于大學(xué)或中學(xué)校園使用的中文訊息自動(dòng)文本摘要系統(tǒng),采用自動(dòng)文本分析的方式對(duì)校方需要轉(zhuǎn)發(fā)的重要文件或新聞生成摘要,可以節(jié)約人力成本,并能明顯提高發(fā)布時(shí)效。
整個(gè)系統(tǒng)的平臺(tái)架構(gòu)如圖1所示。重要的文件和新聞先經(jīng)過(guò)采集匯總到服務(wù)器上,服務(wù)器使用文本自動(dòng)摘要技術(shù)快速將新聞文本壓縮成一段較短的精煉后文本摘要(一般控制在300字以下),摘要生成后利用互聯(lián)網(wǎng)發(fā)布到各個(gè)安裝了該應(yīng)用客戶端程序的智能手機(jī)上(包括Android手機(jī)和蘋果的iOS手機(jī)),而移動(dòng)手機(jī)端的應(yīng)用程序App則根據(jù)接收的內(nèi)容,自動(dòng)生成校園訊息列表,用戶可以通過(guò)閱讀壓縮后的文本摘要,萬(wàn)一感興趣,還可以點(diǎn)擊源鏈接去訪問(wèn)原文。
文本的自動(dòng)摘要技術(shù)為本系統(tǒng)中的核心關(guān)鍵技術(shù),重要的文件或新聞都需要按照一系列的處理步驟來(lái)完成文本摘要并轉(zhuǎn)發(fā),包括中文分詞、特征詞的提取和計(jì)算權(quán)重、句子權(quán)重計(jì)算、句子相似度計(jì)算并過(guò)濾和形成最終摘要這樣的步驟進(jìn)行。

圖1 校園中文訊息系統(tǒng)運(yùn)營(yíng)平臺(tái)
2.1中文分詞
分詞處理為提前和生成特征詞序列的必要前提工作,只有通過(guò)有效、準(zhǔn)確的分詞方案,才能夠形成候選特征詞。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。把中文的漢字序列切分成有意義的詞,就是中文分詞。
目前在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,究其原因則是中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎(chǔ),自動(dòng)摘要,搜索引擎等只是中文分詞的一個(gè)應(yīng)用。
為了可以快速有效的進(jìn)行分詞處理,本系統(tǒng)采用了目前較為流行的分詞方案——ICTCLAS,該技術(shù)由中科院計(jì)算所研制,主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別等。
2.2特征詞和句子的權(quán)重計(jì)算
特征詞指的是能夠反映文件或新聞文本主題的詞語(yǔ),目前提出的方法大多通過(guò)計(jì)算文本分詞后的每個(gè)詞的權(quán)重,選取權(quán)重較大的詞語(yǔ)作為特征詞[5-8]。特征詞選取后主要用于在最后選取摘要句時(shí)句子的權(quán)重計(jì)算中用到,用于計(jì)算摘要句子能反映主題的權(quán)重值。
本系統(tǒng)在計(jì)算特征詞的權(quán)重值時(shí)只考慮名詞和動(dòng)詞,原因?yàn)樵谖谋镜脑~語(yǔ)組成結(jié)構(gòu)中主要包括沒(méi)有實(shí)際意義的功能詞和有實(shí)際意義的內(nèi)容詞,而內(nèi)容詞在表達(dá)文章時(shí)起主要作用,主要體現(xiàn)為名詞和動(dòng)詞。為了衡量詞語(yǔ)權(quán)重,本系統(tǒng)采用了TF-IDF算法,該算法為一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),可以判斷某個(gè)字詞在一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
本系統(tǒng)中所生成的摘要為由原文本中最能代表全文主題的句子組成,可簡(jiǎn)稱為主題摘要句,它們通常為權(quán)重最大的前若干個(gè)句子(最能體現(xiàn)主題),根據(jù)這些句子在原文中出現(xiàn)的位置再次排列組成最終的新聞?wù)?/p>
計(jì)算句子的權(quán)重時(shí)除了要考慮它所包含的特征詞(即句子所包含的詞語(yǔ)對(duì)文本影響較大)權(quán)重,還要考慮句子在原文和段落中出現(xiàn)的位置,另外標(biāo)題詞也會(huì)對(duì)句子權(quán)重產(chǎn)生影響。所以影響句子權(quán)重的因素包括:(1)特征詞的加權(quán)平均值;(2)句子包含特征詞的數(shù)量;(3)句子出現(xiàn)的位置權(quán)重比例因子(包含在全文中出現(xiàn)的位置權(quán)重比例因子和在單獨(dú)段落中出現(xiàn)的位置權(quán)重比例因子);(4)特殊標(biāo)記比重比例因子(如句子中含有像“總的來(lái)說(shuō)”、“綜上所述”、“總而言之”這類型指示性詞語(yǔ)的句子);(5)與標(biāo)題出現(xiàn)重合的句子需要增加權(quán)重。
2.3計(jì)算句子相似度并過(guò)濾多余句子
在漢語(yǔ)表達(dá)的文本中,一個(gè)句子的特征基本可以認(rèn)為具有以下三類:詞特征、語(yǔ)義特征、句法特征。在語(yǔ)句相似度計(jì)算時(shí),需要綜合考慮以上的這三類特征,讓它們進(jìn)行有機(jī)的加權(quán)組合和互相補(bǔ)充。
漢語(yǔ)文本的句子可分為核心部分和修飾部分,核心部分可認(rèn)為是那些能夠句子的語(yǔ)義起至關(guān)重要的作用,通常表現(xiàn)為主謂賓結(jié)構(gòu),而修飾部分則表現(xiàn)為次要,通常表現(xiàn)為定狀補(bǔ)結(jié)構(gòu)。由于主謂賓結(jié)構(gòu)中的主語(yǔ)和賓語(yǔ)往往為名詞或代詞,謂語(yǔ)則多為副詞或形容詞,而因此在進(jìn)行句子相似度計(jì)算時(shí),應(yīng)當(dāng)對(duì)句子中出現(xiàn)的各類詞語(yǔ)進(jìn)行詞性標(biāo)注,然后保留關(guān)鍵詞,過(guò)濾掉非關(guān)鍵詞。
本文設(shè)計(jì)了一個(gè)基于自動(dòng)文本摘要技術(shù)的校園訊息發(fā)布系統(tǒng),可以將校方需要轉(zhuǎn)發(fā)的重要文件或新聞采集匯總后,在服務(wù)器端進(jìn)行自動(dòng)文本摘要,然后轉(zhuǎn)發(fā)給安裝有客戶端App的各類型移動(dòng)手機(jī),可以滿足校園學(xué)習(xí)工作生活中的訊息發(fā)布的需要,節(jié)省了人工摘要的成本,有效提高發(fā)布的時(shí)效性。
[1]茆意宏.移動(dòng)信息服務(wù)的內(nèi)涵與模式[J].情報(bào)科學(xué),2012,30(2):210-215.
[2]茆意宏.面向用戶需求的圖書館移動(dòng)信息服務(wù)[J].中國(guó)圖書館學(xué)報(bào),2012,38(1):76-86.
[3]楊超,陳璐.基于手機(jī)短信的訂餐系統(tǒng)設(shè)計(jì)與開發(fā)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):472-476.
[4]劉慧,張軍.基于Internet的移動(dòng)短信互通設(shè)計(jì)方案[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31):5-8.
[5]江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221-223.
[6]馬漢華,邵志清,過(guò)弋.基于認(rèn)知心理學(xué)模型的自動(dòng)文本摘要生成技術(shù)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,35(6):886-891.
[7]余永紅,柏文陽(yáng).基于特征項(xiàng)權(quán)重自動(dòng)分解的文本聚類[J].計(jì)算機(jī)工程,2011,37(11):25-27.
[8]張虹.基于自動(dòng)文本分類的關(guān)鍵詞抽取算法[J].計(jì)算機(jī)工程,2009,35(12):145-147.
Campus Message;Mobile Phone;Text Forwarding;Automatic Text Summarization
A Campus Chinese Message System Based on Automatic Summarization
XU Tao
(Department of Computer Science,Huizhou University,Huizhou 516007)
1007-1423(2015)32-0036-03
10.3969/j.issn.1007-1423.2015.32.009
徐濤(1974-),男,山東淄博人,副教授,博士,研究方向?yàn)橐苿?dòng)互聯(lián)網(wǎng)信息技術(shù)和信息安全技術(shù)
2015-10-13
2015-11-05
隨著移動(dòng)手機(jī)在校園內(nèi)的普及使用,在手機(jī)上閱讀來(lái)自學(xué)校的文件、新聞成為師生們獲取學(xué)校信息的重要來(lái)源。由于學(xué)校的文件和新聞通常包含大量的文本,在手機(jī)端閱讀非常不便,若采用人工摘要明顯會(huì)增加人力成本,并且會(huì)產(chǎn)生延遲,因此有必要采用自動(dòng)摘要技術(shù)對(duì)訊息進(jìn)行加工精煉后轉(zhuǎn)發(fā)到移動(dòng)手機(jī)端。設(shè)計(jì)一個(gè)基于自動(dòng)文本摘要的校園中文訊息系統(tǒng),采用自動(dòng)文本分析的方式對(duì)文件或新聞進(jìn)行加工提煉后生成摘要,然后推送到校園內(nèi)的移動(dòng)手機(jī),在節(jié)約人力的同時(shí),能夠提高文件和新聞發(fā)布的時(shí)效。
校園訊息;移動(dòng)手機(jī);文本轉(zhuǎn)發(fā);自動(dòng)文本摘要
2013年惠州市科技計(jì)劃項(xiàng)目(No.2013W20、No.2013W12)、惠州學(xué)院2014年度教研教改項(xiàng)目(No.JG2014011)、惠州學(xué)院應(yīng)用型人才培養(yǎng)示范專業(yè)(No.SZ2012001)
With popular use of mobile phones at campus,reading files and news from the school on the phone has become an important source of teachers and students to get school information.Because the school's files and news usually contain a lot of text,reading them on the phone side is very inconvenient.Since artificial abstract would significantly increase labor costs and may cause delay,it's necessary to use automatic summarization technology for refining messages.Proposes a campus information system based Chinese automatic text summarization.The abstracts of messages are generated after automatic text analysis,and then pushed to mobile phones on campus.While saving manpower,it can improve the timeliness of the files and news release.