摘要:在分析了劃分邏輯段對于信息檢索意義的基礎上,介紹了一種簡單有效的邏輯段劃分算法:邏輯段劃分算法的基本思想,并給出了該算法的實現(xiàn)。試驗表明,該方法能客觀地反映文章的層次結構。
關鍵詞:文本結構;邏輯段劃分算法
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2009)32-9039-02
Division Algorithm Based on Logical Segment of Text Information Retrieval Statistics
WAN Xiao-ming
(Jiangsu Union Technical Institute Wuxi Tourism and Commerce Branch, Wuxi 214001, China)
Abstract: The per analyzes tlle importance of text semantic pagph patition which isplied to infoationsearch field, pmposes a emcient algorithm:Divided into logical segmentsalgorithm, then gives the realization of this method. And exnation shows that the metllod is helpful to partition text semantic paragraph.
Key words: text structure; divided into logical segments algorithm
在Intemet提供的海量信息環(huán)境下,如何提高檢索精度成了信息檢索技術領域研究的一個熱門課題。早在20世紀90年代初期,國外在進行大規(guī)模文本集合檢索試驗時就提出將自動文摘領域的文本結構分析應用于信息檢索領域以提高檢索精度,并對此進行了一系列研究,提出了若干種解決算法。這些算法的目的是對文本進行層次劃分,發(fā)掘文本隱含的語義信息,形成一個個相對獨立的邏輯段以便更加精確地匹配用戶的檢索需求。
進行邏輯段劃分的算法總體上來說分為兩大類:一類是基于語義信息的,需要語義網(wǎng)絡的支持;另一類是基于詞頻統(tǒng)計的,例如基于潛語義索引的文本結構分析和基于向量空問模型的邏輯段劃分等。本文中筆者選擇了邏輯段劃分算法并結合中文語詞切分和預處理進行文本邏輯段的劃分。實踐證明,這種基于統(tǒng)計的文本層次劃分算法容易實現(xiàn),而且能夠在一定程度上有效地提高信息檢索的精度。
1 邏輯段劃分算法的基本思想
文章的結構分為形式結構和語義結構兩部分,文章的形式結構標記是語義劃分的依據(jù)。段是文章結構劃分的核心。文章中的段分為形式段和邏輯段,形式段即是文章中的自然段,而邏輯段是完整地反映同一中心內(nèi)容的自然段的集合。一篇文章可能討論多個主題,而對每一個主題的討論通常集中在文章的一個或幾個連續(xù)的自然段中,那么這幾個自然段必然含有相同的與所述主題相關的詞語;若文章的某一自然段是論述某一主題的開始段落,則此段中必然出現(xiàn)前幾個自然段未出現(xiàn)的新詞,因此可以使用一種基于詞頻統(tǒng)計的方法來自動確定語義邊界,劃分文章的邏輯段。
Church(1993)提出了一種邏輯段劃分的圖形方法,可以用來劃分語義邊界。該方法通過枚舉文章中的詞語和畫出代表詞的重復頻度的點來創(chuàng)建用于發(fā)現(xiàn)語義邊界的點聚圖。例如,如果一個特定的詞出現(xiàn)在文章中位置的x和y,那么這個包含兩個點的集合就構成了一個向量,這個向量和自身的笛卡兒乘積可以用四個點來表示,即在點聚圖上可以畫上(x,x),(x,y),(y,x),(y,y)四個點。在創(chuàng)建這個點聚圖前,可以對文章應用一些過濾方法,例如可以濾去含有較少語義信息的虛詞。當一篇文章中在談論某一主題時,相關自然段中一些詞語會經(jīng)常出現(xiàn),在點聚圖中相應于這些段落中就會出現(xiàn)對稱于對角線軸的正方形區(qū)域。如果文章中有多個語義段存在,那么在點聚圖中就會出現(xiàn)多個這樣的正方形區(qū)域。
點聚圖能夠可視地展現(xiàn)一篇文章的語義邊界,但是圖本身對于語義邊界的劃分并不是必要的。之所以這些沿著對角線軸能形成一些比較明顯的正方形區(qū)域,是因為這些區(qū)域中的點比較稠密。這個事實說明了密度最小的區(qū)域不包括在那些正方形區(qū)域中。一旦這些正方形之外的區(qū)域的密度可以被計算出來,可以通過選擇那些導致在正方形之外出現(xiàn)最小密度值的邊界來劃分邏輯段。可以將每一個自然段作為候選邊界,試著向邊界集合中添加候選邊界,當正方形之外的區(qū)域密度變大時,就說明它們不是一個語義段的L2J。
2 邏輯段劃分算法描述
在給出邏輯段劃分算法描述之前,先對算法中用到的一些概念下定義口。
定義1:文章經(jīng)過分詞后過濾掉沒有實際意義的虛詞和一些對文章意義貢獻不大的實詞,我們把這個過程成為預處理。
定義2:V;表示文章第i個自然段經(jīng)過分詞、預處理后剩下的實詞集合。
定義3:假設文章有m個自然段,則Vjm表示文章從第i個自然段到第m個自然段之間的文本經(jīng)過分詞、預處理后的實詞集合。
定義4:P. 表示文章第i個自然段經(jīng)過分詞預處理后實詞集合的個數(shù)。
定義5:P..表示文章從第i個自然段到第m個自然段之間的文本經(jīng)過分詞預處理后實詞集合的個數(shù)。
定義6:定義V.和Vi..的笛卡兒乘積如下:
V.·Vi+1.m=ΣwiWk(O≤j≤P.-1,O≤k≤Pi+1..-1)
其中,
定義7:假設文章一共有m個自然段,定義第i個自然段的相似度如下:
則劃分文本邏輯段的邏輯段劃分算法描述如下:
輸入:原始文本text
輸出:包含了邏輯段劃分信息的logicPara
處理過程:
1) 首先把原始文本經(jīng)過標識分析后,處理成原始自然段文本集合NatualPara[],假設一共有m個自然段;
2) 對于每一個自然段,經(jīng)過分詞預處理后得到一個包含實詞的二維集合Pre NatualPara [][];
3) 對于每個詞段i,用統(tǒng)計方法計算該詞段同該詞段以后的詞段集合的相似度c;
4) 提取邏輯段邊界:初始化index=-1
① 若i-0,且co ② 若0c,AND co ③ 若i=m-1,且ci>Ci-l,則把NatualPara [i]加入logicPara中,并提取該邏輯段的關鍵詞;否則,把NatualPara [index+1]至NatualPara [i]加入logicPara中,并提取該邏輯段的關鍵詞。 3 試驗結果與小結 1) 邏輯段劃分實例:網(wǎng)絡學校利用因特網(wǎng)技術網(wǎng)絡功能,實施開放性、終身制網(wǎng)絡遠程教育,不僅對傳統(tǒng)教育模式起到了有益的補充作用,這同時也標志著因特網(wǎng)技術在教育領域應用上的深入,標志著我國遠程教育步入了一個新的歷史發(fā)展時期。 網(wǎng)上學校有著傳統(tǒng)教育方式難以匹敵的優(yōu)勢,這種優(yōu)勢主要體現(xiàn)在以下幾個方面。 首先,網(wǎng)絡遠程教育是平等教育。它克服了傳統(tǒng)教育時空上的限制,徹底改變了我國教師資源分布不平衡的局面,使得遠隔萬里的人們可以隨時平等地接受教育。 其次,網(wǎng)絡遠程教育是交互式教育。它能夠發(fā)揮學生的主動性,使學生和教師之間平等、自由地溝通。 第三,網(wǎng)絡遠程教育是多元化教育。不僅提供單純的教育信息進行針對性的在線答疑、實時教學,而且開設了諸如“在線討論”、“網(wǎng)上生活”之類的欄目,它對于進一步提高“網(wǎng)員”的綜合素質(zhì)有積極作用。 第四,網(wǎng)絡遠程教育是多媒體教育,有助于學生加速理解和記憶。全文加上標題一共有8個自然段,每個自然段的相似度值見表1。 根據(jù)邏輯段劃分算法,該文分為三個邏輯段,第一個邏輯段即第一自然段,為標題;第二,第三個自然段構成第二邏輯段,第四、五、六、七、八自然段構成第三邏輯段。總體來說,這個劃分結果和人工劃分結果大致接近。 2) 結語:通過對不同體裁的語料進行邏輯段劃分試驗,筆者發(fā)現(xiàn)對于篇幅較長、蘊含主題多的文章,邏輯段劃分能得到較好的劃分結果;但對于篇幅較短的新聞體裁的語料則效果不明顯,但篇幅短如由兩三個自然段構成的新聞一般都是圍繞著一個主題展開的,就是人工也難以為其劃分邏輯段。另外,分詞的結果以及預處理的質(zhì)量都直接影響到邏輯段的劃分,所以,下一步要做的工作就是進一步提高分詞的精確度,不斷完善預處理過程中所用的停用詞表。 參考文獻: [1] 吳巖.文章意義段劃分的數(shù)學模型[J].哈爾濱工業(yè)大學學報,1998(12):101-104. [2] Jefhey C, Reynar. An aotomatic method of ending toppic boundaries[C].Proceedings of the 15th International Conference on Computational Linguistics,1996. [3] Hideki K. Text segmentation based on similarity between words[C]. In Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, 1993:286-288.