劉思佳 華南師范大學計算機學院
當今社會經濟迅速發展,多平臺的信息形成爆炸之勢,信息已成為人們生活中必不可少的一部分,而文獻數量也成指數地增長。只有經過信息的篩選和濃縮,才能合理地運用這些信息。摘要在幫助讀者從整體上了解文章的主要內容有著重要的作用,可以幫讀者篩選出原始文章中主要內容的主要語句,從而幫助讀者快速地掌握信息,以便將所需材料進行準確定位。文章內容和篇幅過亂過長,要想摘要能夠精確的總結文章內容,工作量之大可想而知,并且有些文章對摘要的要求很高,結合現在信息爆炸的現狀單純依靠人工來編制,那么遠遠跟不上現在的發展。因此進行自動化摘要的研究就應運而生。
隨著信息樣本的不同,該信息樣本所包含的信息量也是不同的,為了能夠全面地反映信息樣本的所有主題內容,又不產生信息冗余,就要求根據具體信息樣本,動態地確定結果摘要的長度。據此,很多的研究者提出了一種動態確定摘要長度的算法,從具體樣本中循序漸進地抽取出其所包含的所有主題句,這些主題句的集合構成了該信息樣本的主題思想。然后,再根據主題句的數量確定摘要的長度。確定摘要長度的計算量是相當復雜的,為了準確有效的降低計算的維度從而使后續算法的計算量大幅度減少,提出了用互依賴模型提取關鍵詞的方法。關于這種研究方法動態確定摘要的方法沒有成立專門團隊,但有很多人已經投入研究相關算法。與基于內容的自動摘要系統相比較,基于內容和主題詞的自動摘要方法將文章與內容分析相結合的方法可以明顯的提高摘要的質量,摘要的連貫性和流暢性都有良好的提高。
自動摘要中的重要步驟是關鍵詞的提取,為了使關鍵詞提取的更為準確,使工作的計算量相應減少,現在出現了互依賴模型進行工作的預處理,將其N-gram 相結合來循序漸進地確定關鍵詞。
互依賴模型中定義兩個變量χ和η之間的互依賴為:

其中,兩個變量出現的頻率分別用F(χ) 和F(η)表示,F(s)是兩個變量共現的頻率,兩個變量χ 和η 之間互依賴的取值范圍為[0,1/4 ×logL),L 是樣本長度。當將MD模型應用于自動摘要時,所有這些頻率均從需要摘要的文檔中直接獲得。基于以上的模型關鍵詞直接來源于源文檔,不需要字典的支持,這樣更加準確的表達了知識。在模型中的每一篇文檔信息都是有限的,經過處理后的關鍵詞的數量也是有限的,從而最終得到的維數不高。相關參數的確定將依據后續的算法。
當前,文本的自動摘要首先會預先安排摘要長度,在限定范圍內進行摘要,這樣導致文章內容是零散的,無法形成連貫的篇章體現不了文章的主要意思,甚至不與原文的意思產生背離。現在的技術無法避免這種缺陷,因此很多研究者想到根據摘要的內容進行文章摘要長度的自動確定,期望實現文本不同,自動確定的摘要長度不同且都是有效信息。
輸入:一篇待提取摘要的文檔;n-gram的n值;MD 的上界μ1和下界μ2;投影計數下限值δ;詞頻的上界δ1和下界δ2。
輸出:最終摘要的長度L num;原文中詞語的頻率表W和原文中有意義詞的集合U。
在現在關鍵句提取的方法之中,一般步驟是提取關鍵詞后根據關鍵詞定位文章中的句子,按先后順序把句子組合成一篇文章,內容邏輯順序在這種方法的試用下沒有了參考意義。于是這種方法知識簡單的句子組合,表達的意思往往不通順,因果關系無法體現。針對這個問題,很多研究人員也提出了解決方案,根據詞語與句子的相關度進行解決。相關度又涉及了很多方面,如:詞形相關度、句長相關度、距離相關度。
利用句子和段落的相似度來抽取句子,這種研究很早之前就有人著手進行。通過迭代計算句子間的相似度,然后根據句子間的相似度計算句子所包含的信息量,再從中選取包含信息量最多的一組句子作為文摘。首先將句子進行聚類,假設包含越多句子的類,句子就越重要,然后每個類抽出若干句子作為文摘,通過表示句子的向量間的Cosine值得到句子的相似度計算。以上提及的這些都需要通過句子間的相似度作為參考,所以句子間的相似度要怎么計算成了首先應該解決的問題,而相似度的計算結果也會對最終結果產生重要影響。