999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于話題集合的中文微博對比話題摘要生成

2017-03-01 04:32:09
計算機應用與軟件 2017年1期
關鍵詞:文本實驗

張 旭

(蘭州理工大學計算機與通信學院 甘肅 蘭州 730050)

基于話題集合的中文微博對比話題摘要生成

張 旭

(蘭州理工大學計算機與通信學院 甘肅 蘭州 730050)

微博作為一種流行的信息交流平臺,已經受到人們的廣泛關注。如今有關微博搜索結果處理的研究也已經成為熱點,其中微博對比話題摘要是一個比較新穎的微博搜索結果處理方法。不同于基于微博消息的對比話題摘要生成算法,基于話題集合的中文微博對比話題摘要生成算法是將話題集合進行對比并生成微博對比話題摘要。實驗數據表明,以話題集合為單位生成對比話題摘要可以改善單條微博消息信息量不足的缺點,提高對比話題摘要的代表性。

微博 話題集合 對比話題摘要

0 引 言

微博,如其字面所表達的意義,是一種微型的博客。它與博客的不同之處主要在于微博消息有140字上限并且可以通過轉發迅速傳播。

微博最早起源于2006年國外推出的推特,而后國內的一些公司也陸續開始提供微博服務,例如新浪微博、騰訊微博等。微博由于其消息內容短小精悍,其消息發布具有一定的隨意性,從而降低了使用門檻,讓微博擁有大量的草根用戶。而微博的轉發功能可以讓一些熱點話題在用戶中快速傳播,并且用戶也可以通過轉發參與到話題的評論中。近幾年,國內的很多熱點話題都是通過微博傳播的,同時民眾也通過微博參與話題評論,例如“國民老公王思聰”、“有錢就是任性”等話題。

但是隨著微博越來越受人們的關注,微博產生的數據量也隨之增加,這就導致了用戶在對微博消息進行關鍵詞搜索時難以有效獲取所需的相關內容。針對這一問題,已經有許多研究提出了一些解決方法,例如對微博搜索結果進行處理以提高用戶體驗,其中包括對搜索結果進行排序、分類、摘要等。其中對微博的搜索結果自動生成摘要是一種很有效的解決方法,通過對搜索結果抽取摘要,使用戶能夠在海量數據中獲取其所需信息。現有的微博摘要方法很多來自于傳統的文本摘要方法,而在文本摘要問題中,對比文本摘要作為文本摘要的一種應用被提出,其目的是為新聞、產品等描述文檔生成具有對比性質的摘要。例如表1是對兩種電腦筆記本品牌的對比摘要。

表1 對比摘要示例

本文提出的基于話題集合的中文微博對比話題摘要生成算法,是對不同關鍵詞的微博搜索結果生成對比性摘要,讓用戶可以快速從搜索結果中獲取所需的對比性信息,提高用戶的搜索體驗。

1 相關研究

1.1 對比文本摘要

在對比文本摘要的提取方法中,最常用的是基于對比性、代表性和差異度的方法。在基于文本代表性和對比性的加權和的文本摘要方法中,Kim等[1]通過句子的相似度得出代表性和對比性;Huang等[2]則選擇計算詞的相似度。文獻[3,4]提出基于兩個原文本的差異度文本摘要方法,不同的是Wang等[3]采用熵來估計差異度,而Lerman等[4]則采用相對熵。然而微博消息的發布具有一定的隨意性,消息內容質量較差,所以僅利用微博的文本特征難以確定其對比性、代表性和差異度。

也有一些研究提出了基于圖的對比摘要模型。Wan等[5]利用中英文句子的相似關系和差異關系為文檔中的句子建圖;黃小江等[6]采用協同圖排序方法;Shen等[7]在圖上尋找最小支配集對應的句子作為對比摘要;Chitra等[8]將網頁表示成超文本標記語言的文檔對象模型樹。在微博對比話題摘要的研究中,利用其轉發關系建圖是一個可行的研究方向。

1.2 推特對比話題摘要

在段亞娟[9]提出的推特對比話題摘要算法中,以微博消息之間的關聯關系建圖后分別利用PageRank與SimRank方法計算每條微博消息的代表性及任意兩條微博消息之間的對比性。關聯關系具體包括四種關系:第一,內容相似關系:兩個關鍵詞搜索結果并集中的兩條微博消息內容的余弦相似度超過閾值。第二,共享標簽關系:并集中的兩條微博消息擁有同一話題標簽。第三,共享鏈接關系:并集中的兩條微博消息分享同一鏈接。第四,轉發關系:屬于不同關鍵詞搜索結果集合的兩條微博消息存在轉發關系。

但是在例如新浪微博等中文微博中,包含話題標簽及網頁鏈接的比例較小,同樣的話題標簽及網頁鏈接在不同關鍵詞搜索結果的消息之間更是很少出現。況且由于轉發與被轉發消息之間大多屬于話題演化關系,而在需要對比的兩個關鍵詞的搜索結果集合中,其各自所包含的話題之間往往不存在演化關系。所以對于中文微博,需要一種新的對比話題摘要生成算法。

2 基于話題集合的中文微博對比話題摘要生成算法

在對比摘要生成問題中,推特對比話題摘要算法采用的方法是以兩個對比對象作為一個對比摘要,計算每個對比摘要的對比性以及所含對比對象的代表性,再根據計算結果進行排序,顯示對比性與代表性較高的對比摘要。

由于一條微博消息一般只討論一個話題,推特對比話題摘要算法是以一條微博消息作為一個對比對象來進行計算并得出對比話題摘要。但是由于單條微博消息所包含的信息質量參差不齊,僅利用關聯關系難以篩選出合適的對比對象。所以在本文提出的中文微博對比話題摘要生成算法中,將數據集劃分為不同的話題集合,將一個話題集合視為一個對比對象。并且一條微博消息與其所在的轉發樹中的微博消息之間為話題關聯關系,所以需要將微博關鍵字搜索結果中的微博消息進行轉發擴充,劃分話題時以轉發擴充后的搜索結果集合作為數據集。轉發擴充的具體方法是:對于所有包含轉發關系的微博消息,將其所在轉發樹中的其余微博消息加入到搜索結果結合中。

綜上所述,本文提出的中文微博對比話題摘要生成算法以轉發擴充后的搜索結果集合作為計算對象,通過計算每個對比話題集合的對比性以及所含話題集合的代表性,并根據計算結果進行排序,最后顯示每個話題集合在劃分話題時所生成的摘要及對比話題摘要。

2.1 劃分話題并生成摘要

對于中文微博話題劃分問題,國內已經存在一些研究成果。其中趙斌等[10]提出的微博話題摘要生成算法(MTS算法)不僅劃分效果良好,而且算法的時間復雜度相對較低。在本文提出的中文微博對比話題摘要生成算法中,對MTS算法進行改進以增強其在對比話題摘要生成問題中的適應性,提高對比話題的劃分效果。

在MTS算法中,首先利用微博的轉發關系生成微博轉發樹;然后計算一個節點中的詞項在后續節點出現的比例是否超過閾值,如果超過閾值則把該詞項加入代表性詞項集合;最后基于節點之間代表性詞項的相似度對微博轉發樹分別進行深度與廣度歸并得到話題樹,話題樹中的每一個節點分別對應一個不同的話題。

但是在微博對比話題摘要生成的話題劃分問題中,主要目的是將微博消息劃分為描述不同屬性的話題。由于代表性詞項在選擇時不區分詞項的詞性,MTS算法不僅將話題描述屬性作為劃分參照,同時也將話題評論的感情色彩變化作為劃分參照。所以在本文提出的算法中,利用分詞系統對代表性詞項進行過濾,只保留含有名詞性質的代表性詞項作為劃分依據。

并且MTS算法對于許多不含轉發關系的微博消息沒有進行有效處理,而在對比話題摘要問題中,這部分消息的作用也是不能忽視的。所以需要計算這部分消息集合的詞頻,篩選出高頻名詞加入到代表性詞項集合中,適當擴展話題集合的描述屬性。

根據上述思想,本文提出中文微博對比話題摘要的算法中,具體話題劃分方法分為以下幾步:

算法1MTS代表詞生成算法

push(Q,root(Gk));

do{

v=pop(Q);

A={vk,i|vk,i∈VRk∧∈Ek};

}

}

push(Q,A);

}while(Q!=?)

(3) 不同于MTS算法,本文提出的算法以劃分不同描述屬性的話題集合為目標,所以需要對兩個代表性詞項集合R1、R2進行篩選,挑選出具有名詞性質的代表性詞項作為一個集合,分別生成RN1、RN2作為轉發樹歸并的依據。具體算法采用ICTALAS分詞系統對詞性進行劃分。

(4) 對于轉發樹Gk(k=1,2),利用以MTS歸并算法為基礎的改進算法進行歸并。首先進行深度歸并,與MTS算法主要的不同之處是歸并時的相似度計算以名詞性質的代表性詞項為基礎,具體算法如下:

算法2 深度歸并算法

push(Q,root(Gk));

do{

v=pop(Q);

A={vk,i|∈Ek};

forvk,i∈A{

R(v)=R(v)∩R(vk,i);

A=A∪{vk,j|∈Ek};

A=A-{vk,i};

}

}

push(Q,A);

}while(Q!=?)

算法3 廣度歸并算法

Sk=?;

do{

v=pop(Q);

A={vk,i|∈Ek};

S={sk,i={vk,i}|vk,i∈A};

forsk,i∈S{

R(sk,i)=R({vk,i|vk,i∈sk,i});

}

do{

if(max{φ(sk,i,sk,j)|sk,i,sk,j∈S,i!=j}>θb)then{

S=S∪{v|v∈sk,i∨v∈sk,j}-{si}-{sj};

R({v|v∈sk,i∨v∈sk,j})=R(si)∪R(sj);

}else break;

}while(true)

Sk=Sk∪S;

push(Q,A);

}while(Q!=?)

其中,Sk為Mk經過話題劃分后的結果,Sk={sk,1,sk,2,…,sk,n},R(sk,i)為第k個關鍵詞搜索結果中的話題集合sk,1的話題摘要,參數θb是取值范圍為[0,1]的閾值。如果R(sk,i)包含超過10個代表性詞項,則根據詞項在話題集合中的出現頻率過濾低頻詞項。φ(sk,i,sk,j)為兩個話題集合sk,i、sk,j中的名詞性代表詞的相似度,計算式為:

(1)

2.2 代表性與對比性計算

代表性在本文提出的算法中是指一個話題集合在關鍵詞搜索結果中的話題代表程度,話題的代表性越高則該話題的關注度越高,更加能夠代表用戶的需求。

對于一些突發性的熱點話題,與其相關的微博消息通過大量轉發迅速傳播,其話題集合的轉發頻率在時間線上表現為隨事件發生突然增長而后緩慢降低。對于這些突發性的熱點話題,可以通過計算話題集合中平均每條消息的轉發次數來表現其代表性。

還有一部分話題集合非突發性的熱點話題,但是同樣對話題屬性進行了描述并且有一定的代表性。這些非突發性的熱點話題集合雖然很少存在大量而突然的轉發關系,但是其集合中的消息數量多,且在時間線上分布較廣。對于這一部分話題集合,可以假設其消息發布時間符合均勻分布,以集合中平均每條消息的發布時間的方差表現其代表性

根據上述思想,話題集合s的代表性計算式為:

(2)

其中,Time(v)代表消息v的發布時間,發布時間經過轉換后以Unix時間戳表示,并以三十天作為單位,Ret(v)代表消息v的轉發次數。

對比性是指兩個話題之間的可比較的程度,而對于兩個不同搜索結果中的話題集合,其各自所描述的屬性之間相似度越高,則認為兩個話題集合的對比性越高。

在本文提出的算法中,以話題集合之間相似度作為兩個話題集合的對比性,話題集合s1,i、s2,j之間的相似度計算選擇含有名詞性質的代表性詞項集合RN(s1,i)、RN(s2,j)作為計算依據。如果RN(s1,i)與RN(s2,j)之間有n個相同的詞項,s1,i、s2,j之間的相似度則為n,即s1,i、s2,j之間的對比性Com(s1,i,s2,j)記為n。

2.3 對比話題摘要對的排序

在本文提出的算法中,選擇高代表性、高對比性的對比話題摘要對優先顯示,所以將話題摘要對的代表性和對比性作為參考值進行計算,并加入權值調整參數θ,θ的取值范圍值為[0,1],具體計算式為:

θ×(Rep(s1,i)×ρ2+Rep(s2,j)×ρ1)+(1-θ)×Com(s1,i,s2,j)

(3)

由于不同關鍵詞的搜索結果關注度不同,所以在式中引入關鍵詞平衡因子ρ1、ρ2,其中ρi為Si中所有話題集合的代表性之和比上S1、S2中所有話題集合的代表性之和。最后按照計算結果進行排序,排序在前的對比話題摘要對中的話題集合將不會出現在后續的排序結果中,即每個話題集合至多匹配一個對比話題集合。

3 實驗結果與分析

實驗所需的源數據采用北理工搜索挖掘實驗室主任張華平博士提供的500萬微博語料,并使用全文檢索引擎工具Lucene為500萬微博語料建立索引,其中以開源的中文分詞工具包IKAnalyzer作為建立索引時的分詞工具。參數θt、θd、θb與趙斌等[10]在實驗中的設置相同,三個參數均為0.8,參數θ則設置為0.75。停用詞過濾則通過ICTALAS挑選出代詞、介詞等缺乏含義的詞項,并向停用詞庫添加例如“事”、“話”等高頻出現的干擾詞項。

3.1 評價標準

為評價微博消息話題劃分效果,將MTS算法與本文改進后的MTS算法進行對比。由于本文采用大規模語料集合,列舉話題摘要的所有相關文檔十分困難,所以僅考查話題集合的準確率及可對比性,其中準確率為話題集合中屬于該話題摘要的微博消息比例,可對比性為話題摘要的名詞性詞項數量。

為評價對比話題摘要生成算法的效果,將本文提出的算法與推特對比話題摘要算法進行對比。在推特對比話題摘要的實驗中,以實驗結果的對比性與代表性作為最后的實驗評價標準。其中對比性以對比摘要的準確率評價,準確率具體為對比摘要是否屬于對比話題的比例。代表性以對比摘要的覆蓋率評價,覆蓋率具體為對比屬性占標注的對比屬性的比例。

但是在具體實驗中,由于實驗數據量相比推特對比話題摘要的實驗數據量較大,難以標注所有對比話題的對比屬性,所以在本文的實驗中,以覆蓋量表示對比摘要的代表性,其中覆蓋量為對比屬性的個數。

3.2 實驗結果

在話題劃分效果的實驗中,將“華為”作為搜索關鍵詞,以MTS算法與本文改進后的MTS算法分別進行劃分并生成摘要,按照式(2)計算得出的代表性將話題集合排序,選取代表性最大的前40個話題集合作為比較對象,并按照評價標準比較劃分效果,比較結果如表2所示。

表2 話題劃分效果對比

實驗結果顯示,本文改進后的MTS算法雖然提高了話題集合的可對比性,但是由于在劃分話題集合時加入了關鍵詞搜索結果中不含轉發關系的微博消息,使得文檔集合噪聲增加,導致相較MTS算法準確率有所降低。

在對比話題摘要生成算法的實驗中,具體以“諾基亞”與“華為”作為對比關鍵詞,將對比關鍵詞的搜索結果作為中文微博對比話題摘要的實驗數據。采用本文提出的基于話題集合的中文微博對比話題摘要生成算法,得到的部分對比話題摘要如表3所示。

表3 生成的微博對比話題摘要

實驗的比較對象為推特對比話題摘要算法所生成的結果,分別選取前5、10、15、20條結果進行比較,其中準確率的比較結果如圖1所示。

圖1 準確率對比

覆蓋量的比較結果如圖2所示。

圖2 覆蓋量對比

實驗結果顯示,本文提出的算法提高了對比話題摘要的覆蓋量,相較于推特對比話題摘要算法有更多的對比屬性。但是隨著選取實驗結果的對比話題摘要個數增加,兩種算法的準確率都有較大幅度的下降。

本文提出的算法以話題集合作為比較對象,相比于以微博消息進行比較,每一個比較對象含有較多的話題相關屬性,擴充了比較對象所含的信息量,因此增加了對比話題摘要的代表性。但是由于微博消息文本噪聲較大并且缺乏較好的對比性詞項詞庫,所以實驗結果的準確率有待提高。

4 結 語

本文提出了基于話題集合的中文微博對比話題摘要生成算法,相較于一般方法的主要不同之處在于生成對比話題摘要時的比較對象為話題集合。由于一個話題集合所包含的信息量比一條微博消息大很多,所以本文提出的算法有效地擴充了可對比的相關內容,同時也證明了將微博劃分為話題集合進行處理可以在一定程度上解決單條微博消息信息量不足的問題。

但是由于微博消息龐大的數量,其所需的計算時間也不容忽視。所以后續工作的主要內容是研究對比話題摘要的索引建立問題,加快對比話題摘要的生成速度,為微博消息建立高效索引。

[1]KimHD,ZhaiC.GeneratingComparativeSummariesofContradictoryOpinionsinText[C]//Proceedingsofthe18thACMConferenceonInformationandKnowledgeManagement.NewYork:ACM,2009:385-394.

[2]HuangX,WanX,XiaoJ.ComparativeNewsSummarizationUsingLinearProgramming[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies:ShortPapers.Stroudsburg:AssociationforComputationalLinguistics,2011,2:648-653.

[3]WangD,ZhuS,LiT,etal.ComparativeDocumentSummarizationviaDiscriminativeSentenceSelection[C]//Proceedingsofthe18thACMConferenceonInformationandKnowledgeManagement.NewYork:ACM,2009:1963-1966.

[4]LermanK,McDonaldR.ContrastiveSummarization:AnExperimentwithConsumerReviews[C]//ProceedingsofHumanLanguageTechnologies:The2009AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics.Stroudsburg:AssociationforComputationalLinguistics,2009:113-116.

[5]WanX,JiaH,HuangS,etal.SummarizingtheDifferencesinMultilingualNews[C]//Proceedingsofthe34thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,2011:735-744.

[6] 黃小江,萬小軍,肖建國.基于協同圖排序的對比新聞自動摘要[J].北京大學學報:自然科學版,2013,49(1):31-38.

[7]ShenC,LiT.Multi-documentSummarizationviatheMinimumDominatingSet[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg:AssociationforComputationalLinguistics,2010:984-992.

[8]ChitraP,BaskaranR,SarukesiK.Querysensitivecomparativesummarizationofsearchresultusingconceptbasedsegmentation[J].ComputerScience&Engineering:AnInternationalJournal,2011,1(5):31-43.

[9] 段亞娟.微博搜索的關鍵技術研究[D].合肥:中國科學技術大學,2014.

[10] 趙斌,吉根林,徐偉,等.基于拓撲結構的微博話題摘要生成算法[J].數據采集與處理,2014,29(5):720-729.

CHINESE MICRO-BLOG COMPARATIVE TOPIC SUMMARIZATION BASED ON TOPIC SET

Zhang Xu

(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,Gansu,China)

Nowadays, micro-blog has received wide attention as a popular platform for information exchange, and the research on micro-blog search results reorganization has also become a hot spot. In this research field, micro-blog comparative topic summarization is a relatively new way of search results reorganization. Different from the comparative topic summarization based on messages, Chinese micro-blog comparative topic summarization generates summaries by comparing the topic sets instead of messages. The experimental results show that the method based on topic sets improves the shortcoming of insufficient information in single message and obtains an increase in the representativeness of comparative topic summaries.

Micro-blog Topic sets Comparative topic summaries

2015-09-17。張旭,碩士生,主研領域:智能信息處理。

TP391

A

10.3969/j.issn.1000-386x.2017.01.011

猜你喜歡
文本實驗
記一次有趣的實驗
微型實驗里看“燃燒”
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 91精品国产91久无码网站| 制服丝袜无码每日更新| 久久久噜噜噜| 四虎成人精品| 青青草原国产免费av观看| 中文字幕亚洲电影| 国产网站免费观看| 97综合久久| 亚洲人成日本在线观看| 99ri国产在线| 亚洲欧美在线精品一区二区| 女人天堂av免费| 亚洲精品国产乱码不卡| 国产精品九九视频| 国产精品私拍在线爆乳| 国产性生交xxxxx免费| 国产a v无码专区亚洲av| 欧美日韩亚洲国产| 无码综合天天久久综合网| 日韩大乳视频中文字幕| 久久精品国产精品国产一区| 午夜电影在线观看国产1区| 在线a视频免费观看| 国产亚洲一区二区三区在线| 成年女人a毛片免费视频| 国产成人一区二区| 3344在线观看无码| 亚洲色偷偷偷鲁综合| 亚洲中文字幕97久久精品少妇| 欧美亚洲欧美区| 久久免费成人| 黄色一及毛片| 国产福利微拍精品一区二区| 91九色国产在线| 免费国产高清视频| 日韩久久精品无码aV| 国产精品亚洲va在线观看| 久久亚洲美女精品国产精品| 亚洲无码精彩视频在线观看 | yy6080理论大片一级久久| 日韩二区三区| 在线一级毛片| 麻豆精品久久久久久久99蜜桃| 浮力影院国产第一页| 国产91丝袜在线观看| 奇米精品一区二区三区在线观看| 噜噜噜久久| 国产婬乱a一级毛片多女| 91成人免费观看| 亚洲精品午夜无码电影网| 九九九国产| 欧美在线三级| 4虎影视国产在线观看精品| 国产成年女人特黄特色毛片免| 精品久久久久久中文字幕女| 亚洲日韩AV无码一区二区三区人| 国产精品无码一二三视频| 欧美成人午夜影院| 国产在线97| 天堂成人在线视频| 狠狠综合久久| 日本在线国产| 婷婷99视频精品全部在线观看| 性欧美久久| 亚洲午夜福利在线| 91久久精品国产| 91网在线| 国产玖玖玖精品视频| 人人看人人鲁狠狠高清| 日韩精品一区二区三区中文无码| 亚洲高清无码精品| 试看120秒男女啪啪免费| 99视频精品全国免费品| 性欧美在线| h网站在线播放| 午夜福利视频一区| 亚洲福利视频一区二区| 日本一本在线视频| 人妻一区二区三区无码精品一区| 一本无码在线观看| 无码乱人伦一区二区亚洲一| 亚洲无码高清免费视频亚洲|