999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多標簽分類的學術文獻潛在時間意圖識別研究

2017-11-20 23:15:21沈思吳璽煜
湖南大學學報·自然科學版 2017年10期

沈思+吳璽煜

摘 要:為了提高檢索結果的時間相關性,將文本特征抽取和多標簽分類算法應用于文獻檢索的潛在時間意圖分類研究之中.從檢索潛在時間意圖分類的角度出發,提出一種基于文本時間信息抽取和Labeled LDA(標簽主題模型)的文獻潛在時間意圖自動分類算法.首先,在獲取的文獻時間信息基礎上,將文獻檢索潛在時間意圖映射至具體時間類別.其次,為了減少時間信息的稀疏性對分類特征學習過程的影響,利用交叉學科中時間短語分布特征優化Labeled LDA分類模型的標簽選擇過程.最后,將所提算法與其他多標簽分類算法進行對比實驗,分析和評估文獻檢索潛在時間意圖自動分類的準確率.結果表明,所提算法的AUC的值達到79.6%,較同類基準算法ECC(整體分類鏈)提高約10.9%,且針對不同學科均取得了較好的分類效果,是一種有效的文獻檢索潛在時間意圖學習方法.

關鍵詞:多標簽分類;主題模型;潛在時間意圖;文本特征抽取;文本分類

中圖分類號:TP391.1 文獻標志碼:A

Research on Identifying Potential Temporal Intentions of AcademicLiterature Based on Multi-label Classification

SHEN Si1,WU Xiyu2

(1.School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China;

2. School of Computer Science,South China Normal University,Guangzhou 510631,China)

Abstract:In order to enhance the temporal relevance of retrieval result,the text feature extraction and algorithm of multi-label classification were applied to potential temporal intention classification of literature retrieval. From the perspective of retrieving the classification of potential temporal intentions,an algorithm was proposed to automatically classifiy potential temporal intentions of literature,based on text temporal information extraction and labeled LDA. Firstly,by use of such temporal information,the potential temporal intention of literature retrieval was mapped onto specific temporal categories based on temporal information gained from literature. Secondly,the distribution features of temporal phrases across disciplines were used to optimize the process of label selection of the classification model of labeled LDA in order to reduce the impact of sparsity of temporal information on the learning process of classification features. Finally,the proposed algorithm was compared with other multi-label classification algorithms in specific experiments,and the accuracy of automated classification of potential temporal intentions of literature retrieval was analyzed and evaluated. The result shows that the AUC value of the proposed algorithm reaches 94.3%,which increases approximately 4.3%,compared with the algorithm of ECC (Ensembles of Classifler Chains). In addition,the present algorithm has produced favorable classifying effects in different disciplines. Thus,it is an effective learning method for potential temporal intention of literature retrieval.

Key words:multi-label classification; topic model; temporal information need; text feature Extraction; ext classificationendprint

目前,檢索式的潛在時間意圖自動識別研究主要是進行自動抽取能體現潛在時間意圖的各類文本特征并應用于現有分類算法中.NTCIR 主辦的TQIC[1](Temporal Query Intent Classification Task)測評任務要求參加者設計算法分析檢索式的潛在時間意圖,正確的潛在時間意圖識別可以幫助更加容易地找到與未來信息相關的研究方向而不是流行的研究趨勢.

在完成對時間信息標注的學術文獻基礎上[2],針對學術文獻檢索這一特定應用領域,本文主要解決學術文獻潛在時間意圖識別的問題.本文通過訓練數據獲取具有領域特性的時間詞匯,并在本領域大量未標記的數據中進行擴展后,與跨學科全局時間詞匯相結合作為先驗知識,融入產生式分類模型Labeled LDA之中,對學術文獻的潛在時間意圖進行分類.在評價所構建的模型性能時,本文主要選取了由Read[3]提出的 ECC的算法進行比較.ECC是一種集成框架算法,主要集成了多條隨機產生的分類鏈并通過投票機制來確定最終的分類結果.該算法的優點是通過多條分類鏈來提高分類的整體準確率,缺點主要是在解釋性的分類任務上不能使用.

1 相關研究

典型的針對檢索式的潛在時間意圖的文本特征選取和分類模型構建方法主要有:Gupta[4]采用樸素貝葉斯分類算法并采用多項特征對檢索式的潛在時間意圖進行分類.基于搜狗實驗室的查詢日志,張曉娟[5]按照檢索詞和時間詞共同出現的頻次自動識別檢索式的潛在時間意圖.結合查詢位置、意圖和用戶的個性化特征,楊丹[6]提出了GT-WSearch個性化Web搜索框架,該框架對于改進Web搜索結果的質量具有極大的提升.對于識別與事件相關的查詢,Kanhabua[7]進行了相應的探究.對于理解時間查詢的意圖和完成不同時間檢索的應用,比如,時間感知查詢自動實現、時間排序、結果呈現的多樣化來說,識別與事件相關的查詢是第一步的工作.在 AOL查詢日志和MSN查詢日志兩個數據集上,通過考慮隱性和顯性的時間信息需求,研究者首先識別了潛在事件.在TQIC任務上,Burghartz[8]完成了相應的探究工作,把特征分成了七個集合,集合包含了N元的特征,而被描述的時間觸發詞被分到了特征集合詞匯上,與事件和時間詞典相關的特征被單獨進行了保存并按照他們各自的特征對時間和詞典進行了分類.Zhao[9]對維基百科頁面瀏覽日志進行了探究,同時從查詢中抽取出了兩類特征,為一類為內容特征,另一類為時間序列的基本特征,并使用這些特征對歧義或者多種查詢意圖進行了分類.采用邏輯回歸的方法,通過人工標記的方式,Willis[10]對TREC(Text Retrieval Conference)數據集中判別是否存在潛在時間意圖的600項主題進行統計分析,通過內容分析的方法識別與時間敏感相關的潛在TREC主題特征.TQIC測評結果表明[11],在分類算法選擇上,其他效果較好的方法還包括支持向量機(SVM)、隨機森林(Random Forrest)等分類器以及組合分類器.

上述研究表明,文本潛在時間意圖對分類結果性能有很大影響.因此,本研究主要通過

利用學術文獻的隱含時間意圖,在產生式分類模型中加入時間信息和領域特性的先驗知識,提高學術文獻的主題分類效果.

2 基于多標簽的學術文獻潛在時間意圖自動分類算法

2.1 文本內容特征與時間特征的確定

文本時間特征選擇方面,主要基于Chinese TIMEX2 規范[12]中收錄的中文時間詞確定本研究的時間觸發詞.同時,根據本研究關注的研究領域對該規范的時間詞進行了調整.一方面,刪減了該標準所收錄的“春分”、“春節”等在日常時間概念詞匯,因為該類詞匯在學術文獻文本中極少出現.另一方面,追加“未來”、“最近”等綜述類文獻中頻繁出現但Chinese TIMEX2卻沒有列出的時間詞作為本文的時間觸發詞,并作為一項可用于確定學術文獻時間類別的描述特征.

在學術文獻中,時間信息主要用于修飾文獻的特有表述,例如結合“與有在什么領域……”、“本文擬探討……”、“本文旨在……”、“作者希望……”、“對……的研究分析表明”等修辭性表述,時間信息可以對研究主題涉及的概念、方法、模型、算法、理論、應用、數據的不同側面進行描述.因此,通過對時間信息與其描述對象之間的語義關系建模,可以有效區分不同學術文獻的潛在時間意圖.TempEval2010測評將該數據集中出現的時間詞,按照時間信息與其描述對象的語義關系,劃分至表1所示的12項類別之中.基于隱含時間意圖,本文定義了如表1所示的類別,并把學術文獻標題、摘要和關鍵詞中的時間信息映射到表1的不同類別當中.我們定義映射函數:fmod:A→B,A={時間觸發詞 },B={隱含時間類別}={ before,...,approx}將學術文獻標題、摘要和關鍵詞中的時間信息映射到表1的不同類別當中.表2是映射實例.表2是以計算機學科文獻為例,描述了部分映射結果.

在表2中,行列交叉的單元格表示待分類的文本時間詞,其列標記對應該時間詞所描述的查詢表示式,其行標記對應該時間詞按照表1制定的分類標準所映射的時間類別.

2.2 基于Labeled LDA的文本分類模型

Labeled LDA[13]將類別標簽融入到無監督的主題模型LDA中,構造一種有監督的主題模型.該模型對于多標簽分類問題的解決證明是非常有用的,在不同的領域具有廣泛的應用,比如被應用于利用微博內容對微博標簽分類[14]、利用RCDC(Research Categorization and Disease Classification category)標簽對NIH(National Cancer Institute)醫療項目分類[15]等領域相關文本的分類任務中.下圖1給出了Labeled LDA的概率圖模型表示.假設語料中的詞項構成詞典,且詞典長度為V.一篇文檔有N個詞項組成,標記為endprint

W={w1,w2,…,wn}.整個語料由M篇文檔組成,標記為D={W1,W2,…,Wm},文檔集D共可得到T項主題,即t∈1,…,T.對每一篇文檔W,定義標簽類別向量Λ(w)=(Λ1(w),Λ2(w),…,ΛT(w)),且Λt(w)=1,文檔w中第t項主題對應標簽0,其他情況

則Labeled-LDA對語料D中每篇文檔W的生成過程如下:

(a)對每一個主題t∈1,…,T,選擇超參數β;

(b)對每一篇文檔W,選擇超參數α,生成文檔W與標簽的映射向量αw=Λ(w)×α.同時選擇θ,θ(w)~Dirichlet(αw=(αw1,αw2,…,αwT));

(c)對文檔中N個詞項中的每個詞項wn,選擇一個主題zn,zn~Multinomial(θ(w)),并以zn為條件的概率P(wn|zn,β)選出詞wn.

從上述過程中可以看出,對比于無監督的主題模型LDA中任何主題均能被分配到相應的詞干上,有監督的LDA主題模型則至于某一個主題下的詞匯關聯.基于吉布斯采樣的Labeled-LDA訓練模型的概率計算式為:

P(z-i=j|z-i,w,di)∝n(w)-i,j+βn(*)-i,j+Wβ·

n(di)-i,j+αwndi-i,j+Kαw(1)

公式(1)中,n(w)-i,j表示詞w分配到主題j的數量,n(*)-i,j表示分配到主題j的詞的總數,n(di)-i,j表示文本di中分配到主題j的詞的數量,ndi-i,j表示文本di中詞的數量,αw表示考慮超參數α情況下文檔W與標簽的映射向量.

基于吉布斯采樣的Labeled-LDA預測模型的概率計算式為:對于新加入數據集的文檔d',設Λ(d')t=1t∈{1,…,T},則主題j下的后驗分布計算式為:

P(z-i=j|z-i,w,d')∝n(w)-i,j+βn(*)-i,j+Wβ·

n(d')-i,j+αnd'-',j+Kαwj(2)

式中,n(w)-i,j和n(*)-i,j等詞匯-主題共現數量統計由Labeled-LDA訓練模型得到,僅n(d')-i,j和nd'-',j等需要根據文本d'中被分配到主題j的情況進行更新.

2.3 基于Labeled LDA的學術文獻時間分類的特征權重改進算法

已有研究證明,在LDA模型的預測上不能非常好的進行校準.在本研究中,Labeled LDA的標簽預測結果,同樣存在上述問題.

針對上述問題,我們提出一種根據不同學科潛在時間意圖偏好性的標簽主題模型改進特征權重算法.

算法1:基于學科時間信息的分類特征權重調整算法.

輸入:某學科文檔集合S.

輸出:基于該學科文檔S生成的特征權重調整向量weight.

step1:遍歷學科文檔集合S,提取各文檔中的時間觸發詞匯,形成候選集Tword(S),并分別計算各時間觸發詞匯對應的時間關系,找出屬于相同類別的觸發詞集合:fmod(tword1)=fmod(tword2)=…=fmod(twordn),twordi∈Tword(S).

step2:依據Tword(S)中的各時間觸發詞對應的時間關系fmod(twordi),將學科文檔集合S進行子集劃分,使得子集Sj中各文檔的時間信息隸屬于同一時間關系,即{tword1,tword2,…,twordjn}∈Tword(Sj),且fmod(tword1)=fmod(tword2)=…=fmod(twordjn).

step3: 依次計算隸屬于同一時間關系的文檔子集Sj的時間信息語義傾向性.假設子集Sj對應第i類時間關系,且子集中不重復的時間詞項數為jn項.則從第0項時間詞的詞頻Ni,0開始依次統計該子集中各項時間詞的詞頻,并將詞頻項的平均值作為該時間關系對應的特征權重調整分量wmod(i),即

wmod(i)=

(Ni,0-Navg)2+(Ni,1-Navg)2+…+(Ni,jn-Navg)2jn×Navg2(3)

其中,Ni,0+Ni,1+…+Ni,jn>0且Navg=average(Ni,0+Ni,1+…+Ni,jn).

step4: 將不同隱含時間類別的分量wmod(i)組成特征權重調整向量weight,即weight={wbefore,wafter,…,wmod(i),…,wmid},再逐一對不同學科文獻的Labeled LDA隱含時間意圖的分類結果進行調整,詳見算法2.

算法2:潛在時間意圖標簽分類權重調整算法.

輸入:和某檢索主題相關的文檔集合D,以及文檔集合D中各文檔所屬學科類別.

輸出:改進后的對于學術文獻的預測標簽集合p(L(d')t|d').

1)將文檔集合D劃分為訓練集D+和測試集D-,并基于訓練集D+學習Labeled LDA模型.

2)利用已學習的Labeled LDA模型,生成文檔集合中的測試集D-中各文檔標簽分配結果.對其中每一個新加入的文檔d',對應的多重l標簽分配結果可表示為p(Λ(d')t|d'),Λ(d')=(Λ1(d'),Λ2(d'),…,ΛT(d')).

對新加入數據集的文檔d',對基于公式(2)計算所有的標簽Λ(d')t=1t∈{1,…,T}在該文檔中的概率,按照概率從高至低進行排序.

3)對文檔集合D 按照文檔所屬學科類別進行劃分,并以劃分結果中的學科文檔集為輸入,根據算法1依次生成各學科的特征權重調整向量weight.

4)對每一個新加入的文檔d',首先查找該文檔對應學科.再根據對應學科的權重調整向量weight,調整p(Λ(d')t|d')標簽分配概率值.首先計算各項標簽Λt對應的時間關系fmod(Λt),隨后查找權重向量weight中第k個表示該時間關系的分量,用公式p(L(d')t|d')=p(Λ(d')t|d')·weightk將該標簽分配概率值進行更新.endprint

5)重復4),直至測試集中所有文檔均得到修正后的標簽分配結果.

3 實驗與結果分析

3.1 實驗數據描述

統計結果表明,人文社會科學領域的文獻內容中時間詞存在比例遠高于自然科學領域文獻集合.因此,我們以cnki數據庫為來源,收集了11個學科的學術文獻題錄文本,具體學科和對應文獻數量以及各學科包括時間詞文獻所占比例如表3所示.

3.2 實驗結果以及分析

3.2.1 分類過程與參數選擇

在參數選擇方面,對文本進行TFIDF,PMI和信息熵等不同特征選擇時,本文保留排名前50%的特征作為輸入文本并去除噪音.在訓練集和測試集構建時采用9∶1比例,把36,409個標簽的文獻隨機地分成了訓練和測試兩種數據集合,并參考已有研究選擇AUC(area under the receiver operating characteristic curve)得分作為Labeled-LDA分類任務的測評指標.在分類過程方面,采用抽樣的方式對測試集的樣本進行標簽分類,再計算標簽分類結果的AUC值.針對包含時間觸發詞的標簽集合Setlabeled作為正樣本采樣結果,采用n次迭代且根據公式(3)計算AUC值

AUC=n′+0.5n″n(4)

其中,n′為從Setlabeled中取出的正樣本的概率大于負樣本的概率的次數,n″為概率相等的次數,n為總迭代次數.

3.2.2 分類性能評價

本實驗在通過TF-IDF,PMI和熵獲取的單個內容特征的基礎上,基于比較原有的標簽主題模型和本研究改進的模型方法,對比了本文方法在不同學科之間的分類性能表現情況.整個查詢分類的結果具體如表4所示.如該表所示,在文本特征選擇方面,PMI值相較于其他文本特征的選擇方法AUC的值最低為0.739,其性能最差.同時,信息熵的選取特征的方法取得了最好的效果,AUC的值最好達到了0.795.從表中還可以看出,即使選擇效果最差的PMI值作為文本特征,本文方法也比原始的Labeled LDA算法在AUC值有所提升,從0.739提升到了0.754.

表5則對比了不同學科下本文的特征權重調整算法的分類性能,從表中可以看出,即使學術文獻的不同學科對時間觸發詞分布有所影響,信息熵的選取特征的方法依然取得了最好的效果,其在11個學科中的AUC平均值達到了0.796.同時,就單一學科文本分類結果而言,本文提出的方法在計算機學科上AUC達到了最高值,為0.939.

表6則對比了本文的特征權重調整算法和同類基于權重調整的多標簽分類算法 ECC的性能對比.從表中可以看出,本文方法在相同的文本特征選擇基礎上,分類結果的AUC值均高于ECC方法.同樣以信息熵作為文本特征時效果最好,本方法的AUC值平均值高過ECC算法達到了10.9%.

4 結 語

綜上所示,本研究以學術文獻中隱含時間意圖為分類對象,在Labeled-LDA的標簽語義關系的分類基礎上,提出了一種潛在時間意圖標簽分類權重調整算法.根據不同的文本特征選擇方式,以及在不同學科上的分類實驗表明,本文提出的方法能夠區分不同文獻、不同學科在隱含時間意圖之下的時間關系偏好性,從而更好地優化學術文獻的隱含時間意圖分類結果.因此,本文的方法可用于更好地從語義知識層面來挖掘學術文獻的隱含的時間信息,幫助分析以時間觸發詞作為文本標簽時研究主題之間的時間關聯性.

參考文獻

[1] JOHO H,JATOWT A,BLANCO R. NTCIR temporalia: a test collection for temporal information access research[C]//Proceedings of the 23rd International Conference on World Wide Web. Seoul,Republic of Korea,2014: 845-850.

[2] 沈思,蘇新寧,謝靖,等. 基于清華漢語樹庫的時間表達式抽取模型構建研究[J]. 圖書情報工作,2012,56(18):127-132.

[3] READ J,PFAHRINGER B,HOLMES G,et al. Classifier chains for multi-label classification[C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin,Heidelberg,2009:254-269.

[4] GUPTA D,BERBERICH K. Temporal query classification at different granularities[C]// String Processing and Information Retrieval. London,UK,2015:156-164.

[5] 張曉娟,陸偉,周紅霞. 用戶查詢中潛在時間意圖分析及其檢索建模[J]. 現代圖書情報技術,2011 ,30(11): 38-43.

[6] 楊丹,申德榮,陳默. 基于地理-時間意圖和偏好的個性化Web搜索框架GT-WSearch[J]. 計算機科學,2015,42(7):240-244.

[7] KANHABUA N,NGOC NGUYEN T,NEJDL W. Learning to detect event-related queries for web search[C]//Proceedings of the 24th International Conference on World Wide Web. Florence,Italy,2015: 1339-1344.endprint

[8] BURGHARTZ R,BERBERICH K. MPI-INF at the NTCIR-11 temporal query classification task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. Tokyo,Japan,2014:443-450.

[9] ZHAO Y,HAUFF C. Temporal query intent disambiguation using time-series data[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing,China,2016: 1017-1020.

[10]WILLIS C,SHERMAN G,EFRON M. What makes a query temporally sensitive?[C]// Proceedings of the 39th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval. Beijing,China,2016:1065-1068

[11]JOHO H,JATOWT A,BLANCO R,et al. Building test collections for evaluating temporal IR[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing,China,2016:677-680.

[12]ACE(Automatic Content Extraction) Chinese Annotation Guidelines for TIMEX2(Summary)[EB/OL].[2016-12-19].http://www.ldc.upenn.edu/Projects/ACE/docs/Chinese-TIMEX2-Guideline-Summary_v1.

[13]RAMAGE,D,HALL,D,NALLAPATI,R,et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C] //Proceedings of the 2009 Conference on Empirical Methods in Natural Language. Cambridge,Massachusetts USA,2009: 248-256.

[14] KIRCZ G. Rhetorical structure of scientific articles: the case for argumentational analysis in information retrieval[J]. Journal of Documentation,1991,47(4): 354-372.

[15]PARK J,BLUME-KOHOUT M,KRESTE R,et al. Analyzing NIH funding patterns over time with statistical[C] // Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix,Arizona USA,2016:698-704.endprint

主站蜘蛛池模板: 人妻精品久久无码区| 99免费在线观看视频| 亚洲精品动漫在线观看| 欧美成人手机在线观看网址| 人妻出轨无码中文一区二区| 奇米精品一区二区三区在线观看| 91福利片| 亚洲欧美自拍视频| 夜色爽爽影院18禁妓女影院| 中文字幕在线看| 99热这里只有精品2| 精品国产www| 国产黄色片在线看| 国产呦视频免费视频在线观看| 亚洲国产成人久久77| 国产区在线观看视频| 最新国产精品第1页| 超清无码一区二区三区| 亚洲无线一二三四区男男| 亚洲永久免费网站| 久久一本日韩精品中文字幕屁孩| 成人欧美在线观看| 美女毛片在线| 久久亚洲美女精品国产精品| 国产精品无码久久久久AV| 久久婷婷五月综合色一区二区| 亚洲综合日韩精品| 青青操国产视频| 91丝袜美腿高跟国产极品老师| 不卡无码h在线观看| 国产精品欧美激情| 久久精品人妻中文系列| 华人在线亚洲欧美精品| 欧美不卡二区| 国禁国产you女视频网站| 国产一级在线观看www色 | 国产永久在线视频| 久久网综合| 亚洲日本中文字幕乱码中文| 亚洲精品福利网站| 国产欧美亚洲精品第3页在线| 国产福利小视频在线播放观看| 日韩一级二级三级| 国产精品成人AⅤ在线一二三四| 欧美在线观看不卡| 国产网站在线看| 中美日韩在线网免费毛片视频| 免费无码AV片在线观看国产 | 成人一级免费视频| 欧美日本中文| 亚洲欧美另类色图| 欧美性爱精品一区二区三区| 精品综合久久久久久97超人| 一本大道无码日韩精品影视| 91精品啪在线观看国产91九色| 欧美激情综合| 国产成人福利在线| 日韩黄色在线| 免费 国产 无码久久久| 国产二级毛片| 伊人成人在线| 国产精品大尺度尺度视频| 六月婷婷精品视频在线观看| 黄片一区二区三区| 无码AV动漫| AV无码无在线观看免费| 97青青青国产在线播放| 狠狠干综合| 999精品色在线观看| 亚洲欧美成人综合| 国产美女视频黄a视频全免费网站| 国产又粗又猛又爽| 亚洲综合极品香蕉久久网| 亚洲人成人伊人成综合网无码| 国产色伊人| 亚洲无码A视频在线| 免费A级毛片无码无遮挡| 亚洲啪啪网| 国产精品污视频| 亚洲精品国产精品乱码不卞| 国产精品福利一区二区久久| 国产亚洲欧美在线中文bt天堂|