摘要: 近年來,計算語言學(Computational Linguistics: CL)在學術界和工業界均得到了越來越多的關注,這主要得益于其在互聯網領域越來越廣泛的應用,如搜索引擎、在線翻譯系統、社交網絡等。計算語言學的很多技術在互聯網應用中都能找到用武之地。這其中既包括詞法、句法、語義等基礎技術,也包括問答、翻譯、文摘等應用技術。面對海量、高噪聲的互聯網數據及真實互聯網應用需求,計算語言學技術也需要進行調整與改進。本文將主要討論在互聯網大背景下的計算語言學研究,包括新應用、新資源、新挑戰,以及新方法等。
關鍵詞:
中圖分類號: TP393.01 文獻標識碼: A文章編號:2095-2163(2011)01-0008-06
0 引言
計算語言學(Computational Linguistics: CL)是語言學與計算機科學的交叉學科,是指使用計算機建立形式化的數學模型,來分析和處理自然語言,因而又叫自然語言處理(Natural Language Processing: NLP)。計算語言學的研究始于上世紀50年代,濫觴于機器翻譯研究。隨著時代的發展,計算語言學研究也先后歷經了幾個重要階段,包括基于簡單字詞匹配的階段、基于語言學知識與規則的階段,以及基于大規模數據統計的階段。進入新世紀以來,隨著互聯網的迅猛發展以及在人們生活中的快速普及,尤其是搜索引擎技術與產品的異軍突起,計算語言學研究在實際應用中的重要性日益提升。互聯網應用帶給計算語言學研究的最主要變化是要處理海量的互聯網真實數據,這一變化使得傳統的計算語言學研究必須調整研究問題和研究思路,充分利用互聯網上產生的新資源和新數據,克服互聯網應用中遇到的新困難和新挑戰。在本文接下來的內容里,將分別就上述各個方面進行詳細地闡述和分析。
1互聯網背景下計算語言學的新應用、新趨勢
1.1計算語言學在互聯網背景下的主要應用
隨著搜索引擎、電子商務、網絡游戲、社交網絡的蓬勃發展,人們將信息獲取、經商購物、休閑娛樂、社會交往等各種日常行為都搬到了網絡上。隨著這些領域的逐步深入發展,越來越多的互聯網應用借助計算語言學技術來優化性能。
作為互聯網上最重要的應用之一,搜索引擎中大量使用了計算語言學技術。計算語言學技術在這一領域的應用可以概括為兩點,即“面向需求搜索信息”以及“利用信息生成知識”。其中,前者旨在從海量網絡信息中搜索出滿足用戶需求的特定信息;后者則致力于對搜索到的信息進行深入加工,以生成更精煉的知識,從而進一步方便用戶的信息和知識獲取。
現階段,以百度等為代表的搜索引擎對計算語言學技術的應用大量體現在查詢(query)解析方面。如查詢改寫需要基于同義資源挖掘技術,即自動挖掘出同義詞或同義短語,以供查詢改寫時對查詢片段進行同義替換;又如,查詢省略需要基于查詢詞重要性分析技術,即計算出查詢中各個詞的重要程度的不同,以確定對長查詢進行省略時刪減查詢詞的順序;再有,檢索結果排序則會基于查詢詞緊密度分析技術,即判斷查詢中各個詞的緊密程度,以確定檢索結果中哪些詞是必須鄰接出現的。可見,搜索引擎對于計算語言學技術有著很多特有的需求,有些并不屬于計算語言學研究的傳統范疇。此外,搜索引擎在面向不同語言的時候所依賴的計算語言學技術也有所不同。例如,對于中文而言,搜索引擎還需要基于自動分詞技術對查詢和網頁進行切分,而在分詞系統中又要重點解決新詞發現等問題。
隨著“語義搜索”概念的興起,計算語言學技術在搜索引擎中的應用顯得越來越廣泛和多樣。所謂“語義搜索”,業界并沒有一個明確的定義,因此不同的搜索引擎都有著自己的理解,在技術的使用上也有不同側重。例如,百度提出“框計算”的理念,其核心功能之一便是可以更加準確地理解蘊含在用戶查詢背后的真實需求和意圖,從而針對性地提供精確的搜索結果,而這背后則是以深入的查詢理解技術作為支撐的。此外,WolframAlpha[1]采用自動問答技術,對于簡單的問句式查詢可以直接給出精確答案。SenseBot[2]基于自動文摘技術,為搜索引擎的每條結果生成文摘句,以便用戶瀏覽。Cognition[3]運用詞義消歧技術,對于有歧義的查詢,將其搜索結果按照不同詞義分開展現。人立方[4]基于信息抽取與關系抽取技術為每個人物類查詢自動構建出其相關人物網絡等。可以說,隨著語義搜索領域的百花齊放,計算語言學的各項技術都獲得了更大的嘗試和應用空間。
除搜索引擎外,計算語言學技術在其他諸多互聯網應用中也起著至關重要的作用。例如,以谷歌翻譯[5]為代表的在線翻譯系統使得統計機器翻譯技術得以實際應用;信息定制系統的產生使得用戶需求模型的自動建立與更新技術變得更加重要;伴隨著電子商務系統而產生的大量在線評論信息對情感傾向性分析技術提出了更大的需求;社交網絡的迅速普及使得“社會計算”進入研究者的視野,從而為實體關系挖掘、用戶模型自動構建等研究方向提供了新的應用點。類似的需求在互聯網應用的方方面面不斷出現,預示著在互聯網的大背景下計算語言學研究正進入一個活躍而繁盛的時期。
1.2 傳統的計算語言學研究在互聯網應用背景下產生的新變化
當經典的計算語言學研究遭遇當下的互聯網應用,很多的問題定義、著重點,以及解決思路都發生了變化。本節將通過幾個例子來分析一下傳統的計算語言學研究在新的應用背景下究竟發生了哪些變化。要看的第一個例子是中文分詞。分詞可謂是中文計算語言學研發工作中最底層的技術模塊之一,絕大多數上層應用都要基于分詞。而互聯網應用、尤其是搜索引擎的應用則對一個分詞模塊提出了以下三點需求:
(1)快速高效,以能夠及時處理數以百億計的網頁;
(2)及時更新,可以迅速挖掘出互聯網上出現的新詞、新概念、新專名等;
(3)多種粒度,以滿足不同應用中對于分詞粒度的不同要求。鑒于以上三點需求,互聯網應用中的分詞模塊在模型的選擇上會更多地考慮運行速度和效率,而不是單一地追求準確率。同時,新詞發現(即通常所說的未登錄詞識別問題)在一個分詞模塊中的重要性變得更大。為此,需要有一種方法,可以定期分析新近的網絡語料并從中挖掘新詞,再將挖掘到的新詞補充到分詞詞表當中去。當然這也就意味著分詞模塊要做到可以便捷地調整分詞詞表,并且將不同時期添加的新詞進行合理的整合。而在分詞粒度的把控方面,一個通用性強的分詞模塊會同時支持多種粒度,可供自如地切換和選擇。
再來看一下機器翻譯(Machine Translation: MT)的例子。機器翻譯作為計算語言學的經典研究方向,已有半個多世紀的歷史。從上世紀90年代起,基于統計的方法逐漸在機器翻譯研究中占據了統治地位。然而,由于大規模語料難以獲得、運行速度相對較慢且模型規模過于龐大等原因,統計機器翻譯技術一直難以應用到實際的翻譯軟件中去。而在線翻譯系統的出現改變了這一局面。目前,谷歌、微軟等公司都已推出了基于統計的在線翻譯系統。而在線翻譯系統的最大特色則是其超大規模的語料庫,這其中既包括用以訓練翻譯模型的雙語平行語料庫,也包括用以訓練語言模型的目標語端大規模單語語料庫。以中文—英文這樣的語言對為例,在互聯網上可以比較容易地抓取到上億對的雙語平行語料。然而,在語料規模快速膨脹的同時也產生了相應的問題,即自動獲取的語料中含有大量的噪聲。因此,如何有效地過濾語料中的噪聲、控制語料的質量成為對于在線翻譯系統而言很關鍵的研究問題。除了語料,互聯網上的在線翻譯系統還需要考慮模型的選擇、壓縮、分布式存儲及動態更新,翻譯過程中的快速解碼、領域自適應以及與搜索等不同應用的結合等。
最后,再看一下自動問答(Question Answering: QA)技術的例子。自動問答和機器翻譯一樣,也是計算語言學的經典研究方向之一。初期的研究主要集中于如何深入地分析和理解輸入問句,并且從一個給定的語料庫(如TREC評測制定的語料庫)中抽取問句的答案。之后,隨著互聯網的發展,研究者們開始更多地研究基于互聯網的問答技術(Web based QA),即將整個互聯網的資源看成是一個大的語料庫,并從中抽取給定問題的答案。由于互聯網信息的冗余性,基于互聯網的自動問答系統可以在更大范圍內抽取答案,并且更好地利用統計信息來對候選答案進行排序和選擇。而近些年來,社區式問答(Community based QA)逐漸地成為了研究的熱點。社區式問答最大的優勢在于所有的問題都是用戶提出的真實問題,所有的答案也都是用戶人工編輯的答案,因此該資源的質量更高,準確性也更有保障。在社區式問答方面的研究目前主要集中在對社區式問答資源的檢索以及問答資源質量自動評估等方面。
從以上的三個例子中可以看到,互聯網應用一方面對傳統的計算語言學研究提出了新的需求,使研究者必須按照實際需求重新定義研究問題、確定研究方法;另一方面,互聯網資源也為研究者們帶來了很多新的靈感和思路。
1.3計算語言學研究在互聯網應用背景下產生的新研究點
互聯網應用不僅給傳統的計算語言學研究帶來了變化,還催生了很多個新的研究方向。例如,情感傾向性分析(Sentiment Analysis)便是在互聯網上主觀型評論信息越來越多的背景下應運而生的研究方向。尤其是在電子商務應用中,情感傾向性分析技術可以自動識別前人評論信息所蘊含的褒貶性,進而幫助人們判斷一件商品的質量和口碑。事實上,在最近幾年,幾乎每一種互聯網應用的產生都帶動了一股研究熱潮。比如,以Wikipedia[6]和百度百科[7]等為代表的在線百科全書的出現帶動了基于相關資源的信息抽取和知識挖掘的研究,而博客、Twitter、微博等的流行也使得面向這些資源的檢索、挖掘,以及用戶興趣建模、社交網絡構建等方面的研究廣受關注。可以說,互聯網應用極大地促進了新的研究問題和研究方向的產生。
2互聯網背景下可供利用的新數據、新資源
互聯網應用除了為計算語言學研究提供了更多的研究問題和內容之外,還同時提供了更豐富多樣且規模巨大的數據和語料資源。這些數據資源對于很多研究方向的開展帶來了更多可供選擇的思路和方法。如何利用好互聯網帶來的新數據和新資源也成為了當下研究界很感興趣的問題。以下將就互聯網提供的幾大類語料資源的特點和適用領域分別加以介紹。
2.1海量網頁語料庫
互聯網的規模有多大?恐怕很難有人能給出一個精確的數字,不過早在2008年,谷歌就曾宣稱檢測到了超過一萬億的各種語言獨立頁面。而百度抓取到的中文頁面也達到了千億量級。海量網頁數據的利用可以大致分成兩大類。一類是基于這樣一個超大規模的語料庫進行特定語言現象和分布的統計。例如,谷歌于2006年發布了1T 五元組(5-gram)數據[8],該數據即是從大規模網頁語料中抽取出來,可以用于語言模型的訓練。當然,還可以利用互聯網語料庫統計詞語共現(co-occurrence)、詞語搭配(collocation)等數據。互聯網語料庫在計算語言學研究中的另一大應用是信息抽取與數據挖掘。例如,Banko[9]等基于無指導的方法利用網頁語料庫進行關系抽取;Ravichandran和Hovy[10]使用一些人工制定的種子實例從互聯網上學習信息抽取模板;Szpektor等[11]使用類似的方法從互聯網語料中挖掘語義蘊含(entailment)模板;Bhagat和Ravichandran[12]基于“分布假設(Distributional Hypothesis)”從互聯網語料庫中抽取復述短語。另外,也有人嘗試從大規模網頁庫中抽取雙語句對資源[13]等。計算語言學研究中對于海量網頁語料庫的利用遠不止以上所列內容。研究者所能應用的除了網頁內容之外,還包括網頁結構信息與網頁間的鏈接關系。而海量網頁資源的優點除了規模巨大之外,還體現在該資源在獲取方面不受限制,任何研究者都可以從互聯網上獲取到相當規模的語料資源。海量網頁語料的主要缺點是其中含有大量噪聲,可能會對某些應用產生負面影響。
2.2搜索行為數據
搜索行為數據,又叫用戶日志(query log),是用戶在使用搜索引擎時生成的數據。搜索行為數據包括用戶查詢(query)、用戶點擊(click),以及查詢序列(session)等信息。對于像谷歌、百度這樣規模的搜索引擎,每天記錄下來的用戶行為數據數以億計,其中蘊含著大量可供研究與利用的信息和知識。例如,從用戶查詢集合中可以學習到查詢語言的分布和特點,還可以挖掘出網絡用戶的興趣分布與網絡熱點;從用戶點擊數據中可以學習到用戶查詢與網頁資源的匹配情況,從而改善信息檢索模型,提升搜索引擎的性能;從查詢序列數據中則可以學習到用戶對查詢的改寫與重構,以及用戶搜索興趣的自然轉移情況等。信息檢索領域對于用戶搜索行為數據的研究非常廣泛,主要包括查詢分類[14]、查詢推薦[15]、查詢擴展[16]等有關用戶查詢的分析與處理,以及利用搜索行為數據改善搜索結果排序的相關性[17]等內容。
與此同時,搜索行為數據在計算語言學的研究中也有著非常重要的用途。例如,有研究者將搜索行為數據用于命名實體(Named Entity: NE)識別與新詞發現[18-19]。這其中的基本想法是,若一個未知詞或實體w1與一個已知類型為T的詞或實體w2常出現在相似的查詢中,則w1的類型也應為T。與之類似,有人基于搜索行為數據進行語義關系抽取以及本體(Ontology)構建的工作[20-21]。還有人利用用戶查詢與對應的點擊文檔的標題抽取復述資源[22]。除規模巨大之外,用戶搜索行為數據的另一大優勢是時效性強,可以及時地反映用戶的新需求、新興趣等。然而,用戶日志中也含有大量噪聲,尤其是用戶查詢語序和語法隨意,內容省略,且含有大量的拼寫錯誤等,這些都給基于搜索行為數據的應用設置了障礙。另外,出于隱私保護等方面的考慮,搜索行為數據在獲取上十分受限,往往只有搜索引擎公司可以獲取和使用,這也使得基于該資源的研究受到了一定的局限。
2.3用戶生成內容數據
用戶生成內容,即UGC(User Generated Content),是近些年來計算語言學研究的新熱點。UGC數據又可具體細分為三類,即社區/論壇數據,知識分享網絡,以及博客/微博數據。
(1)社區/論壇數據:社區/論壇數據是幾類UGC數據中出現最早的一類。盡管此類數據中噪聲問題十分嚴重,但還是有研究者利用該數據資源從事計算語言學方面的研究工作。其中最典型的例子是從社區/論壇的發帖、回帖數據中抽取問答知識,以提供給自動問答系統使用[23]。
(2)知識分享網絡:知識分享網絡有兩種常見類型,一種是wikipedia、百度百科等在線百科類資源;另一種則是百度知道[24]等社區式問答資源。近幾年,計算語言學界基于上述兩種資源的研究很多。其中,基于在線百科資源的研究工作又可以細分為四類:
①利用百科類資源內容準確、噪聲較少的特點,進行關系抽取等研究[25-26];
②利用百科類頁面的特定格式、句式模板、半結構化數據等進行信息抽取[27]、自動文摘[28]等研究;
③利用詞條內鏈關系等信息進行詞義消歧[29]、詞關系挖掘[30]、跨語言NE識別[31]等研究;
④利用用戶的編輯歷史信息,進行文本簡化[32]、句子壓縮[33]等研究。
另一方面,有關社區式問答的研究主要可分為兩類,一類是研究社區式問答資源的檢索與推薦[34-35],另一類則是研究社區式問答資源的數據質量自動評估[36-37]。
(3)博客/微博數據:現如今,博客和微博越來越成為普通網民展示和表達自我以及相互溝通交流的平臺。以中國的微博為例,最大的兩個微博平臺新浪微博和騰訊微博的注冊用戶數量在2011年上半年均已超過一億。博客和微博數據的最大特點在于其內容的個性化、主觀性,以及時效性。這些特點使其在計算語言學的很多方向上被加以研究和應用,例如用戶個性化興趣模型的構建[38]、博客和微博內容的個性化推薦[39-40]、主觀性內容的情感傾向性分析[41-42]、熱點事件及輿情的檢測與跟蹤[43-44]等等。
從上述內容中我們可以發現,互聯網可以提供的數據資源可以惠及計算語言學研究的大多數方向。因此所有研究人員在改善算法和模型的同時都要認真考慮如何從新數據與新資源中受益。
3互聯網應用背景下出現的新問題、新挑戰
正所謂“世上沒有免費的午餐”。互聯網在提供給人們豐富多樣的資源和數據的同時,也同時提出了更多的問題和挑戰,具體體現在以下幾個方面:
(1)對存儲/運算能力提出更高要求:海量網頁、用戶日志等數據需要超大的存儲空間,同時處理和統計這些數據需要很強的運算能力,尤其是并行計算的能力。此外,互聯網數據“時效性”的特點也意味著很多運算結果需要頻繁更新(比如熱點新聞的挖掘與跟蹤),這也要求必須能在很短的時間周期內完成對大規模數據的運算。
(2)需要應對快速涌現的新的語言現象:這里,“新的語言現象”主要指的是新詞(如“給力”、“雷人”)、新概念(如“80后”、“啃老族”)、新專名(如“筷子兄弟”、“旭日陽剛”),新用法(如“粉絲”、“圍脖”),以及大量的網絡語言,甚至“火星文”等。UGC數據的膨脹催化了新的語言現象的出現,但同時也給自然語言處理技術設置了更大的障礙。只有準確地對新詞進行切分、對新概念/新專名進行挖掘、對新用法進行統計、對網絡語言進行改寫和規范化,才能夠滿足信息抽取、機器翻譯、自動問答等諸多上層應用需求。
(3)數據噪聲的過濾與糾錯:傳統的媒體信息通常是由專業人員編輯生成的,但互聯網信息中含有大量的UGC數據,這些數據中含有很多錯誤內容,最主要的體現為錯別字、表達隨意、句法不規則等。這些錯誤對計算語言學的一系列底層技術,包括分詞、詞性標注、句法分析等提出了難題。因此一方面需要考慮如何進行糾錯,另一方面也要考慮如何對噪聲數據進行過濾。其中,前人對于拼寫改錯或信息檢索中的查詢改錯的研究較多[45],但對于數據噪聲過濾尚且缺乏系統的、有通用性的研究成果。
(4)數據內容可信性的甄別與分析:互聯網數據的另一大特點是信息的質量良莠不齊。具體地,在網頁數據中含有為數不少的不實新聞、虛假廣告、“軟文”等內容;在用戶日志中含有大量的用戶對不確定信息的搜索;在UGC數據中更是含有非常多的主觀性內容。因此在利用互聯網數據的時候,應首先考慮數據內容的真實性、可信度、主觀性等方面,否則便容易受到錯誤或不實信息的誤導。對此,已經有研究者從事“可信計算”方面的研究,即利用信息的來源、發布者、內容等多方面特征來判別和度量信息可信度[46-47],但這方面的研究工作還很不足。
4互聯網背景下解決問題的新思路、新方法
為應對互聯網應用提出的新問題和新挑戰,計算語言學界的研究者們應當與時俱進地轉變研究思路,提出因應新趨勢變化的新的研究方法。筆者認為,互聯網應用背景下的計算語言學研究應注重以下幾方面:
(1)貼近真實需求:認真分析實際應用對每一項研究的真實需求,從需求出發設計研究題目和內容。根據互聯網背景下需求的變化來調整傳統研究問題的定義和解決方法。在設計研究方法時,要充分考慮方法在實際應用中的可行性與易行性,盡可能兼顧方法的性能與效率。與此同時,要善于利用真實的數據、資源、工具來解決問題,尤其是要善于對各種可利用資源進行整合與互補。
(2)聚焦前沿研究:對互聯網應用的新趨勢、新發展保持敏感,善于捕捉新需求、抽象新問題、發現新現象、總結新規律。既要嘗試將經典方法運用于新問題,又要針對新問題思考全新的解決方法。比如,情感傾向性分析、面向微博和博客的研究,以及“眾包(crowdsourcing)[48]”等便是隨著互聯網應用的發展而被抽象出來的新研究問題。另一方面,又要杜絕盲目跟風、人云亦云、淺嘗輒止。不能一窩蜂的擁到“流行”問題或者“時髦”方法上,而是要將對新問題的研究建立在理性分析的基礎上。
(3)平衡數據算法:在傳統的計算語言學研究中,通常是“小數據、大算法”的特點,即訓練和測試的數據規模有限,研究者致力于不斷的改善算法性能,到一定程度后會出現過擬合、算法過于復雜、脫離實際條件等問題。而在互聯網背景下的計算語言學研究中,通常是“大數據、小算法”的特點,即數據規模足夠大,從而使得研究者必須考慮方法的可行性和實現效率,提出更簡單快捷的方法。研究者應對數據和算法的規模做一個合理的權衡與折中,而不是一味地追求算法的高深和復雜。
(4)搭建面向應用的實驗平臺:研究問題和內容的轉變還同時要伴隨著實驗方法和條件的轉變。面向互聯網應用的眾多不同需求,若想讓科研成果真正付諸實用,還需要搭建面向應用的實驗平臺,這其中既包括真實的實驗設置、實驗數據等,也包括更實用和更全面的評測指標。在這方面,科研院所與互聯網企業的研究者應當通力合作,取長補短。一方面,互聯網企業要積極向學術界反饋用戶實際應用需求,同時在力所能及的范圍內公開資源和數據;另一方面,學術界要將實際應用需求抽象為研究問題,并且從企業公開的真實數據中分析出更深層的現象,進一步提升至理論高度。
5結束語
時至今日,互聯網技術和產業仍在蓬勃發展,互聯網應用背景下的計算語言學研究更是方興未艾。本文總結了計算語言學研究在互聯網背景下的新應用,梳理了互聯網能夠帶給研究界的新資源,分析了互聯網應用的新形勢下研究者們面臨的新挑戰,并且提出了面向互聯網應用做研究的新方法。由于互聯網包羅萬象、瞬息萬變,本文的總結和分析難免管中窺豹,有失全面。但同時也必須堅信計算語言學界的廣大研究者在與互聯網應用打交道的過程中一定都積累了很多寶貴的心得體會,這必將對整個研究領域產生深遠影響,也必將使得人們的研究一方面緊跟學術前沿,一方面面向應用需求,正所謂“仰望星空、腳踏實地!”
參考文獻:
[1] WolframAlpha:http://www.wolframalpha.com/
[2] SenseBot:http://www.sensebot.net/
[3] Cognition:http://www.cognition.com/
[4] 人立方:http://renlifang.msra.cn/
[5] 谷歌翻譯:http://translate.google.com/
[6] Wikipedia:http://www.wikipedia.org/
[7] 百度百科:http://baike.baidu.com/
[8] Google 1T 5-gram語料:http://www.ldc.upenn.edu/Catalog/docs/ LDC2006T13/readme.txt
[9] BANKE M, Cafarella M J, Soderland S, et al. Open Informa- tion Extraction from the Web. In Proceedings of IJCAI, 2007: 2670-2676.
[10] RAVICHANDRAN D,HOVY T. Learning Surface Text Patter-ns for a Question Answering System[C]// Proceedings of ACL,2002:41-47.
[11] SZPEKTOR I, TANEV H, DAGAN I, et al. 2004. Scaling W-eb-based Acquisition of Entailment Relations. In Proceedings of EMNLP, 2004:41-48.
[12] BHAGAT R, RAVICHANDRAN D. Large Scale Acquisition of
Paraphrases for Learning Surface Patterns[C]// Proceedings of ACL, 2008:674-682.
[13] JIANG Long, YANG Shiquan, ZHOU Ming, et al. Mining B-ilingual Data from the Web with Adaptively Learnt Patterns[C]// Proceedings of ACL, 2009:870-878.
[14] LI Xiao, WANG Ye-Yi, ACERO A. Learning Query Intent from Regularized Click Graphs[C]// Proceedings of SIGIR, 339-346.
[15] HUANG C, et al. Relevant Term Suggestion in Interactive W-eb Search based on Contextual Information in Query Session
Logs[J]. Journal of the American Society for Information Sci-ence and Technology, 2003,54(7):638-649.
[16] CUI H, WEN Ji-Rong, NIE Jian-Yun, et al. Probabilistic Q-uery Expansion using Query Logs[C]// Proceedings of WWW, 2002:325-332.
[17] JOACHIMS T. Optimizing Search Engines using Clickthrough Data. In Proceedings of KDD,2002:133-142.
[18] GUO J, XU G, CHENG Xueqi,et al. 2009. Named Entity R-ecognition in Query[C]// Proceedings of SIGIR, 2009:267-274.
[19] DU Junwu, ZHANG Zhimin, YAN Jun, et al. Using Search Session Context for Named Entity Recognition in Query[C]// P-roceedings of SIGIR, 2010:765-766.
[20] SEKINESUZUKI h, SUZUKI Hisami. Acquiring Ontological K-nowledge from Query Logs[C]// Proceedings of WWW, 2007:1223-1224.
[21] PASCA M, DURME B V. Weakly-supervised Acquisition of Open-domain Classes and Class Attributes from Web Docum-ents and Query Logs[C]// Proceedings of ACL, 2008:19-27.
[22] ZHAO Shiqi, WANG Haifeng, LIU Ting. Paraphrasing with Search Engine Query Logs[C]// Proceedings of COLING, 2010:1317-1325.
[23] HUANGJizhou, ZHOU Ming, YANG Dan. Extracting ChatbotKnowledge from Online Discussion Forums[C]// Proceedings of IJCAI, 2007:423-428.
[24]百度知道:http://zhidao.baidu.com
[25] YAN Yulan, OKAZAKI Naoaki, MATSUO Yutaka, et al. Unsu-pervised Relation Extraction by Mining Wikipedia Texts UsingInformation from the Web[C]// Proceedings of ACL,2009: 1021-1029.
[26] Dat P T Nguyen, MATSUO Y, ISHIZUKA M. Subtree Miningfor Relation Extraction from Wikipedia[C]// Proceedings of N-AACL, 2007: 125-128.
[27] WU Fei, WELD D S. Open Information Extraction Using W-ikipedia. In Proceedings of ACL, 2010: 118-127.
[28] YE Shiren, CHUA Tat-Seng, LU Jie.Summarizing Definitionfrom Wikipedia[C]// Proceedings of ACL, 2009: 199-207.
[29] MIHALCEA R. Using Wikipedia for Automatic Word Sense D-isambiguation[C]// Proceedings of NAACL, 2007: 196-203.
[30] SHNARCH E, BARAK L, DAGAN I. Extracting Lexical Ref-erence Rules from Wikipedia[C]// Proceedings of ACL, 2009: 450-458.
[31] RICHMAN A E, SCHONE P. Mining Wiki Resources for M-ultilingual Named Entity Recognition[C]// Proceedings of ACL, 2008: 1-9.
[32] YATSKAR M, PANG B, DANESCU-NICULESCU-MIZIL C, et al. For the Sake of Simplicity: Unsupervised Extraction of Lexical Simplifications from Wikipedia[C]// Proceedings of N-AACL,2010: 365-368.
[33] YAMANGIL E, NELKEN R. Mining Wikipedia Revision Hi-stories for Improving Sentence Compression[C]// Proceedings ofACL, 2008: 137-140.
[34] XUEXiaobing, JEON Jiwoon, CROFT W B. Retrieval Modelsfor Question and Answer Archives[C]// Proceedings of SIGIR, 2008:475-482.
[35] CAO Yunbo, DUAN Huizhong, LIN Chin-Yew, et al. Reco-mmending Questions Using the MDL-based Tree Cut Model[C]// Proceedings of WWW, 2008: 81-90.
[36] JURCZYK B, AGICHTEIN E. Hits on Question Answer Por-tals: Exploration of Link Analysis for Author Ranking[C]// P-roceedings of SIGIR, 2007: 845-846.
[37] SONG Y-I, LIN C-Y, CAO Yunbo, et al. Question Utility: A Novel Static Ranking of Question Search[C]// Proceedings ofAAAI, 2008: 1231-1236.
[38] KIM D, JO Y, MOON I-C, et al. Analysis of Twitter Lists as a Potential Source for Discovering Latent Characteristics ofUsers. Workshop on Microblogging at CHI, 2010.
[39] WANG Jia, LI Qing, P CHEN Yuanzhu, et al. Recommenda-tion in Internet Forums and Blogs[C]// Proceedings of ACL,2-010: 257-265.
[40] CHEN Jilin, NAIRN R, Les Nelson, et al. Short and Tweet: Experiments on Recommending Content from Information Str-eams[C]// Proceedings of CHI, 2010.
[41] LIU Feifan, WANG Dong, LI Bin, et al. Improving Blog Po-larity Classification via Topic Analysis and Adaptive Methods[C]// Proceedings of NAACL, 2010: 309-312.
[42] JANSEN B J, ZHANG Mimi, SOBEL K, et al. Twitter Power:Tweets as Electronic Word of Mouth[J]. Journal of ASIS&T,2009, 60(9):1-20.
[43] HEVERIN T,ZACH L. Microblogging for Crisis Communica-tion: Examination of Twitter Use in Response to a 2009 Vio-lent Crisis in Seattle-Tacoma, Washington Area[C]// Proceed-ings of the 2010 ISCRAM Conference,2010.
[44] LEE Hughes A, PALEN L. Twitter Adoption and Use in M-ass Convergence and Emergency Events[C]// Proceedings of the 2009 ISCRAM Conference, 2009.
[45] SUN Xu, GAO Jianfeng, MICOL D, et al. Learning Phrase-Based Spelling Error Models from Clickthrough Data[C]// Pro-ceedings of ACL, 2010: 266-274.
[46] METZGER M J. Making Sense of Credibility on the Web: M-odels for Evaluating Online Information and Recommendationsfor Future Research[J]. Journal of the American Society of I-nformation Science and Technology, 2007, 58(13):2078-2091.
[47] GUHA R, KUMAR R, RAGHAVAN P, et al. Propagation of Trust and Distrust[C]// Proceedings of WWW, 2004: 403-412.
[48] HOWE J. The Rise of Crowdsourcing. Wired Magazine, 2006,14(6).