袁 莎 唐 杰 顧曉韜
1(清華大學計算機科學與技術系 北京 100084) 2 (伊利諾伊大學厄巴納-香檳分校計算機科學系 伊利諾伊州厄巴納-香檳 61801) (yuansha@tsinghua.edu.cn)
用戶畫像是指通過獲取構成用戶模型的不同維度屬性信息(如人口統計學特征、興趣偏好和行為模式等)進行信息挖掘和分析應用的過程.在互聯網時代,用戶畫像是實現精準化推薦和個性化服務的基石,在電子商務、社會網絡分析以及互聯網服務等眾多領域有著廣泛的應用.例如在電子商務系統中,用戶的歷史購物習慣和偏好對商品的定向推薦和營銷有著極其重要的作用;在社會網絡中,用戶的個人信息和社交交互數據能被用于好友推薦和社群發現;電信網絡服務類行業依托用戶屬性實現個性化的訂制服務.
雖然在不同的應用中,實現用戶畫像的具體參數有所不同,但是實現用戶畫像的基礎技術是通用的.為了表述的準確與清晰,以學者畫像為例進行用戶畫像相關基礎理論與技術要點的闡述與分析.面向科研學者的用戶畫像技術為學術同行分類、專家推薦等功能提供了關鍵支持,科研學者畫像問題已經受到了廣泛的關注,以研究學者為中心的學術智庫在國家自然科學基金委、科技部、中國工程院等權威部門展開應用.
傳統的用戶畫像通常被當作是一個工程問題,構成用戶模型的屬性值是由人工收集的,或者是由用戶主動提供的.然而,人工數據收集往往需要花費大量時間和資源,對人工資源要求高的同時,數據獲取的效率極其低下.此外,用戶通常不愿意花費時間和精力填寫構建用戶模型需要的屬性信息,由用戶輸入的信息很多情況下是不完整的或者不一致的.傳統用戶畫像面臨的這些問題使得建立大規模高質量的用戶畫像數據庫成為難題.
近年以來,通過先進的計算機技術進行自動信息抽取逐漸取代手工方法成為主流.這類方法首先收集大規模的電子文檔,然后分別利用預定義的規則或者特定的機器學習模型抽取各項信息.例如,使用交互式信息提取方法幫助用戶將非結構化數據(如網頁文檔或電子郵件)輸入數據庫[1],協助用戶填寫數據庫字段,減少用戶負擔的同時保證輸入數據的完整性;通過級聯混合模型從簡歷中自動抽取結構化信息,實現了簡歷數據庫的自動構建[2].然而,這類分別抽取不同屬性信息的方法非常低效,原因有2點:1)對于每一個屬性,必須定義一個特定的規則,或者通過監督學習訓練一個特定的機器學習模型,屬性的增多導致規則和模型的增多,大量不同的規則和模型非常難以維護;2)獨立的各種規則或模型不能充分利用不同屬性之間的依賴關系.此外,在開放互聯網中,這類方法雖然能自動抽取信息,然而卻難以應對真實數據的動態變化.僅以著名社交網絡Twitter為例,其每日活躍用戶量達到2.5億以上,高峰期能夠產生每秒14萬條信息的數據量,通過線下數據庫動態追蹤、實時更新網絡信息是非常困難的,難以保證數據的時效性[3].
開放互聯網中的數據,尤其是萬維網網頁數據(Web數據)以指數級的速度迅猛增長.第41次《中國互聯網絡發展狀況統計報告》指出,截至2017年12月,我國網民規模達7.72億,移動互聯網接入流量比上年同期累計增長158.2%,呈現指數增長趨勢[4].目前,基于Web的用戶畫像研究旨在從非結構化的Web網頁文本中發現和挖掘結構化的用戶信息.例如,文獻[5]基于GATE系統進行Web網頁的分割和信息抽取;文獻[6]提出一種無監督Web用戶畫像框架,在不依賴人工標注的情況下實現自動抽取.然而,這些方法在當今網頁數據的快速增長下仍然面臨著大規模數據帶來的存儲和計算壓力.
海量網絡數據易于獲取,并且蘊含著豐富的信息,這為大規模用戶信息抽取提供了新的渠道和機遇,同時也面臨3個特點和挑戰:
1) 數據量大.CINIC的統計數據表明:截至2017年12月,中國互聯網中Web網頁數達到2 604億個.即使在大型分布式系統的支持下,抓取、下載、索引這些網頁數據需要耗費大量的存儲和網絡資源,傳統的數據挖掘和信息抽取算法在如此巨大的搜索計算空間中面臨著效率瓶頸,甚至無法有效運行.在開放互聯網環境下,面對大規模真實數據的動態變化,如何進行高效的信息抽取是亟需研究的問題.
2) 數據噪音.Web數據中除了蘊含豐富的信息外,還混雜著大量的噪聲數據,這些噪聲數據會干擾用戶畫像的質量,這是伴隨大數據量而來的必然問題.例如,采用搜索引擎的查詢結果進行信息抽取時,特定查詢詞的搜索結果往往包含了一些無關的詞條,錯誤的信息抽取結果會影響抽取精度.數據噪音是開放互聯網中信息抽取系統面臨的主要精度瓶頸.
3) 數據冗余.開放互聯網中,數據存在著大量的冗余信息,這些冗余信息蘊含著隱含的關系模式.重要的信息在不同信息源中通常會重復出現,充分利用冗余信息之間的關聯關系能充分挖掘更多的有用信息,同時幫助提升抽取信息的準確度.

Fig.1 An example of scholar profiling圖1 學者畫像示例
雖然用戶畫像理論及相關技術已經得到了較為廣泛的研究,但是在開放互聯網中的用戶畫像具有獨特性,其所面臨的數據量大、數據噪音和數據冗余等新挑戰致使傳統的用戶畫像理論、模型和方法均無法直接無縫地移植到開放互聯網中的用戶畫像系統.近年來,許多研究人員都致力于開放互聯網中的用戶畫像研究,在理論、模型和方法等多個研究領域都進行了開拓性的探索,并提出了創造性的研究成果.本文正是以此為背景,對開放互聯網中用戶畫像的現有研究成果進行回顧,對相關的研究思路進行溯源和比較,并給出了學者畫像系統的實現案例.
科學技術的發展帶來了大量的學術數據,對于學術數據的挖掘越來越受到研究者的關注,很多學術系統都致力于學術信息挖掘的研究,如Libra,Rexa,DBLife等.學術信息挖掘的主要研究內容有各種學術數據的結構化組織,用元數據記錄各種數據,如論文、研究者、會議等,學術信息的結構化組織中論文的結構化組織相對容易,技術也比較成熟,例如Citeseer,DBLP都提供論文的結構化數據,列出了論文的作者、題目、發表的會議、引用的參考文獻等.研究學者也是學術信息的重要數據,是學術數據挖掘的重要研究方向,同時也是搭建學術社會網絡的基石.
學者畫像的例子如圖1所示.學者畫像的基本目標是為每個學者建立檔案,包含學者的各種屬性:基本信息(如名字、照片、工作單位、職位等)、聯系信息(如電話、通信地址、Email等)、教育經歷(如畢業學校、所獲學位的專業和時間等)、發表的論文以及研究興趣.對于學者畫像而言,有些畫像信息(如基本信息、聯系信息、教育經歷)可以從其主頁或者Web網頁中獲取,有些畫像信息(如發表的論文)需要從在線數字圖書館(如DBLP,ACM等)整合得到,其他信息(如研究興趣)需要從已收集的信息中挖掘分析得到.
學者畫像的數據模式如圖2所示.完成學者畫像的數據標注需要從非結構化的數據中抽取目標信息,如地址、職位、所在機構、聯系方式等不同類別的屬性信息.經過統計分析發現,學者信息的各個屬性之間有依賴關系,有的屬性之間存在強依賴關系.舉例來說,科研學者的名字可以幫助識別其照片,因為照片的命名往往是其本人的姓或名.在描述個人的教育經歷時,比如科研學者獲得了博士學位 (PhD),那么獲得博士學位的專業(PhDmajor),獲得博士學位的日期(PhDdate)很可能出現在同一句話中,或者一個列表中.

Fig.2 Data pattern example of scholar profile圖2 學者畫像數據模式示例
由于Web數據本身的特性,針對Web用戶的信息抽取任務需要解決3個問題:
1) 快速信息檢索.對于不同類型的抽取任務構造合適的方法從Web中快速找到盡可能多的相關網頁數據,從而避免遺漏有效信息.
2) 排除數據噪音.Web數據中除了豐富的有效信息外,同時混雜著許多噪音數據.噪音數據提供了錯誤的信息,影響抽取精度.在整合多源數據時,我們需要對噪音數據進行識別和篩除.
3) 利用冗余數據.Web數據中存在著大量冗余信息,其中又存在著隱含的關系模式.例如,重要的信息會在不同信息源中重復出現.利用冗余數據之間的關系能夠捕捉到更多證據,幫助我們對所抽取信息的真偽進行更為準確的判斷.
用戶畫像需要從非結構化數據中抽取目標信息,如地址、職位、所在機構、聯系方式等,這往往依賴信息抽取方法及相關模型來實現.信息抽取方法與模型是實現學者畫像的理論基礎,本文將在第2節詳細介紹.實現學者畫像的3項基本任務將在第3節詳細介紹,主要包括3個方面:
1) 學者信息標注.學者信息標注需要基于開源異構數據自動提取學者的相關描述信息,標注學者信息并建立學者個人檔案,是實現學者畫像的一項最基本的任務.學者信息標注包括基本信息抽取和隱含屬性預測,用戶的隱含屬性指難以從表層文本中直接抽取的屬性數據,如性別、年齡等.
2) 研究興趣挖掘.用戶興趣挖掘是指從用戶數據中獲取用戶的偏好信息以及和用戶相關的主題關鍵詞,從而挖掘出用戶興趣.研究興趣挖掘主要應用于學者的研究方向發現,可用于學術合作推薦.
3) 學術影響力預測.論文被引數是評估學者學術影響力的重要指標之一,預測論文未來的被引數對學者科研水平評估及資助決策具有重要意義.
信息抽取方法是實現用戶畫像的基礎理論,根據實現原理可將其劃分為基于規則學習的方法、基于分類模型的方法和基于序列標注的方法.
基于規則學習的方法認為從大規模的自然語言數據中能夠提煉和學習出頻繁的規則或文本模式,并以此進行信息抽取.例如“牛頓生于1643.”這句例句中能夠提取出“〈某人〉生于〈某年〉.”這樣的模式.將其與新的語料匹配時,即可從符合該模式的語料中抽取用戶的生日信息.依據具體實現方式的不同,基于規則學習的方法一般可劃分為基于詞典的方法和基于規則的方法.
2.1.1 基于詞典的方法
早期傳統的信息抽取系統采用基于詞典的方法進行信息抽取,這類方法首先構建模式詞典,然后利用詞典從未標記的新文本中提取所需信息.基于詞典的方法實現的典型系統有AutoSlog[7],AutoSlog-TS[8]和CRYSTAL[9]等.實現這類系統的關鍵是如何習得模式詞典,然后將其用于識別新文本中的相關信息.
AutoSlog是第1個實現從文本訓練集中學習模式詞典的系統.AutoSlog系統使用預定義的13種語法模式,例如下述句法“主語、直接賓語,或名詞”是其中一種模式.AutoSlog系統需要使用語法解析器生成句子的語法元素(例如主語、動詞、介詞短語),然后將生成的語法元素與給定的語法模式匹配,利用最佳匹配構建模式詞典.AutoSlog需要在提取模式前對文本進行標注,AutoSlog-TS系統改進了這一缺點.AutoSlog-TS不需要對輸入數據進行完整的標注,只需要標注數據是否與主題相關.CRYSTAL系統對少量已標記文本(稱為種子詞語)采用自助抽樣法Bootstrapping從而生成詞典.具體地,CRYSTAL基于Bootstrapping利用種子詞典學習模式,然后使用已知模式標記更多同類的種子詞語,這樣就能持續增量地得到模式詞典.
2.1.2 基于規則的方法
隨后出現利用一般規則替代詞典對文本進行信息抽取的系統,例如(LP)2[10],DIPRE[11]和Snowball[12]等.(LP)2是經典的規則學習算法,基于(LP)2實現的自動標注工具Amilcare能夠從訓練數據里自動學習規則.早期很多標注系統都是基于Amilcare實現的,如S-CREAM[13],MnM[14]和Melita[15].這些系統能夠在特定模板的網頁上取得較好的標注效果,但是不能同時標注多種類型的信息.如果需要標注多種不同類型的信息,針對每一種新類型的信息,都需要重新學習一組規則,不能用于大規模的數據標注.
DIPRE系統基于給定的已知事實例句,通過最長公共子句的方式歸納出規則,然后搜索與規則相關的更多例句,繼續歸納和擴展規則.通過這種迭代式的半監督框架,DIPRE系統能根據有限訓練數據集自動搜索和擴展模式庫,但是其嚴格的文本匹配方式會導致高遺漏率,并且迭代歸納過程中引入的錯誤種子數據會導致錯誤累積.Snowball系統延續了DIPRE的半監督學習框架,但是放寬了模式匹配的條件,使得文本匹配的適用性大大提高.同時,其提出一系列方法以衡量學習到的模式與抽取到的目標信息的可信度,及時篩除數據噪音,從而減少迭代過程中的錯誤累積問題.后續工作StatSnowball[16]則引入了更多統計與機器學習的技巧,進一步提升效果.在數據驅動的模式學習基礎上,PATTY[17]引入文本解析樹等語言學特征進行文本模式發現.
這些經典方法為文本模式學習提供了范式,然而也面臨著標注數據不足、文本模式可擴展性不高的問題.近年來,隨著Freebase等大規模知識圖譜的發展,許多工作轉而研究如何利用知識圖譜進行遠程監督學習.典型代表是Riedel等人在2013年提出的 Universal Schema方法[18].他們借鑒協同過濾算法,將目標實體對看做用戶,將實體關系看做商品,將信息抽取轉化成商品推薦問題,即尋找目標實體對最有可能符合的實體關系.他們將文本模式與知識圖譜中已有的實體關系共同作為學習目標,通過矩陣分解算法建立文本模式與目標實體的向量表達,從而更為廣泛地衡量文本模式和目標實體間的隱含關系,以及文本模式間、文本模式與知識圖譜關系間的隱含相似度,從而取得了很好的效果.
綜合來說,基于規則學習的方法能夠從大規模語料庫中得到目標信息實體在文本中的頻繁模式,并通過較為嚴格的文本匹配從目標文本中抽取信息,從而具有較高的抽取精度,但在查全率上表現較差,缺乏可擴展性,不適于大規模數據的信息抽取.
近年來,機器學習理論在信息抽取領域得到了成功的應用,監督機器學習方法為學者畫像中的信息抽取任務提供了強有力的工具.基于分類模型的信息抽取方法將信息抽取轉化為關系分類問題,即判斷2個目標實體間是否滿足目標關系,并給出判決結果.例如判斷“牛頓”與“1643年”之間是否存在“ 〈出生于〉”關系.依據信息抽取方法的發展趨勢,基于分類模型的方法可分為基于機器學習的方法和基于深度學習的方法.
2.2.1 基于機器學習的方法
傳統經典的分類模型有邏輯斯蒂回歸(logistic regression, LR)、支持向量機(support vector machine, SVM)、決策樹(decision tree, DT)和樸素貝葉斯(Na?ve Bayes, NB)等.分類模型包含學習和預測2個階段.在學習階段,分類模型依據訓練數據集訓練模型;在預測階段,訓練出的模型被用于預測一個未標記的實例屬于正例或負例.在二分類場景下,這些模型接受一個數據點的特征向量,并給出其屬于正例或負例的預測.二分類模型可以通過對多個類別標簽進行“屬于/不屬于”的二值判斷擴展成多分類模型.
將這類模型用于解決文本信息抽取問題時,首先通過命名實體識別等預處理過程得到候選實體,然后從上下文文本中抽取特征,并通過分類模型預測該候選實體是否是正確的信息.特征的構造是影響分類模型識別準確率的重要因素.用于文本信息抽取的特征主要分為語義特征和語法特征.語義特征指句子各成分間的依賴關系,取決于目標實體在句子的依賴解析樹中的依賴路徑;語法特征指句子和實體上下文的淺層特征,常見的包括:目標實體間的語序、目標實體的詞表示、目標實體的實體類型、目標實體的 POS 標簽、整句句子的詞袋表示、目標實體間的解析樹路徑、目標實體上下文的n-gram和skip-gram特征.
分類模型首先將這些特征處理成數值化的特征向量,然后利用有標簽數據進行訓練,對無標簽的數據進行預測.其不足在于仍然依賴于人工定義的特征集合,使得其難以捕捉全部有用特征.同時,分類模型使用的函數簇也往往比較簡單,難以建模復雜的非線性關系.
2.2.2 基于深度學習的方法
深度學習方法利用神經網絡模型和詞的分布式表達解決分類任務.與基于特征的分類模型相比,深度學習模型有兩大優勢.首先,深度學習模型中,單詞通過word2vec[19]等詞嵌入技術轉化為詞向量,包含了更多語義層面的隱含信息,從而使得模型能夠捕捉到詞語層面的相似關系;更重要的是,深度學習模型能夠進行表示學習,從原始數據中自動學習得到有用的特征,避免了人工特征構造,同時能夠產生更為有效的特征表示.深度學習方法在信息抽取問題上主要應用卷積神經網絡和遞歸神經網絡.
卷積神經網絡將句子中的單詞以詞向量的形式疊加成句子矩陣,通過卷積和池化的操作捕捉詞與詞之間的語義特征,并且能夠應對句子中詞語交換的問題.文獻[20]在槽填充任務上比較了卷積神經網絡與傳統分類模型.其中,卷積神經網絡將句子以目標實體為分隔拆分成3個部分,對每個部分分別進行卷積操作,從而得到上下文的特征表示,并對目標實體進行分類.結果顯示,卷積神經網絡的性能要高于傳統分類模型.
遞歸神經網絡為每個詞學習一個隱層表示,同時將上一個詞的隱層作為下一個詞的輸入,從而捕捉上下文關系.全局最后一個詞的隱層中包含了全句的語義信息.文獻[21]提出將長短時記憶機制加入遞歸神經網絡模型中進行信息抽取,使得模型能夠適時地忽略一些信息,從而取得更好的效果.文獻[22]在此基礎上做了改進.他們在預處理時首先通過遞歸神經網絡得到全句的向量表示,并將其加入模型的初始輸入,從而在學習單個詞語時考慮全句信息,提高了信息抽取的精度.
較之基于規則學習的方法,分類學習模型能夠自動學習特征與標簽間的關系,避免了模式匹配帶來的高遺漏率,從而在效果上有較大提升.然而,這些模型沒有考慮目標實體之間的關系這一重要信息,同時難以像規則學習那樣加入先驗知識幫助求解.
信息抽取領域常用的序列標注模型有最大熵Markov模型(maximum entropy Markov mode, MEMM)[23]、條件隨機場 (conditional random fields, CRFs)[24]、動態條件隨機場(dynamic conditional random fields, DCRFs)[25]和樹狀條件隨機場(tree conditional random fields, TCRFs)[26]等.基于序列標注的方法一般基于條件概率模型.條件概率模型指給定觀察值序列X,找出其對應的狀態序列Y,使得P(Y|X)最大.比較流行的條件概率模型包括最大熵模型(maximum entropy, ME)[27],由最大熵模型和序列模型結合引申出了MEMM和CRFs.

2.3.1 最大熵Markov模型MEMM
在最大熵Markov模型MEMM中,定義某個狀態的概率為p(yi|x)=p(yi|yi-1,x).該公式表明,某個序列的第i個觀察值取某個狀態的條件概率僅僅與該序列中前一個狀態的取值有關.圖3畫出了MEMM的圖形結構.

Fig.3 The structure diagram of MEMM圖3 MEMM結構圖
依據MEMM的定義,給定觀察值序列X,定義在該觀察值上的狀態值序列Y的條件概率為
MEMM的模型定義為
其中,Z(y,x)是歸一化函數,它使得每個節點取所有狀態的概率之和為1;λk是待估計的參數;fk是特征函數.我們可以用通用迭代算法(generalized iterative scaling, GIS)算法或改進迭代尺度算法(improved iterative scaling, IIS)從訓練集合學習參數的值[23].特征函數一般定義為謂詞公式,也就是二值函數,或者叫布爾函數.在測試階段,對于序列模型,通常用Viterbi解碼這種動態規劃方法求解最可能的狀態序列.
2.3.2 條件隨機場CRFs
MEMM對于序列中每個節點都歸一化,這會導致label-bias問題[24].為了解決該問題,研究者們提出了條件隨機場CRFs模型[24].
定義2.條件隨機場.令G=(V,E)為無向圖,其中V是節點集合,E是邊集合,X={Xv|v∈V}表示G中所有節點的值,Y={Yv|v∈V}表示對X的標注結果.如果(X,Y)滿足Markov性質[28]:
p(Yv|X,Yu,u≠v,{u,v}∈V)≡p(Yv|X,
Yu,{u,v}∈E),
即每個隨機變量相對于G中所有變量的條件概率等價于它相對于G中所有相鄰節點變量的條件概率,則稱(X,Y)為條件隨機場.
根據最大熵原理,可將CRFs中的條件概率定義為
pλ(y|x)=
其中:Zλ是歸一化因子,計算為
其中,fk是以y和x為參數的特征函數,λk是模型需要學習的參數(可以看作對應特征的權重).序列模型的學習,即是從訓練樣本中估計參數λk的值.用學習到的模型進行標注時,選擇條件概率最大的標注序列y*,這與最大熵Markov模型類似,即:
很多方法都可以用來求解這個優化問題,傳統的求解最大熵模型的算法如IIS,GIS都可以用來獲得CRF模型的參數[29].共軛梯度法算法(conjugate gradient, CG)[30]和L-BFGS算法(limited-memory quasi-Newton)[31]能取得比較好的訓練效果,投票感知器算法(voted perceptron, VP)算法[32]也能夠有效地訓練出CRFs模型的參數.由于CRFs的求解代價較大,目前仍然有很多研究者探討求解CRFs的有效方法,如不采用Maximum Likelihood來求解CRFs,而采用Pseudo-Likelihood[33]求解CRFs,對于復雜的CRFs模型,又有研究者利用Piecewise的方法[34],或者采用Piecewise結合Pseudo-Likelihood的方法求解復雜的CRFs模型.
CRFs引入歸一化標注因子,解決了MEMM中存在的label-bias問題.CRFs克服了MEMM模型的缺點,它對整個序列做歸一化,而不是對序列中的某一狀態做歸一化.用CRFs進行信息抽取實質上是將信息抽取問題轉化為句子各部分的序列標注問題,即在觀察到句子的各個實體部分情況下,推測它們對應的標簽值.
2.3.3 其他條件概率模型及小結
事實上像CRFs的定義一樣,任何具有Markov性的圖模型都可以稱為條件隨機場,目前有很多不同的條件隨機場模型,它們不僅能模擬序列數據,而且能夠模擬各種復雜結構的數據,如網格狀數據,樹狀數據、甚至一般的圖狀數據.
動態的條件隨機場DCRFs推廣了線性的條件隨機場.在DCRFs中,每一個片都是一個小型的貝葉斯網絡,片與片之間的交互相當于線性CRFs的狀態轉移.樹狀條件隨機場Tree-CRF(TCRFs)可以描述信息之間的層次依賴關系.該模型是無環結構,求解起來相對容易.
表1列出了各種序列標注模型、圖形表示以及求解算法.其中,MEMM是最大熵框架下的序列模型;CRFs最簡單的形式是線性CRFs;CRFs還包含一般的圖模型,例如DCRFs和TCRFs刻畫了數據的多種依賴關系,能夠更好地模擬數據,但求解更為復雜,可用貝葉斯網絡里的Belief Propagation算法求解.

Table 1 Comparison of Conditional Probability Model表1 條件概率模型比較
Notes: The hollow circles represent the input, the solid circles represent the output.
較之規則學習和分類模型,基于序列標注的方法能夠對實體間的關系進行建模,可以描述目標信息之間的依賴關系,有助于捕捉到更多信息,提高信息提取的準確性.
信息抽取方法是實現學者畫像的基礎,有了基礎理論的支持,本節對用戶畫像的3項基本任務:學者信息標注、研究興趣挖掘以及未來影響力預測的相關工作進行概述.其中,學者信息標注分為基本信息標注和隱含屬性預測,例如主頁、郵箱、職位及辦公地址等信息為基本信息,此類基本信息可以從文本數據中顯式抽取,性別和國籍則可能是需要預測的隱含屬性;研究興趣可以由學者主頁提取,或者由學者發表的論文內容提取;學者的學術影響力通常由H-index值和論文引用數體現.
研究學者的信息大多包含在學者的個人主頁或者介紹性網頁中,包含在其發表的論文中.信息來源的復雜性和信息格式的多樣性使學者的個人信息標注成為學術信息挖掘的一個重大挑戰.
根據標注方法的自動化程度,可以將信息的語義標注分為手工標注、半自動標注和自動標注.手工標注研究學者的基本信息非常繁瑣,并且耗時耗力.已有研究工作表明自動標注能夠從網頁中提取有效信息,驗證了自動標注的可行性和有效性.半自動標注利用一個預先制定的模板,或者針對每個屬性學習出一個特定的模型來解決各個屬性值的提取問題.但是,采用分別提取各個屬性的技術效率很低.半自動標注技術先天上存在2個缺點:針對個人信息的每一個屬性,都必須定義一個特定模板,或者學習一個特定模型,屬性的增多導致模板和模型的增多,這些模板和模型比較難維護,訓練時間也會很長;分散的規則或者模型不能夠利用各個屬性之間的依賴關系,而開放互聯網中的Web數據特點是各個屬性之間存在很強的依賴關系.自動標注模型需要利用屬性間的相互依賴關系去提高識別各個屬性的準確度.
定義3.學者信息自動標注模型.模型由2部分組成:學習和標注.學習模塊的輸入是已標注好的文檔(即訓練文檔集{D1,D2,…,Dn}和其對應的標注結果{y1,y2,…,yn}),學習模塊通過分析訓練樣本中標注信息的分布,學習輸出標注模型;標注模塊的輸入是待標注文檔集(即測試文檔集{Dn+1,Dn+2,…,Dn+m}),標注系統利用標注模型識別測試文檔中的語義信息,并利用本體進行描述,最后輸出標注結果{yn+1,yn+2,…,yn+m}.
3.1.1 問題描述
學者信息標注指基于本體對包含個人信息的文檔進行語義描述,生成本體的實例.圖4給出了學者信息語義標注的實例.本體定義了:個人的名字(Name)、地址(Address)、聯系電話(Phone)等.語義標注根據本體從文檔中抽出相應信息,實例中的標注輸出基于本體的語義內容.例如:在輸出的標注結果中,“+8610-62788788-20”被標注為Phone,也稱為本體元數據電話號碼(Phone)的標注實例.

Fig.4 An example of semantic annotation for scholars圖4 學者信息語義標注示例
3.1.2 相關工作
早期研究工作集中在從特定結構的文檔中抽取信息,例如借助交互式信息提取方法從電子郵件中抽取用戶聯系方式,協助用戶構建數據庫[1];Yu等人通過級聯混合模型從簡歷中自動抽取結構化信息[2],首先將簡歷分割成連續的區塊并標注其類型,然后利用機器學習方法從特定的信息塊中抽取特定信息,比如從聯系信息塊中抽取地址和電話等.這些研究集中于特定格式的文檔,對源數據的格式有很大的限制,無法用于開放互聯網環境中.當數據量增大時,這類方法面臨著存儲和計算的壓力,可擴展性差.同時,這種被動抽取的方式只能從給定的數據中進行抽取,無法應對主動查詢的要求,無法做到在線的信息抽取.
科研學者的信息大多包含在其個人主頁或介紹性網頁中,目前許多工作開始關注于從更廣泛的Web數據中抽取用戶信息.例如信息抽取系統Artequakt[5]利用基于規則的抽取工具GATE[35]從Web網頁中抽取命名實體和它們之間的關系.文獻[6]提出了從Web數據中以無監督的方式抽取信息.文獻[36]提出了利用搜索引擎進行研究者畫像的框架,首先通過分類模型從搜索引擎中找到用戶的個人主頁,然后從相對結構化的個人主頁中抽取不同類別的文本信息.針對鏈式條件隨機場無法建模層次化的HTML數據的問題,利用樹形條件隨機場模型TCRF進行網頁內容的識別.通過將HTML文檔轉化成DOM樹結構,利用HTML的層次化標簽數據信息進行更精確的數據劃分和預測,在電子郵件地址、機構信息等抽取問題上取得了85%以上的F1分數(F1 Score),是目前相關問題的前沿方法.
除了個人基本信息外,也有一些工作研究用戶隱含屬性的抽取.用戶隱含屬性是指難以從表層文本中直接抽取的人口學信息,例如性別、年齡等.這些用戶屬性對用戶行為和用戶之間的交互有著深刻的影響,也是我們理解用戶行為的關鍵信息,對于許多線上系統有著重要價值.然而,高質量的用戶屬性信息卻非常難以獲取,成為稀缺資源,也由此催生了許多嘗試自動預測用戶屬性的研究工作.大多數相關工作在特定類型的用戶數據領域開展,例如文獻[37]嘗試從用戶的瀏覽行為中推測用戶性別;文獻[38]和文獻[39]分別從游戲中的社交行為和搜索引擎的查詢習慣2個角度出發預測用戶性別.
在社會網絡研究中,也有許多工作從年齡[40]、地理位置[41-42]、身份識別[43]等多個角度嘗試利用社交網絡信息預測用戶屬性.文獻[44]細致地在移動網絡中對用戶屬性的預測和觀察,在大規模的語音電話、短信網絡上,基于用戶的通信行為利用概率因子圖模型同時對用戶的年齡和性別進行預測,同時提出了用戶行為模式和隱含屬性之間的關聯.然而,他們的方法都是針對特殊數據高度訂制的,擴展性較差,無法整合多源數據.一些工作意識到了多源數據的重要性,嘗試通過整合多個數據源提高預測精度.例如文獻[41]和文獻[45-46]中的工作嘗試整合Facebook,Google Plus以及Twitter的數據進行多源屬性預測,取得了顯著的精度提升.
基于名字的性別預測方法[47]具有較好的效果,該方法從Facebook中抽取大量用戶信息,根據他們的姓名和性別生成詞典,從而計算每個名字的用戶從屬于某個性別的概率.此方法簡單有效,在實際實驗中取得了近90%的精度,并被應用于Genderize等性別預測系統中.該方法的性能完全依賴于姓名-性別詞典的質量和覆蓋率,系統需要維護和擴充一個巨大的詞典,卻仍然難以保證高覆蓋率.
目前針對Web數據的信息抽取工作中,層次化基本信息標注存在錯誤累積的缺陷.利用用戶的行為數據進行隱含屬性預測的研究工作,揭示了隱含屬性與行為模式之間的相關關系,但在單向的隱含屬性預測任務上依賴于用戶屬性與用戶行為的關聯度,難以保證預測精度.
研究興趣是學者畫像的重要組成部分,其不僅是學者本身的研究心得或研究拓展方向的集中體現,也能從中窺視不同背景的學者對研究熱點領域或學科研究趨勢的關注度和敏感度.研究興趣挖掘指從學者數據中獲取學者研究的偏好信息以及和學者研究相關的主題關鍵詞.
3.2.1 問題描述
研究表明僅有21.3%的學者會在其主頁中給出研究興趣[36],現有工作通常由學者本人發表的論文著作中提取其研究興趣,采用概率話題模型求解.
定義4.學者研究興趣.論文z由一系列的詞語wi以及該詞語在文中出現的概率p(wi|z)來表示,也即z={(w1,p(w1|z)),(w2,p(w2|z)),…,(wN,p(wN|z))},則研究學者x的研究興趣可表示為{p(z|x)}x.
3.2.2 相關工作
用戶興趣挖掘指從用戶數據中獲取用戶的偏好信息以及和用戶相關的主題關鍵詞.許多早期的研究工作嘗試從用戶相關的文檔中挖掘用戶興趣.例如,文獻[48]收集用戶對感興趣網頁的評價結果用于構建用戶畫像,依據用戶畫像信息推測用戶對網站主題的偏好,由此使用搜索引擎可以快速獲取用戶感興趣的特定主題頁面.此外,他們發現當訓練數據較少時,引入詞典信息會增加用戶興趣挖掘的準確度,但是當數據量增大時提升效果不再明顯.文獻[49]開發了個性化的網頁瀏覽器,能夠自動學習用戶信息,并用于幫助用戶尋找感興趣的網頁;文獻[50]研究了如何用啟發式的方法獲取用戶興趣關鍵詞,將機器學習方法應用于用戶畫像.
近年來的研究工作更多地探索了用戶行為數據與用戶興趣主題之間的關聯.文獻[51]提出了從Twitter數據中挖掘用戶的興趣關鍵詞,基于上下文特征和行為特征,采用遠程監督方法對政黨候選人發布的內容進行建模,預測Twitter用戶的政治偏好;文獻[52]從用戶行為軌跡數據出發挖掘用戶偏好,將非平穩的、時間異構的用戶軌跡在隱含隨機環境中分解成短的隨機步長,分解后的軌跡在短時間尺度上是平穩的,可使用Markov隨機過程進行建模挖掘用戶在不同時間的興趣偏好; 文獻[53]通過一個統一的概率模型對用戶行為背后的用戶偏好以及他們的社會網絡鏈接進行了研究,發現用戶的興趣與社會網絡信息之間是互利的關系.
評估科學家過去和未來的潛在影響是人才招聘和資助決策的關鍵,論文引用數一直是評價學術影響力的重要指標.目前科技論文的數量飛速增長,預測學者已有論文的未來引用數對學者科研水平評估及資助決策具有重要意義.
3.3.1 問題描述



3.3.2 相關工作
信息爆炸時代,隨著科技文獻數量的迅猛增長,只有很少部分文獻獲得廣泛關注[54].用一種動態評估的方法預測單個項目的流行度的能力,在營銷、政策制定和風險管理等領域都具有重要意義.早期對未來流行度的預測可主要分為2類方法,每類都有已知的優勢和局限性.1)側重于在項目集合上再現某些統計量[55],這類模型已經成功地理解了流行動態的基本機制,然而沒有提供獲取具體參數的方法,這些模型缺乏對個人行為的動態預測能力;2)將人氣動態視為時間序列,通過時間相關性來進行預測流行度[56],盡管這類方法在某些領域取得了初步的成功,但是這些模型是確定性的,流行動態建模忽略了注意力的下降過程.
Yan等人[57]引入引文數預測任務,基于科學出版物的內容、作者、地點和出版年設計特征.為了獲得作者排名,計算每個作者以前年份的平均引用數,并根據其他作者的數量確定排名;Yan等人[58]擴大了特征空間,但結果仍然表明,作者排名是特征空間中影響最大的因素;Livne等人[59]從Microsoft Academic Search中提取大量不同的數據集.這個數據集包含3 800萬篇論文,分為七大學術領域.對于引文統計問題,他們根據作者的姓名、作者機構、地點、參考文獻和論文內容構建特征.通過使用SVR發現最重要的一組特征是基于引用網絡的特征,即出版社和參考文獻的影響因子是文獻計量最顯著的決定因素.
Shen等人[60]提出了一個生成概率框架,基于加強泊松過程明確地建立了單個項目獲得普及的過程,預測流行動態.該模型結合了流行動力學的3個關鍵要素:表征內在吸引力的恰當參數、解釋注意力老化效應的時間松弛函數,以及與流行動力學中“富者更富”效應對應的強化機制.該模型的優點體現在3個方面:1)直接模擬個體關注的到達過程;2)漸進概率模型可以很容易地納入貝葉斯框架來解釋外部因素,從而提高預測能力;3)選擇特定松弛函數的靈活性使其成為一個通用的框架,可以用來調整不同領域的人際動態.
Pobiedina等人[61]依據圖挖掘技術,將引文計數預測任務作為引文網絡中鏈接預測問題,其中,論文的引用次數等于網絡節點的入度,其出度對應于參考文獻的數量,由于出度在過去幾年中保持不變,因此出現新的鏈接意味著相應論文的引用次數增加.在引用網絡中利用頻繁的圖模式挖掘,基于挖掘模式計算新特征GERscore,解決引文數預測問題.
AMiner[62]是一個學術科技大數據分析與挖掘系統.AMiner自動從開放互聯網中抽取學者信息,建立了1.36億的學者檔案及科技智庫,為科研人員及機構提供學者搜索/推薦、專家發現、成果評價、技術發展趨勢分析等知識服務及核心技術支持.
AMiner系統的核心模型與算法包括:基于話題的影響力分析模型,自動生成實體之間基于不同話題層次的影響力強度;概率因子圖模型用于識別網絡中不同類型的關系(如師生關系,合作關系等);基于社會知識圖譜的學者研究興趣分析;學者多維度評價等核心算法.AMiner系統的應用層提供了多種知識服務,包括:支持按權威度、地域、語種、性別等過濾條件的專家發現,按H-Index、論文數、引用數、活躍度、社交性、領域多樣性等學者成果多維評價,學者歷年研究興趣發展變化趨勢分析,以及學者語義信息抽取、學者檔案管理,權威機構搜索、話題發現與趨勢分析、基于話題的社會影響力分析、即時社會關系圖搜索、文獻與審稿人推薦、學者的線上社交以及交互式文獻閱讀等多種功能及知識服務.
鑒于AMiner在學者畫像領域的權威性,本節介紹AMiner系統里學者畫像模塊3個基本任務的實現機理.
AMiner發布的研究成果顯示約有85.62%的研究學者來自于大學或科研機構,14.38%的研究學者來自公司.對于來自同一個公司的研究者,他們的網頁可能共享相同的模板,基于規則學習的信息標注方法可能很有效.但是,不同的公司有不同的模板,很難定義一個統一的模板,有效地提取各種信息.對于來自學校的研究者,由于研究者各自的喜好不同,網頁的布局和內容都千差萬別.約71.88%是個人主頁,其余的網頁是介紹性網頁.這2種網頁具有不同的特點,比如個人主頁可能聯系方式等信息以列表的方式給出,而介紹性網頁多以自然語言給出研究者的各種信息,有可能缺失聯系信息.此外,個人信息的各個屬性的實例(各個屬性相應的值)中,約40%的屬性以表格或列表形式給出,約60%的屬性則隱含在自然語言中.
在AMiner系統中,學者信息標注采用的是統一標注模型,包括3個主要步驟:主頁查找,預處理和信息標注.在主頁查找中,給定研究學者的名字,通過搜索引擎得到一系列網頁,而后訓練一個分類器來判定這些網頁是否是個人主頁或者包含很多研究者信息的介紹性網頁,最后把確認的網頁的URL作為個人信息的屬性Homepage的值.
AMiner采用條件隨機場作為標注模型.條件隨機場模型CRFs的目標函數為
pλ(y|x)=
其中,x代表觀察值,即網頁中的token,y代表觀察值相應的標簽,即本文定義的研究者個人信息的各種屬性.f代表數據的特征,λ是各特征的系數,需要通過訓練數據學到.
進一步地,AMiner引入先驗知識進一步提高抽取精度.基于Markov邏輯因子圖模型,通過關系因子建模候選實體間的冗余關系,利用一階邏輯知識庫引入先驗知識,篩除不符合常識的錯誤實體,從而提高抽取系統的準確性.AMiner設計了3種關系因子:局部屬性因子、局部邏輯因子和關系邏輯因子.
局部屬性因子定義了特征向量xi和標簽值yi間的數值關系,局部屬性因子表達式為
其中,F為所有特征函數的集合,Zf將函數值歸一化成概率值,即給定xi的情況下對應標簽值為yi的概率.局部邏輯因子由一階邏輯知識庫中僅涉及單實體的局部邏輯給出,記第m條局部邏輯的示性函數為um,當xi和yi滿足該邏輯時um的值為1,否則為0,類比局部屬性因子,局部邏輯因子的表達式為
關系邏輯因子由一階邏輯知識庫中描述實體之間關系的關系邏輯給出,記第k條關系邏輯的示性函數為rk,當yi和yj滿足該邏輯時rk的值為1,否則為0,類比局部邏輯因子,關系邏輯因子的表達式為
引入Markov假設,即圖模型中的任一變量獨立于所有非鄰節點的其他變量.在給定包含所有變量節點和因子節點的圖模型G時,標簽值Y的條件概率為
通過Markov邏輯因子圖模型,得以在基于分類模型的信息抽取方法基礎上加入先驗知識和冗余實體間的關系,提高信息抽取精度.
相對于各類單獨的方法,統一標注模型有2個優勢:1)對于個人信息的各個不同屬性的標注是相互關聯的,而不是獨立的.基于規則學習的方法和基于分類模型的方法都要針對每個屬性單獨學習規則或訓練模型,它們不能同時標注各個屬性.而統一模型能夠克服這一缺點,在統一框架下同時標注個人信息的各個屬性,并且達到更高的標注精度.2)個人信息有很多特定的屬性和屬性值,如果利用基于規則學習的方法或者基于分類模型的方法,我們必須學習特定的規則和分類器去處理各種不同的情況,這會導致模型個數增多,難以管理、控制.大規模標注采用這些方法是不可行的.相反,統一模型能夠訓練一個模型去標注不同類型的屬性,一次就能夠解決所有的標注子任務.
與其他用戶信息不同,興趣關鍵詞很難區分正確與否,多個關鍵詞保留了用戶不同角度的特征.學者研究興趣沒有準確的評判標準,多數情況依賴于人工標注.AMiner系統采用主題模型對抽取到的興趣關鍵詞進行聚類,以期找出用戶的興趣主題.
AMiner采用文檔主題生成模型(latent Dirichlet allocation, LDA)作為生成模型.LDA是一個用于描述離散數據的生成模型[63].LDA假定文本中的每個單詞是由一些混合的話題產生的,每個話題都有一定的權重,即:

而p(z)又由一個Dirichlet分布產生.LDA是潛在語義分析(latent semantic analysis, LSA)[64]和概率潛在語義分析(probabilistic latent semantic analysis, PLSA)[65]的延伸.這些模型都是為了分析文本的潛在結構,比如話題.話題能夠捕獲文本的語義信息,幫助找到文本里意思相同或相近的單詞,這使得信息檢索時能夠找到和查詢中的單詞語義相關的文檔而不只是包含查詢單詞的文檔.
LDA的貝葉斯網絡結構如圖5所示,圖5中K為主題個數,M為文檔總數,V是給定某個文檔中的單詞總數,α和β分別是每個Topic下詞的多項式分布和每個文檔下Topic的多項分布的Dirichlet先驗參數.LDA模型中的變量總結于表2.

Fig.5 An example of semantic annotation for scholars圖5 LDA結構圖

Table 2 Notations in LDA表2 LDA模型中的變量和標記
根據LDA的圖模型,給出LDA中的聯合概率分布:
p(w,z|α,β)=p(w|z,β)p(z|α)=

LDA模型中有一組隱含變量z,要估計的參數是θ和Φ.LDA模型有多種求解方法,常用的有變分期望最大化算法(variational expectation-maximi-zation, VEM)[63]、吉布斯采樣(Gibbs sampling)[66]和期望傳播方法(expectation propagation)[67].由于Gibbs sampling方法比較容易實現,AMiner系統中采用了它.Gibbs sampling使用采樣的方法,構建Markov鏈,逼近目標概率分布.Gibbs sampling需要求解條件概率p(zi|z-i,w),從這個概率可以為當前單詞抽樣出一個topic.利用聯合概率公式,可以得到條件概率的計算公式:
(1)
其中,nw,k,-i表示單詞w被指派到topick的次數,不包含當前這一次.“·”表示對這列求和,那么n·,k,-i表示語料庫中被指派到topick的所有類別的個數,不包含當前這一次.類似地可以理解nd,k,-i和nd,·,-i.從式(1),直觀上可以看出第1項表示p(w|z),第2項表示p(z|d).事實上,得到每個單詞的topic之后,這些信息可以用于計算計算模型中的參數θ和Φ:
有了這些參數后,我們可以用于計算:
可以把查詢拆成一個個單詞,p(q|d)就可以表示成這些p(w|d)的乘積[68].
AMiner中的論文引用數預測模型同時考慮了4個現象:1)內在質量,即論文本身的質量;2)老化效應,即論文的新穎度會隨著時間的推移而降低;3)馬太效應,即“富者越富”現象;4)近因效應,最新研究成果容易獲得更多關注.基于這4個方面的考慮,AMiner采用循環神經網絡(recurrent neural network, RNN)[69]和長短時記憶單元(long short term memory, LSTM)[70].


Fig.6 Diagram of the citation count prediction model圖6 論文引用數預測模型框架


Fig.7 Formulation of the LSTM unit圖7 LSTM單元的公式化
LSTM單元的公式化如圖7所示,其中LSTM的長期記憶單元為ct,當前信息記憶由短時記憶單元存儲ht=Γtr×tanh(ct).當前工作單元的信息讀取速度高于長期存儲單元,模擬了近因效應.最終,論文d在時刻t的引用數f(d|X,t)=softmax(ht)給出.
開放互聯網帶來的海量數據為研究者畫像問題帶來了新的機遇,同時也帶來了數據噪音、數據冗余等問題.開放互聯網中的學者畫像研究取得了一定的進展,目前仍然是一個充滿挑戰和機遇的新興研究領域.
在開放互聯網中,學者畫像信息抽取方法主要面臨3方面的技術挑戰:
1) 億級網頁抓取的工程實現.針對開放互聯網中的海量學術資源網頁和鏈接,需要設計高效網頁讀寫技術和鏈接抽取技術;針對億級網頁設計并行化爬取方法,需要實現高效的網頁抓取和網頁入庫,網頁前后鏈接發現和屬性入庫,相關的網頁及鏈接庫讀寫支持數百萬級每秒查詢率(query per second, QPS).
2) 智能學術實體與關系抽取.實現基于監督學習和半監督學習結合的學術實體抽取技術;設計基于規則和先驗知識的特定關系抽取方法,包括基于核函數、邏輯回歸句法解析增強等機器學習手段;實現基于遞歸神經網絡和卷積神經網絡的開放學術關系抽取技術.
3) 基于關鍵特征的實體聚合.利用學術成果中作者名、電子郵箱、單位、研究領域關鍵詞等關鍵特征,基于概率模型的學術成果聚合技術;利用合作者網絡,基于復雜網絡技術的學術作者命名消歧技術,基于深度神經網絡自動學習與實體相關的隱藏特征,學術成果特征自適應,提升聚合的準確度.
構建高精度學者畫像庫主要面臨4個方面挑戰:
1) 高精準學者畫像庫的構建方法.需要基于多源異構科研行為數據構建出多維、立體的學術畫像模型,完善科研人員與科研專家的畫像庫,此外,學者畫像數據庫的構建需要考慮基本屬性維度、文獻維度、時間維度、機構維度、地理位置維度、事件維度、主題維度、興趣維度、行為維度、群體屬性維度、心理維度等維度.
2) 多維度標簽化技術.需要解決科研人員、科技專家及科研行為關系的標簽化方法,精確刻畫科研人員、科技專家與科研行為的靜態屬性特征、動態行為特征、科研社群特征,此外,需要解決標簽度量計算,引入畫像可信度量打分機制,通過統計、排比、相似度計算等方法,構建〈用戶,標簽,可信度〉三元組,提高標簽刻畫精度.自動化的高效標簽化算法也面臨著實現大規模科研人員及行為高效畫像的挑戰.
3) 科研學者畫像樣本驗證數據集.用戶畫像數據主要是通過計算機采集數據進行計算推演的方式獲取,缺乏一個準確的結果判定標準,需要研究測試判定樣本的構造模型和機制,制作標準的測試樣本集構造模型以及數據采集策略,所獲取的測試樣本應該具有典型的代表性和廣泛性,形成科學、客觀的科研學者畫像樣本驗證數據集,用于客觀評價學者畫像的準確程度.
4) 畫像的增量更新與溯源技術.針對科研學者畫像數據的增量更新頻率,需要構建高效的觸發器機制與傳播更新機制,提升畫像的時效性.針對科研學者畫像中數據溯源模型的構建方法,設計數據溯源機制,通過對經典的數據溯源模型進行分析研究,需要制定適合科研行為畫像溯源的模型及方法.
開放互聯網中的學者畫像研究取得了一定的進展,目前仍然是一個充滿挑戰和機遇的新興研究領域,可以進行開拓式創新或繼承式研究并取得成果的方向有很多,主要存在于4個方面:
1) 面向多源信息的中文知識圖譜實體與關系抽取.基于面向多源信息的學術知識圖譜實體、屬性和關系抽取技術,建立一個科學完整的科研行為命名實體分類體系,一方面用于指導算法研究,另一方面便于對抽取得到的實體數據進行管理.在此基礎上,基于深度語義模型和半監督學習算法從相關語料中提取出科研行為實體之間的關聯關系.可以考慮利用自然語言處理領域的深度神經網絡語言模型、句法分析方法、篇章分析方法以及語言的可計算性理論等工具,特別是基于深度語義模型來獲取數據源中實體的潛在語義表示,以及實體間關系的潛在語義空間,抽取復雜關系.
2) 面向多源信息的科研行為實體對齊[71]與多尺度融合.基于半監督機器學習的自適應選擇局部集體對齊和全局集體對齊的技術,基于概率模型(如貝葉斯網絡、LDA模型、Markov邏輯網等)來學習實體間屬性和結構的相似性去提高實體對齊的準確率和召回率,解決多源數據中科研行為實體命名規則、定義粒度、判別能力不同導致的數據質量問題.基于深度語義模型的科研行為實體融合技術,以直接優化消歧任務為訓練目標,自動學習上下文和實體的特征表示和“上下文-實體定義”相似度度量,對上下文多個實體同時消歧,實現多尺度知識融合.
3) 學術知識圖譜關系擴展與推理.基于深度表示學習方法的知識圖譜三元組編碼技術,將它們的語義信息映射到低維的潛層特征表示空間(語法、語義空間),以推測知識圖譜中存在的隱式知識.同時,基于一階謂詞邏輯為基礎的符號邏輯知識表示方法,基于W3C標準知識描述系統,從大規模、半結構化或非結構化的數據源自動提取科研行為概念及其上下文關系,將符號邏輯模型中的推理機制應用于表示學習中,不斷擴充和優化關系推理技術,提升大數據環境下科研行為知識表示學習的能力[72].
4) 時、空多尺度場景下的知識圖譜[73]主題演化與更新技術.根據實時采集的多源科研行為數據的動態變化,實時更新對應的學術知識圖譜內容及網絡結構,實現學術知識圖譜中各類主題信息的實時更新.主要通過知識庫語義模型得到實體和關系在知識圖譜空間的潛層特征表示,并基于多模態的深度神經網絡模型框架,實現多源異構學術數據的共享語義分析和動態更新.
本文對學者畫像的相關概念及方法深入研究的基礎上,總結了實現學者畫像的基本方法——信息抽取方法,以及3個基本任務包括學者信息抽取、研究興趣挖掘以及學術影響力預測,給出了學者畫像系統實現的實例分析.隨著開放互聯網規模的不斷增長,開放互聯網中的學者畫像研究將會面臨更多的問題和挑戰.本文最后探討了學者畫像研究中值得探索的方向,供相關學者參考.