陳 鋒,夏驕雄,2,3
(1.上海理工大學光電信息與計算機工程學院,上海 200093;2.上海大學計算機工程與科學學院;3.上海市教育科學研究院)
興趣標簽作為對科研學者興趣偏好的集中表達,也逐漸成了學者畫像中的“標配”。但隨著科學技術的迅猛發展,學術論文、期刊等學術數據呈高速增長趨勢,人們越來越難以從海量的學術大數據中抽取出精確的學者興趣標簽,于是如何在有限的時間內從大量文本中提取興趣標簽成為學術大數據信息挖掘的一項重要任務。
傳統的學者興趣標簽抽取研究中,循環神經網絡常常需要面對在訓練中出現的梯度消失或梯度爆炸的問題,還有在文本大數據中處理分類問題的時候,文本數據具有非結構化、稀疏性特征,經常導致分類效果不理想。為解決上述問題,本文利用加權投票法融合 Latent Dirichlet Allocation 和改進的Doc2vec算法得到一種新的結合主題向量和文檔向量表示的融合模型,從而有效地提升興趣標簽標注的精準度。
以往的研究主要是通過用戶對網頁的瀏覽內容和瀏覽時的操作行為進行用戶的興趣發現。而后社交網絡興起,周娜等學者提出將興趣挖掘的工作建立在無監督的主題概率模型上,從學者自身發表的論文著作的文本信息中挖掘興趣標簽。本文的主要目的在于利用學術數據構建精準的學者標簽。興趣標簽構建研究采用LDA 與Doc2Vec兩種不同的表示方法,其中文本屬性分類模塊使用預訓練……