胡 斌,徐小良
(杭州電子科技大學軟件與智能技術研究所,浙江杭州 310018)
隨著互聯網信息資源的不斷增長,使用關鍵字的檢索手段,難以滿足用戶高效獲取所需信息。在這種背景下,個性化推薦系統應運而生,并在電子商務、影視、文章推薦等多領域得到應用。但在科技項目評審領域,鮮有項目評審專家自動推薦系統的研究及應用。基于豐富的專家庫信息,根據科技項目信息自動推薦合適的評審專家,是科技項目評審質量和效果的保證。文中根據科技項目評審標準、專家信息庫和待評審科技項目信息研究科技項目評審專家推薦系統,以實現科技項目評審專家的高效準確的遴選。
通用的推薦系統一般適用于電子商務、視頻、音樂等有著大量用戶的互聯網網站,對向量空間數據的獲取多是通過挖掘用戶在網上的瀏覽或購買的歷史記錄。而科技項目評審專家推薦中的數據多源于數據庫中的文本信息,其來源差別較大,并且通用的推薦系統模型一般只考慮用戶-對象二維度量空間,不能夠考慮到評審專家推薦中篩選評審專家的原則等多維因素[1]。因此,運用通用的推薦系統模型會導致推薦結果準確率較低,推薦產生結果不能作為遴選參考。為解決這一問題,提出了一種在基于內容推薦的基礎上融合協同過濾算法的組合推薦策略。為了使推薦的結果能夠符合篩選評審專家的原則,在此基礎上加入了專家評分加權因子,對推薦結果進一步調整。
推薦系統模型具體實現步驟如下:
(1)根據專家信息庫中的專家信息,按評審專家選擇標準(科研課題、文獻、人才培養、獲獎情況)對每位專家評分,建立專家評分數學模型庫。
(2)按數據庫中專家的文本信息,對每位專家信息進行文本分詞,再用TF-IDF算法篩選關鍵詞,建立專家信息向量空間模型庫。
(3)讀取新項目文本信息,對其分詞、篩選關鍵詞,建立項目向量空間模型。
(4)根據新項目的文本信息,找出已評審過的類似項目列表,取出相似項目列表中已選的評審專家,建立類似項目評審專家列表。
(5)將步驟(2)與步驟(3)中產生的專家向量空間模型與項目向量空間模型進行相似性匹配,產生推薦,得到匹配度最高的前N個推薦專家列表。
(6)運用新的混合推薦算法,將步驟(1)、(4)和(5)中得到的推薦專家信息進行處理,從而得到最終的推薦專家列表,設計流程如圖1所示。

圖1 系統推薦實現流程
科技項目和評審專家信息的向量空間模型的創建過程[2]類似,具體的實現步驟如下:
(1)將文檔先進行分詞處理。
(2)運用TF-IDF算法計算每個特征詞的權值[3],并篩選關鍵詞。
(3)將關鍵詞與關鍵詞在整個文本信息中的權重,映射成為一個特征向量 V(d)={〈t1,w1(d)〉,〈t2,w2(d)〉,…,〈tn,wn(d)〉},用這樣的形式表示向量空間模型。其中,ti,i=1,2,…,n 為特征詞條項;wi(d)為ti在d中的權重;wi(d)權重是運用TF-IDF算法根據特征項的頻率信息TF和反文檔頻率IDF來計算出文檔d中每一個特征項的權值,再代入特征向量V(d),便得到該文檔的向量空間模型。
基于TF-IDF特征權重閾值的向量空間模型建立流程,如圖2所示。

圖2 向量空間模型實現流程
專家評分數學模型庫的建立,是為了通過專家的專業評分作為加權因子,調整推薦產生的結果列表,從而提高評審專家推薦的準確性。根據評審專家的評價指標和遴選實施細則,在獲取專家基本信息的基礎上,對信息進行提取建立專家信息的評分數學模型,計算得到專家的專業評分,再將結果存入庫中[4]。具體實現方法:
(1)讀取專家庫中的專家信息,對需要運用的字段信息進行提取。
(2)根據專家信息建立科研課題指標數學模型,計算得到科研課題指標的專業評分,其中計算方法為

式中,Pi,S1,S2為相應的權重;Aαi1,Aαi2分別為已鑒定的項目數和在研究的項目數;i分別為國家級項目和省部級項目。
(3)根據專家信息建立文獻指標數學模型,計算得到文獻指標的專業評分,其中計算方法為

式中,Di,Wi,Wj',Wk″為相應權重;Aβi1為論文量;Aβi2為著作量;Aβi3為印證量;i分別為4大檢索系統收錄,發表于國際、國內核心期刊,國內二級期刊;j分別為著書,編著書,編書;k分別為國外引證量,國內引證量,自引率。
(4)根據專家信息建立人才培養指標數學模型,計算得到人才培養指標的專業評分,其中計算方法為

式中,Ri,C1,C2為相應權重;Aγi1,Aγi2分別為所培養研究生人數和擔任研究生導師的年限;i分別為博士生導師和碩士生導師。
(5)根據專家信息建立獲獎情況指標數學模型,計算得到獲獎情況指標的專業評分,其中計算方法為

式中,Qi,Ej為相應權重;Nj為發表論文數;i分別為國家級獲獎和省部級獲獎;j分別為一等獎、二等獎、三等獎。
(6)根據上述4個評價指標值建立專家評分數學模型,計算得到專家的最終的專業評分,其中計算公式為

式中,Mi分別表示為科研課題指標、文獻指標、人才培養指標、獲獎情況指標的相應權重。
(7)根據前6步的方法計算專家庫中每位專家的專業評分,然后存入數據庫中,完成專家評分數學模型庫的建立。
專家評分數學模型庫的建立實現流程如圖3所示。

圖3 專家評分數學模型庫的建立流程圖
該混合推薦算法的基本思想:首先構建科技項目向量空間模型和評審專家向量空間模型,運用基于內容的推薦算法對向量空間模型進行相似性匹配,從而產生初步推薦專家列表;然后根據已評審相似項目的評審專家列表運用協同過濾推薦算法對得到的推薦專家列表進行調整;最后在前兩步的基礎上運用專家評分數學模型庫中相應的專家評分作為加權因子產生最終推薦列表。具體實現步驟如下:
(1)運用本課題在基于內容的推薦算法[5]基礎上提出的基于內容的分層次推薦算法,計算得到相似值最高的前N位或大于閾值的專家。
(2)融合協同過濾算法的思想[6],查找出與該項目相似的已評審項目的評審專家列表,如果第一步中推薦產生的專家在相似的已評審項目專家列表中,則將項目相似值乘以相應權重加到第一步的相似值上,如果不在專家列表中則加0。
(3)從專家評分數學模型庫中,找出推薦專家列表中每位專家的專業評分,除以100再乘以相應權重加入到上述得到的相似值上。
(4)計算得到最終的綜合分值,再對其重新排序,取最靠前的N/2為評審專家作為推薦返回。混合推薦算法的實現流程如圖4所示。
其中項目向量空間模型與專家向量空間模型的匹配實現步驟如下:
(1)在基于內容的推薦算法下,得到項目的向量空間模型。
(2)根據項目模型中的特征詞和權值與專家信息向量模型庫中的每一位專家進行匹配。

圖4 混合推薦算法實現框圖
(3)運用余弦系數相似度計算方案[7]計算出項目與每位專家相似系數Pi,通過兩個向量的相似系數Pi來表示項目與專家的匹配程度。
(4)取前N個值最大的Pi,所對應的專家為最適合評審該新項目的推薦專家列表N。
推薦產生的專家與人工選擇結果越接近則說明越準確,一般運用覆蓋率(Coverage)和準確率(Precision)兩者綜合產生的匹配率(Matching)來度量推薦的準確性[8]。假設RS為推薦專家集,ES為人工選擇的專家集,則

其中實驗中用到的匹配率代表人工推薦的和推薦系統推薦的結果集的交集除以推薦的總人數,排列次序匹配率代表人工推薦和推薦系統推薦的結果集交集中次序依次對應的人數除以推薦的總人數。
該系統的實驗數據來源于浙江省科技項目管理系統,系統中含有已審批的科技項目為33 288項,評審專家為16 118位。測試數據中專家信息是從16 118位專家中篩選出計算機相關方面的專家,然后再隨即抽取其中300位作為專家樣本庫,待評審的項目是從系統中隨機抽取40個與計算機相關的已評審項目,每個項目計算獲取3組數據:(1)嚴格按照評審專家遴選標準人工選取10位評審專家并且按照符合程度依次排序。(2)用基于內容的推薦算法推薦產生10位評審專家并且按余弦相似值的符合程度依次排序。(3)用提出的混合推薦算法推薦產生10位專家并按照混合推薦值的符合程度依次排序。然后,運用推薦系統的評價指標中匹配率的計算方法分別計算出以上每項(1)與(2),(1)與(3)的匹配率和排列次序匹配率。實驗得到的數據如表1所示。

表1 匹配率與排列次序匹配率實驗數據

續表1
根據表1中的40個項目數據進行統計,實驗結果如圖5,圖6所示。

如圖5所示,混合推薦算法產生的推薦匹配率,在多數情況下都高于基于內容推薦產生的推薦,且混合推薦的匹配率平均值高于基于內容推薦所產生的推薦。由圖6可知,混合推薦算法產生的推薦次序匹配率,在多數情況下都高于基于內容推薦所產生的推薦,且混合推薦的推薦次序匹配率平均值高于基于內容推薦產生的推薦。綜上所述,文中提出的科技項目評審專家推薦模型有較好的可行性,且基于混合推薦的方案具有更高的準確性。
針對科技項目評審專家遴選問題,提出了一個新的推薦系統框架模型和兩種推薦策略,并通過實驗驗證了其可行性和推薦準確度,在一定程度上能幫助在評審專家選擇時提供參考,具有較好的應用價值。但由于文本信息分詞后取得的關鍵詞權重準確度偏低,
致使項目與專家匹配時未能完全按照真實的情況產生推薦,這中間還需要加入人工干預,為進一步提高推薦準確度,下一步的研究工作是提出更優的分詞算法和建立針對性強的分詞詞庫。
[1]許海玲.互聯網推薦系統比較研究[J].軟件學報,2009,20(2):350-362.
[2]PENG Xinyuan.Automated chinese essay scoring using vector space models[C].Universal Communication Symposium,2010:149-153.
[3]KONGMANEE T,VANICHAYOBON S,WETTAYAPRASIT W.The TF-IDF and neural networks approach for translation initiation site prediction[J].Computer Science and Information Technology,2009,4(3):318 -322.
[4]王憑慧.科技項目評價方法[M].北京:科學出版社,2003.
[5]CHUANG Huanming.A study on the comparison between content-based and preference-based recommendation systems[C].Fourth International Conference on Semantics,Knowledge and Grid,2008:477 -480.
[6]ZHENG Zibin.WSRec:a collaborative filtering based web service recommender system [C].IEEE 6th International Conference on Semantics,2009:437 -444.
[7]張振亞.基于余弦相似度的文本空間索引方法研究[J].計算機科學,2005,32(9):160 -163.
[8]劉建國.個性化推薦系統評價方法綜述[J].復雜系統與復雜性科學,2009,6(3):1 -10.