吳昌錢, 洪 欣
(1.泉州信息工程學院 計算機科學與技術系,福建 泉州362000;2.華僑大學 計算機科學與技術學院,福建 泉州362000)
眾包是基于人工計算的智能計算的重要研究內容,目前已有的眾包平臺包括Turk,Crouw-Flower和Clickworker等.這些眾包平臺通過人工方式對圖片或者文檔等內容進行標記,然后利用標記的數據對機器學習的算法進行訓練,從而進行圖片或者文檔的分類或者排名[1].對群體標簽進行聚集的最簡單的方法是采用多數投票等啟發式方法,然而啟發式方法沒有對每個工人標記數據的可靠性進行差別對待.為了解決上述問題,研究人員在對群體標簽進行聚集時考慮了每個工人的可靠性不同,提出了相應的概率模型.概率模型可以對每個工人的準確性進行建模,但是仍然忽略了工人的評價偏好或者傾向.對于每一個工人,對應著一個融合矩陣,該融合矩陣中的每一行表達了用戶將某個真實標簽標記為不同標簽的概率.在眾包中,工人的評價傾向可以通過融合矩陣得到,將融合矩陣融入到標簽聚集過程的模型有[2],這些模型與啟發式模型相比具有更高的準確性.基于融合矩陣的眾包模型將每個工人的融合矩陣視為潛在變量,用融合矩陣作為用戶的畫像.
在基于融合矩陣的眾包模型中,由于標簽數量眾多,使得融合矩陣非常大.同時,工人的標記往往服從冪率分布[3],即僅僅以小部分工人標記了大量數據,而大量的工人往往只標記……