楊中華,李般若,李亞鑫,衛武
(1.武漢科技大學恒大管理學院,湖北武漢 430065;2.武漢科技大學服務科學與工程研究中心,湖北武漢 430065;3.湖北省產業政策與管理研究中心,湖北 武漢 430065;4.武漢大學 經濟與管理學院,湖北 武漢 430072)
眾包作為一種將特定的工作任務以自由自愿的方式外包給非特定大眾的形式,能夠有效降低成本,促進跨界創新,因此吸引了國內外學者的廣泛關注。眾包概念在2006年被提出以后,國內外相關研究文獻一直處于高速增長中。通過WoS(Web of Science)數據庫的檢索發現:國際眾包領域的研究文獻在2006年后快速增長,近十年來增長率雖有所下降,但文獻數量仍然保持增長;同時,作為為數不多的國內外學者幾乎同時起步的研究領域,國內學者在該領域的研究成果頗豐,相對領先于國外。目前,國內外關于學科發展現狀的研究多采用文獻計量方法對學科的文獻發表情況進行考察,通過對該學科研究文獻的分布描述,探究科學發現的內部機制和規律。相關研究多從科學文獻計量入手,很少有學者從發表這些文獻的作者角度,通過作者履歷信息挖掘對該領域的研究現狀進行分析,作者履歷中所包含的獨特豐富信息尚未得到充分挖掘。
個人履歷信息(Curriculum Vita,CV)的精確性和豐富性,使其在分析某些文獻計量數據不能很好覆蓋的學科時顯示出獨特的數據價值。目前,履歷分析法在職業成長、人才流動、科研合作、群體特征分析以及科研政策評估等領域得到廣泛運用。通常,CV記錄了一個研究人員的各種職業和非職業的個人經歷,這種獨特資料使得CV成為職業成長研究的重要數據來源。在研究科研人員職業成長的影響因素中,職稱、性別、學科背景、產業經歷、國外教育、博士后經歷等因素最為人所關注。同時,通過CV所記錄的教育經歷、專業經歷和訪學經歷等數據的分析,可以探索人才流動、科研合作規律。除個體層面外,CV數據也常常用來研究某一群體(如杰出科學家、女性科學家、諾貝爾獎獲得者等)或某個學科科研群體的特征。我國學者關注的重點是一些高層次科技人才群體,不少學者通過獲得一些長江學者、 “百人計劃”研究員和杰出青年的CV數據來分析該群體的主要特征。CV數據也是科研項目與政策評估的重要數據源,Monica等基于CV數據對比分析了申請資助模式和研究中心資助模式兩種研究資助形式對科研活動的影響。
履歷分析法可以從大量非結構化作者履歷信息中提取出有價值的信息,相關研究成果也表明了該方法的獨特價值。然而,履歷分析法也存在收集過程復雜、信息不完整等問題,可能會導致研究結果偏畸。針對該問題,本文提出將個人履歷信息與科學文獻信息融合進行數據挖掘的思路,以彌補單一數據來源可能造成研究偏差的缺陷。因此,本文以國際眾包領域核心作者作為研究對象,基于扎根理論運用NVivo編碼工具對核心作者的履歷信息和相關文獻進行編碼和挖掘,通過作者學科背景、工作機構、研究技術、研究主題等類目分析,以探尋國際眾包領域中外學者研究的異同,并希望從中汲取有價值的要素,促進國內眾包研究的深入發展。

期刊論文是反映科研成果最直接的方式,它反映了某一領域科學研究的總體情況,也方便獲取作者的相關數據。因此,本研究在WoS中以“crowdsourcing”作為主題詞和篇名的共同檢索詞,在SCI和SSCI數據庫中對2016—2020年數據進行檢索,并對搜索結果選擇文獻類型為“article”精煉,獲得1 085條文獻信息;為了保證文獻的相關性,作者以人工方式對1 085條文獻的題目、摘要和關鍵詞進行審閱,排除了啟事、更正以及其他不相關文獻后,共獲得911條文獻作為后續分析的數據源;將911條文獻題錄信息導出至CiteSpace,對文獻作者發文頻次進行統計,得到其最高發文量為14篇,根據普賴斯理論算得M約為3。因此,本文選擇發文量在3篇及以上的128位中外核心作者作為履歷分析的研究對象。
國際眾包領域國內核心作者共70人,其中62人來自高校,3人來自科研院所,3人來自醫院,2人信息未找到。具體信息見表1。

表1 國際眾包領域的國內核心作者基本信息
國外核心作者共58人,分別來自于美國、澳大利亞、新加坡等8個國家;其中,47人來自高校,7人來自科研院所,3人來自公司,1人信息未找到。具體信息見表2。

表2 國際眾包領域國外核心作者基本信息
對比國際眾包領域中外作者所在機構發現,高校是眾包領域核心作者的主要來源機構(圖1),還有部分核心作者來自于科研院所;比較而言,國外核心作者的來源機構更加豐富,除高校、科研院所外,企業也是部分核心作者的重要來源機構。

圖1 國內外眾包領域核心作者來源機構
本研究中的眾包領域國內核心作者履歷主要包含工作單位網站展示的個人信息,以及網頁上相關信息;國外作者履歷主要源自其個人網站主頁,部分來自于領英網站上的檔案信息,以及所在機構主頁中的個人信息頁面。在獲取履歷的過程中,發現有些履歷中作者的研究興趣及技能專長抽象且廣泛,并不能體現與眾包研究領域的直接聯系,為了輔助分析這些核心作者在眾包研究領域的具體研究方向、研究技術手段等信息,本研究還對核心作者發表的眾包相關期刊文獻進行收集,共獲取到了國外53位作者的履歷信息和211篇相關文獻、國內56位作者的履歷信息和190篇相關文獻。
對獲取到的國內外核心作者的109份履歷和相關文獻信息進行標記:國外作者53份履歷信息標記為A1~A53,53個工作單位網頁標記為B1~B53,211篇相關文獻標記為C1~C211;國內作者56個工作單位網頁中的學者簡介信息標記為D1~D56,56份工作單位網頁標記為E1~E56,190篇相關文獻標記為F1~F190。采用人工編碼方式,將國內國外核心作者的履歷信息和相關文獻信息分別進行編碼。
在對核心作者履歷信息分析之前,首先需要對其進行編碼?;谠碚摚疚睦肗Vivo 11對作者履歷信息及相關文獻的文本數據進行編碼分析。編碼是質性研究的核心步驟,通過將文本內容中字句、大意、觀察到的特點進行全方位了解,分解成一個個獨立的概念,再對這些分解出的概念節點按照某種范疇重新歸類。編碼過程主要分為開放式編碼、主軸式編碼和選擇性編碼三個階段,提取出文本中在某些方面有意義的相同點,并將他們群組化。
首先將履歷信息文本分為國內國外兩部分,通過對文本的仔細反復閱讀,查找關鍵信息,對較為模糊的概念,前后比對,反復斟酌,尋找更加貼切的概念對其命名,創建自由節點。最后,從56份國內作者履歷信息中編碼出48個自由節點,433個參考點;從53份國外作者履歷信息中挖掘出53個自由節點,379個參考點(詳見圖2)。

圖2 核心作者履歷信息的開放式編碼
在進行編碼時,通過對核心作者履歷信息的53個自由節點進行整合,歸納出相同的6個樹節點,分別為學術機構、國際交流、眾包應用、眾包機制設計、眾包綜述、研究方法,如圖3所示。

圖3 核心作者履歷信息的主軸式編碼
在經過前面兩個編碼步驟后,選擇式編碼階段將比較不同的類屬,梳理層次,分析產生更具統領性的核心類屬,故本研究針對國內外作者履歷信息最終歸納出三個核心類屬:學科背景,研究方向,研究技術手段(圖4)。

圖4 國內外核心作者履歷信息的選擇式編碼
學科背景方面,本文統計了中外學者在教育經歷、國際交流、學術機構等三個方面的信息。
教育經歷方面,統計了學者本科、碩士、博士三個階段的學科背景。按照《授予博士、碩士學位和培養研究生的學科、專業目錄》,將學者各個階段的學科背景分為哲學、經濟學、法學、教育學、文學、歷史學、理學、工學、農學、醫學、軍事學、管理學和藝術學13大門類。如履歷D36,本科專業是數學專業則歸為理學,碩士是運營研究則歸為管理學,博士是運籌學則歸為管理學。統計結果發現:眾包領域國內核心作者大部分來自工學門類,少部分來自理學,其余零散分布于管理學、文學和哲學;國外核心作者學科分布更為廣泛,工學、理學、經濟學、管理學、醫學和教育學等學科皆有涉及。就作者教育經歷的學科變遷而言,國內眾包核心作者跨學科較單一,主要是理學-工學、管理學-工學;而國外眾包領域核心作者跨學科經濟豐富多元,主要是理學-教育學、經濟學-教育學、理學-管理學等。
國際交流方面(圖5),眾包領域國外學者更多具有海外教育的經歷,他們中約有37%的學者有在海外接受學位教育的經歷,相較而言國內核心作者接受海外教育的比例為21%。海外交流經歷方面,國內學者中具有海外交流經歷的比例遠遠高于國外學者,這也是近年來我國大力鼓勵海外學術交流、海外訪學等政策的結果。此外,無論是國外還是國內約有1/3的學者沒有海外交流經歷,但并沒有影響這些學者在眾包領域優異的研究產出,表明隨著國內外學者間交流日益頻繁,學術文獻擴散自由,即使沒有國外交流經歷也能獲得最新最前沿的研究動態并做出優異的研究產出。

圖5 國內外核心作者國際交流情況
就該領域核心學者的來源機構而言,無論是國內核心作者還是國外核心作者,他們的來源學術機構分布基本相同(圖6):核心作者大多數工作于計算機學院、軟件學院;商學院也是國內外核心作者的重要來源機構;除了高校以外,國內外核心作者中有很大一部分學者來自科研院所、研究中心。

圖6 國內外核心作者學術機構分布對比
研究技術手段主要反映了眾包領域國內外核心作者所使用的研究方法。通過編碼統計發現,眾包領域所采用的主要研究方法主要有算法設計、模型推理、模擬仿真等(圖7)。

圖7 國內外核心作者研究方法對比
對比發現,算法設計、模型推理是國內外核心作者最常用的研究法,其他如模擬仿真、現場實驗法、案例研究等方法國內外核心作者各有偏好。國內核心作者發表的研究文獻中,分別約有65%和28.8%采用算法設計和模型推理的方法展開研究,其他研究方法則較少有學者使用。如Tong等在研究眾包中的任務分解機制時,提出了一種貪婪啟發式算法,以及使用具有可證明的近似比率的最優優先級隊列結構的高效近似框架,嘗試分解大規模眾包任務,以最低的成本實現所需的可靠性。而國外核心作者研究方法較為豐富,除了算法設計運用較多以外,還大量地運用了模型推理法、現場實驗法、內容分析法等方法。如Zhang等提出了一種用于大數據特征學習的雙投影深度計算模型,以通過替換常規的隱藏層來學習大數據的交互功能,證明了其在大數據特征學習中的潛力;如Zhao等進行了促進社區參與艾滋病治療研究的眾包競賽研究,對促進者和參與障礙者定性評估,對31個相關研究對象深度訪談,使用歸納和演繹編碼技術對數據進行錄音,轉錄和主題分析。
統計分析顯示,國際眾包領域的研究主題主要包括眾包機制設計、眾包應用、眾包綜述三個大類(圖8)。

圖8 國內外核心作者研究主題對比
3.3.1 眾包機制設計
眾包機制設計進一步可以分為眾包框架設計、匹配機制設計、分發機制設計、眾包激勵設計、眾包質量保證機制、眾包成本控制、眾包團隊形成機制等細分研究主題(圖9)。

圖9 國內外眾包機制設計領域研究主題分布
激勵機制是提高眾包質量的有效途徑,匹配機制設計是為了提高任務分配的有效性,使得任務的發包方和接包方供需匹配,這也是眾包的一個關鍵性問題。國內關于眾包激勵機制和匹配機制設計的研究相較于國外具有顯著優勢,國內學者更關注激勵機制和匹配機制的算法設計研究,通過模型推理的方法進行研究,說明保證眾包模式的活躍性和有效性是國內學者重點關注的議題;在眾包質量保證機制、眾包框架設計方面等其他方面國內外研究相差不大,基本持平,國外在眾包成本控制上研究略多。
3.3.2 眾包應用
目前,眾包模式被廣泛應用于數據可用性、物聯網、隱私保護、地圖與導航、語義集成、應急與救援、物流與供應鏈和醫學眾包等領域。隱私保護、地圖與導航是國際眾包領域國內外學者共同關注的重要問題,相關研究成果也較多集中在這兩個領域。國內外學者在眾包應用方面研究重點整體相差較大,可能與學者學科背景以及眾包在各國的發展有關,國外在醫學眾包領域有較多的研究成果,而國內相關研究尚處于空白;而國內近年來在隱私保護、地圖與導航以及應急與救援領域發展迅速,相應的眾包應用研究較多,這也反映了眾包模式在我國的重點應用領域(圖10)。

圖10 國內外眾包應用領域研究主題分布
3.3.3 眾包綜述
國內外對眾包領域的研究動態進行綜述,其主題涉及空間眾包、參與者動機、眾包系統、眾包技術、醫學眾包等主題(圖11)??傮w而言,國內外學者在眾包領域的綜述文獻數量不是很多,原因可能在于某些主題的研究開展時間不長,尚未形成較為成熟的科學體系,相應的文獻也不多見。相對而言,國外學者在參與者研究、空間眾包、眾包系統、醫學眾包、眾包流程和眾包市場等領域具有綜述研究文獻;國內學者僅在參與者研究、空間眾包、眾包技術和眾包系統等主題上有少量的綜述文獻。綜述類文獻是對某個主題國內外研究的歸納和總結,可使讀者快速全面地了解該領域的研究動態和發展方向。如Pavel Kucherbaev等針對眾包流程化問題,對TurKit、AutoMan、Jabberwocky、CrowdComputer、CrowdLang等11款眾包平臺從語言定義、任務支持、流程控制、質量控制等7個維度進行了對比分析,為未來研究指明了新方向。

圖11 國內外眾包綜述領域研究主題分布
針對履歷分析法所存在的收集過程復雜、信息不完整的缺陷,本文提出將個人履歷信息與科學文獻信息融合進行數據挖掘的思路,選取眾包領域核心作者作為研究對象,基于扎根理論利用NVivo軟件從作者學科背景、研究技術手段、研究主題三個角度進行編碼分析,揭示了國際眾包領域中外核心作者研究的共性與差異。
(1)學科背景方面:國際外眾包領域中外核心作者教育經歷都較集中于工學和理學,國內學者跨學科經歷較為單一;國內學者中具有海外教育經歷的比例為21%,低于國外學者的37%,然而,國內學者中具有海外交流經歷的比例遠遠高于國外學者;就核心作者供職學術機構而言,國內外核心作者的來源學術機構分布基本相同,大多數學者工作于計算機學院、軟件學院,同時商學院也是國內外核心作者的重要來源機構。
(2)研究技術手段方面:在眾包領域國內外學者主要使用算法設計、模型推理、模擬仿真、現場實驗法、案例研究、實證研究、文獻計量法和內容分析法等研究技術手段,算法設計、模型推理是國內外核心作者最常用的研究法。國內核心作者更集中于運用算法設計對眾包問題進行研究,其他研究方法運用較少;而國外核心作者研究方法較為豐富,對眾包的研究角度更多,研究更加深入。國內學者可以拓寬思維,采用多樣的研究方法,如模型推理法、內容分析法等,并結合我國實際需求,加強我國眾包應用方面研究。
(3)眾包研究主題方面:國內外學者的研究重點主要集中于對眾包機制設計和眾包模式在各個領域的應用研究;國內學者更關注眾包激勵機制和匹配機制的算法研究,與國外相比更具優勢,而在眾包質量保證機制、眾包框架設計等方面國內外研究相差不大,兩者皆重點關注眾包成本控制的研究;在眾包應用方面,國內外研究側重點不同,國外學者對醫學領域的眾包應用研究較多,而國內近年來在隱私保護、地圖與導航以及應急與救援領域的研究發展迅速;此外,國內外學者對綜述方面的研究都較少,在眾包研究領域只有零散的分布。
通過對眾包領域核心作者履歷信息挖掘,本文認為未來應有更多不同學科背景的學者加入眾包領域研究,加強跨學科知識交流;豐富研究方法和研究角度,推進眾包研究的深入;結合我國實際需求,擴大眾包應用領域。由于主客觀因素的影響,還存在以下不足之處:首先,質性分析方法處理數據的能力有限,本文只對2016—2020年的文獻數據開展研究,若能結合主題模型等其他文本挖掘方法對內容進行快速提取,研究結果的呈現也將更加豐富;另外,由于使用履歷信息研究存在的履歷收集過程復雜、信息不完整問題,將來研究可以考慮將個人履歷信息與科學文獻表征信息、公開網絡信息等多源信息融合進行數據挖掘。