畢崇武 沈雪瑩 彭澤 祁寧杰



摘 要: [目的/ 意義] 為改變“以刊評文” 的學術質量評價方法, 本文嘗試從文本片段入手開展知識單元粒度的學術質量評價。[方法/ 過程] 首先基于知識單元的描述規則抽取學術文獻中的知識單元; 其次梳理現有的學術質量評價指標, 構建初步的知識單元質量評價體系; 然后完善初選的評價指標體系, 并根據領域專家意見對待評的知識單元質量進行賦分; 最后利用回歸分析擬合各量化指標與專家賦分, 實現知識單元質量的自動評價。[結果/ 結論] 構建起以形式評價、內容評價和效用評價為核心的三維評價模型, 實現了融合領域專家意見的知識質量自動化計量方法, 克服了長久以來學術質量評價過度依賴于學術載體的不足, 真正將學術評價的單位從知識載體深入到知識內容中。
關鍵詞: 知識質量; 知識單元; 知識計量; 知識評價
DOI:10.3969 / j.issn.1008-0821.2023.11.009
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 11-0112-11
自1665 年世界上第一本學術期刊《學者雜志》(Journal des Scavans)問世以來, 以期刊出版為核心的學術交流體系為學術研究提供了極大保障,并由此衍生出以學術期刊為基礎的學術評價活動。
目前, 影響因子、被引頻次等指標已廣泛應用至學位申請、績效考核、職稱評審等科研環節[1] , “以刊評文” 的現象越演越烈。事實上, 根據引文分析的研究結果, 學術期刊的引用存在著高度集中的分布規律, 學術期刊的評測質量并不能反映單篇論文的實際質量。
2020 年2 月, 科技部、教育部連續出臺《關于破除科研評價中“唯論文” 不良導向的若干措施(試行)》《關于規范高等學校SCI 論文相關指標使用 樹立正確評價導向的若干意見》, 直指學術評價中“唯論文” “SCI 至上” 等“以刊評文” 的不良導向。由此可見, 科技管理部門對破除現有學術評價頑疾早已有所導向, 但對于如何構建一個科學、合理的評價體系仍在探索。
為徹底摒棄“以刊評文” 的評價理念, 本文提出了一種知識單元粒度的學術質量評價方法。該方法從形式、內容和效用3 個維度展開學術評價,并融合專家意見實現知識質量的自動化計量。研究成果旨在克服以往學術質量評價過度依賴學術載體的不足, 將學術評價單位從知識載體深入到知識內容中。
1 文獻回顧與啟示
知識的定義方式決定了知識質量的概念。管理學領域評價科研成果時, 知識通常指人類在特定時空針對某一問題形成的解答[2] , 而知識質量通常指這一解答在提高生產力、影響社會生活、節約試錯成本以及知識增值等特性上滿足要求的程度[3] 。本文通過回溯已有研究成果, 試圖尋找知識單元的質量計量方法。
1.1 相關文獻回顧
國內外少有文獻探討過知識質量的計量或評價問題。邱均平等[4] 曾提出, 知識質量計量是知識計量研究中的重要內容, 是對知識及其成果的學術質量和社會影響的評價。周波等[5] 從信號、過程、模型、本體4 個維度探索了知識市場情景下的知識質量評價模型。Rao L 等[6] 和Yoo D K 等[7] 分別以企業內部知識管理、項目團隊成員合作為情景提出了多維度的知識質量評價模型。此外, 也有少數學者探究在線問答社區或管理信息系統中的知識質量評估問題, 尤其是在線醫療平臺中的用戶內容評估問題[8-10] 。事實上, 這些稀少的研究成果無法為本文提供充分的研究基礎。因此, 本文從更寬泛的研究視角回顧有關學術質量評價、信息質量評價的相關文獻, 以求為本文研究構建基礎。
1) 學術質量評價方法
學術質量評價經歷了從表面到內在、從單維到多維、從人工到自動的發展過程, 所聚焦的評價指標體系涵蓋了規范性評價、科學性評價、影響力評價、創新性評價等[11] 。目前開展學術質量評價最普遍的研究思路是: 在設計科學、客觀的評價體系的基礎上, 以同行評議及其改進方法為主, 以文獻計量、科學計量等引文評價方法為輔, 力求將人工智能技術應用于學術質量的自動化評價中。在同行評議方面, 現有研究對不同方法的可靠性、公平性、有效性開展了廣泛而深入的討論, 并設置了保障措施確保評議結果的質量[12-14] 。在引文評價方面, 學者們基于學術文獻的引用機制, 利用引用內容、引用位置、引用情感等信息, 設計評價指標來間接地開展學術質量評價[15-16] 。此外, 人工智能技術的日益成熟使海量的定量分析和高效的定性分析成為可能。大量研究致力于利用自動化評價減輕評審負擔、增加評審效率, 也由此成為學術質量評價的一個方向[17-18] 。
2) 信息質量評價方法
信息質量評價由起初僅評價信息資源的好壞,逐步發展為如今包含用戶主觀價值取向因素在內的多屬性評估[19] 。Marschak J[20] 最早提出信息質量表征的是信息資源描述客觀事物或事件的準確程度, 在此基礎上Juran J M[21] 拓展出有用性和適用性兩個信息質量評價維度。此后, 大量學者從信息產品服務角度提出高質量的信息應滿足受眾群體的用戶需求, 并構建了諸多多維度、多屬性的信息質量評價模型[22-25] 。隨著社交網絡的發展, 網絡中的信息質量受到廣泛關注, 不少學者以官方門戶網站、在線問答社區為代表, 對網絡信息質量開展了全面、系統的研究工作, 并成為當前的研究熱點[26-27] 。通過梳理已有研究可知, 當前評價方法可分為定性、定量和半定量3 類。其中, 定性評價有利于從整體上把握信息質量的核心概念, 能夠對難以量化的評價對象進行評估, 而定量評估能夠獲得更加客觀、公正的評價結果。但需注意的是, 無論選用何種信息質量評價方法, 其評估工作均是一項系統性工程, 必須遵守規范化的評估程序[28] 。
1.2 已有文獻啟示
回顧已有文獻不難發現, 無論是學術質量評價還是信息質量評價, 每項研究的評價過程各有優劣, 選取的評價指標均對應特定情境, 因此知識質量評價無法完全照搬任何一個評價模型或評價體系, 但是既有理論也提供了如下啟示。
1) 選用多維度評價體系全面測量知識質量
知識本身較為抽象, 難以像普通產品通過定量參數直接測量其質量, 因此需要多個評價維度使其質量的概念由抽象變得具體。此外, 單維度評價體系會產生較大的主觀偏差, 而多維度評價體系能夠在一定程度上降低誤判風險。
2) 融合主觀的定性評價與客觀的定量評價
定性評價能夠借助評價者的邏輯分析與經驗判斷克服知識本身較為抽象的問題, 而定量評價能夠具體、精準地排除主觀因素影響??傮w說來, 定性評價與定量評價各有優勢, 應該將兩者結合起來,形成綜合的評價方法[29] 。
3) 借助人工智能實現知識質量的快速評估
以往學術評價活動受限于數據獲取、數據分析等問題, 其評價結果難以全面反映客觀事實。隨著人工智能技術逐步滲透到學術評價的各個流程, 利用計算機完成知識質量評測, 可以解決主觀判斷弊端, 并極大地提高評測效率。
2 知識單元的質量評價指標體系構建
2.1 評價指標的初步篩選
通過閱讀和綜述關于知識質量、信息質量和學術質量的相關文獻, 本文認為知識單元的質量可以根據多方面因素來測量。例如, 來源、認證、推介等外部特征; 準確性、創新性、可驗性等內部特征;實際作用、有效程度、影響范圍等使用特征。在此基礎上, 本文借鑒葉繼元教授[30] 提出的“全評價”體系框架, 將定性評價和定量評價相融合, 進而擴展到以形式評價、內容評價和效用評價為核心的三維評價模式, 并初步選?。保?個評價指標納入考慮范圍, 如表1 所示。
在劃定評價指標范圍后, 為實現評價指標的規范化篩選, 本文依據訪談結果修正評價指標的相關表述, 重點從合理性和完整性兩個方面, 探討評價指標的劃分是否合理、名稱是否恰當、語義是否模糊、操作是否可行等問題。由于表1 中部分指標間的邏輯關系存在著交叉部分, 為了后續設計問卷時簡潔明了, 本文前期采用非結構化訪談確定初步的知識單元質量評價指標體系。為了保證訪談結果的準確性和有效性, 本文邀請了圖書情報領域研究方向為“科學計量” 和“知識組織” 的6 名博士研究生作為被訪談者。訪談過程共分為兩個部分, 前期與被訪談者就知識單元質量評價應該需要什么指標進行一對一訪談; 后期將被訪談者聚集在一起,開展小型座談會, 就得到的結果進行篩選與總結。最終, 本文得到如圖1 所示的知識單元質量評價指標體系的初選結果。
由圖1 可知, 形式評價、內容評價和效用評價各有側重。其中, 形式評價針對知識質量的信號特征, 依據知識自生產至應用等諸多環節中的質量信號, 可將其概括為知識來源、知識認證和知識推介。雖然知識質量的信號特征并不等同于知識質量, 但是甄別、對比和理解知識質量的信號特征卻是推斷知識質量的重要手段[5] 。內容評價針對知識單元的實際描述, 根據分結構化訪談結果, 圖1 將表1中的“新穎性” 和“創新性” 統稱為“創新性”,將“可驗性” 和“科學性” 統稱為“科學性”。因為在訪談過程中, 大部分被訪談者認為知識主題的新穎程度也屬于廣泛意義上的創新程度。本文結合文獻[31]中將學術創新劃分為“大創新” 和“小創新”, 即從創新的理論本身出發, 不管是主題性的“大創新” 還是方法上的“小創新”, 均屬于創新的范疇, 因此將“新穎性” 和“創新性” 統稱為“創新性”。另外, 在小型座談會中, 被訪談者一致認為“可驗性” 可以歸屬于“科學性”, 因為如果不能通過實際操作來檢驗的知識內容, 則知識內容缺乏說服力, 也無法稱為知識。在此基礎上,本文參考文獻[44-45]中的想法———可驗性是檢驗內容是否科學的重要指標之一, 將表1 中的“可驗性” 指標歸類于“科學性” 指標。效應評價針對知識單元的應用效果, 本文將其劃分為實際作用、有效程度和影響范圍。
2.2 指標體系的檢測與分析
2.2.1 問卷設計與發放
為進一步驗證指標體系的可行性和合理性, 本文通過在網絡和實地發放調查問卷, 獲取科研人員針對不同評價指標的真實態度。由于問卷的發放目的是探究知識單元的質量評價指標體系, 涉及到學術文獻中的知識單元使用及評價, 因此調查對象需要對學術研究具有一定了解。鑒于此, 本文通過設置“是否參與過科研工作” 這一選項過濾出有效問卷; 并且, 為了保證調查文件的數據可靠, 降低被試者的習慣性好評或壞評, 本文對量表中的每個問題設置了正反面, 根據正反面的得分情況再一次篩選出有效問卷。有效問卷篩選規則為“是否參與過科研工作” =“是”, 正反面回答的平均得分位于區間[2.5,3.5]。最終, 本文總計回收的調查問卷324 份, 其中有效問卷200 份。以這些數據為基礎, 本文根據信度分析和效度分析的常規流程, 對圖1 中由初選結果構建的指標體系進行完善。
首先, 檢測有效問卷的可靠性, 計算Alpha 為0.755(<0.7,0.8>), 說明量表中具有較高的內在一致性。然后, 依據KMO 檢驗和Bartlett 球形檢驗,以檢測問卷數據是否適合做因子分析, 如表2 所示。其中, KMO 值為0.754(>0.6); 球形檢驗顯著性為0.000(<0.005), 表明量表數據具有效度。
2.2.2 探索性因子分析
使用SPSS 23.0 對隨機選取的102 份有效問卷進行探索性因子分析。首先計算每個因子的正反面平均得分, 以此作為每個因子分析的輸入數據。每個因子記為Ki , 對應圖1 中的具體指標。然后選擇“主成分分析” 方法, 提取特征值大于1 的因子, 并選取“最大方差法” 獲得旋轉后的成分矩陣如表3 所示。
由表3 可知, 形式評價包括知識來源K1、知識認證K2、知識推介K3 和相容性K5; 內容評價包括準確性K4 和科學性K7; 效用評價包括實際作用K8、有效程度K9、影響范圍K10。創新性K6 的最高值為0.464<0.5, 效度較低, 因此將該指標刪除。表3 結果與圖1 中的指標體系較為相符, 接下來結合驗證性因子對指標體系進行修正和確立。后續2.3 小節將針對指標的修改給出合理解釋。
2.2.3 驗證性因子分析
使用IBM SPSS Amos 21.0 工具進行驗證性因子分析, 即利用剩下的98 份有效問卷對3 個潛變量、9 個觀測變量和9 個殘差變量的模型進行效度驗證。本文采用最大似然估計(Maximum Likeli?hood)得到因子載荷系數如表4 所示。
表4 展示了不同因子與關聯變量間的相關關系, 通常使用標準化載荷系數來表示相關關系。從P 值可以看出, P(K1 )= 0.372>0.001, 并且其標準化載荷系數僅為0.104<0.4, 說明K1 與F1 之間的對應關系非常弱, 需從F1 中移除; K5 的標準化載荷系數為0.369<0.4, 說明K5 與F1 之間的對應關系也較弱, 可將其從F1 中移除。移除K1、K5 指標之后, 本文得到的模型擬合指標結果如表5 所示。表5 數據顯示, 移除指標后的模型擬合程度相對較好。
2.3 指標體系的修正與確立
本文綜合考慮了探索性因子分析和驗證性因子分析的計算結果, 調整了最初的知識單元質量評價指標體系, 如圖2 所示。圖2 與圖1 的前期結果相比, 知識來源K1、相容性K5 和創新性K6 經過信度和效度的測驗, 均已移除。從這一結果來看, 科研人員在利用知識時, 更加關注知識的準確性和效用, 而知識來源和相容性相對來說不是很重要; 此外, 檢測結果顯示知識單元的創新性需要從指標體系中移除。筆者認為這一原因在于: 知識單元的質量評價體系不等同于學術評價體系, 知識單元作為最小、獨立的知識單位, 是存在于人類知識庫中結構化的有價值信息, 其中強調的知識并非必須具有創新性, 而是必須具有科學性, 因此知識的創新性在知識單元的質量評價體系中未被領域專家重視。
3 融合專家意見的知識質量自動化計量方法
當前學術評價的主要方式是專家評審, 這不僅需要大量評審專家, 耗時、耗力, 而且受主觀偏見、研究方向等因素影響。如果能夠由計算機自動化完成評價過程, 并給出評價結果的分析報告, 可以在一定程度上解決上述問題。本文設計了知識單元質量的自動化評估思路, 如圖3 所示。
首先, 從輸入數據中提取各計量指標對應的質量特征x; 然后, 構建回歸模型刻畫知識單元的質量特征x 和預測結果p 之間的潛在關系, 并通過模型訓練確定各評價指標的實際參數; 最后, 選取優化算法不斷縮小預測結果p 與專家評分y 之間的誤差數值, 實現專家評測結果與自動計量結果趨于一致。
3.1 評價指標的獲取與量化
3.1.1 形式評價維度計量指標
1) 知識認證
知識單元是組成知識的基本單元, 對其認證可依據其載體的認證結果。學術期刊是知識單元的重要載體, 其影響因子雖可在一定程度上揭示學術期刊的實際水平, 但容易受到單篇高被引論文影響。