人工智能在學術誠信建設中的應用探討

2020-01-08 02:24:39李娜娜李銀平

天津科技 2020年1期

李娜娜，李爽，李楊，李銀平

(1.天津市第一中心醫院《實用器官移植電子雜志》編輯部天津 300192；2.天津市天津醫院《中華危重病急救醫學》雜志社天津 300050)

近年來，學術不端的行為屢見報道，2015年英國出版商現代生物出版集團撤稿生物醫學論文 43篇。2017年，施普林格出版集團撤銷《腫瘤生物學》期刊論文107篇[1]，此次撤稿事件在學術界引起軒然大波，不僅刷新了全球學術期刊一次性撤稿論文數量的紀錄，更是首次將科研誠信問題推至風口浪尖。尤其在我國，科研誠信得到了前所未有的重視，科研誠信危機浮出水面。加強科研誠信建設，提升學術道德水平，已成為我國學術界一項刻不容緩的重要任務。

當前，隨著知識大爆炸時代的到來，人工智能(Artificial Intelligence，AI)、“互聯網＋”、數據挖掘、深度學習正在融入我們的生活，同時對傳統行業提出了挑戰。國務院于2017年7月頒布了《新一代人工智能發展規劃》的通知，明確指出要全面貫徹、深入學習習近平總書記系列重要講話精神和治國理政新理念、新思想、新戰略，將提升新一代AI科技創新能力作為未來發展的重要戰略方針，構建 AI科技與社會和諧發展的創新體系，爭取到 2030年，我國的 AI理論、技術與應用總體可以位于世界領先地位[2]。AI是研究、開發用于模擬人的思維過程和行為的學科，該領域的研究包括機器人、音頻識別、語言輸入及處理等。隨著以數據挖掘、深度學習、互聯網為基礎的 AI時代的到來，人們逐步感受到了其帶來的沖擊和影響。作為發表重要科技成果、知識與信息傳播及引領輿論導向的重要行業[3]，出版業一直是與人們生活密切相關并緊跟科技潮流的行業，尤其是期刊領域，在人工智能不斷崛起的背景下，各種智能科技已開始逐步被應用，未來將進入智能出版時代[4]。因此，利用大數據挖掘、機器深度學習、VR/AR、人機交互等工具進行學術不端檢測，逐漸成為新的趨勢。

目前，學術不端行為檢測系統是各出版社甄別學術不端的主要工具。與國內相比，國外的檢測系統起步較早，反抄襲技術相對成熟。Turnitin檢測軟件創建于 1998年，是目前全球最權威、使用最多的英文檢測軟件[5]，支持中文、意大利文、法文、英文等多種語言。在我國，中國知網在2008年開發的AMLC系統是目前國內期刊出版單位使用最多的檢測系統，其優點是檢測速度快、準確率高、抗干擾性強，支持的文件格式多樣。隨后萬方數據庫和維普資訊也相繼推出WFSD系統及WPCS系統，相比AMLC系統，這2個系統都支持個人使用。WFSD的優勢為算法精準科學，報告詳實全面；WPCS的優勢為檢測資源豐富，有創新性檢測指標。北京智齒數匯科技有限公司針對大部分高校畢業生推出了 PaperPass檢測系統，其比對指紋數據庫由 9000多萬種學術期刊和學位論文、超過10億的互聯網網頁數據庫組成[6]。

以上4種是目前我國使用比較普遍的檢測系統，但仍然存在諸多問題：①各個系統存在檢測差異；②數據庫中的論文存在滯后性或缺失；③檢測算法不夠智能；④不能區分合理的自引、他引或抄襲；⑤不能檢測論文中的圖片、圖表抄襲。

這些問題已存在許久，但是隨著 AI、“互聯網＋”、AR/VR等新興技術的崛起，信息傳播更加智能、精準，智媒時代已經開啟[7]，AI與文化產業的交集逐漸擴大，為 AI在學術不端行為檢測中的應用提供了可能，其中的跨語言檢測技術和語義識別技術可幫助檢測軟件有效解決“思想抄襲”的問題[6]。

1 建立完善的數據庫系統

想在海量的論文中分辨出相似、相近文章以及判斷文章的價值，需要一個龐大的數據庫系統。因此，未來將利用AI、機器學習、深度學習不斷擴大和完善數據庫。機器學習指用算法解析數據，通過學習對周圍發生的事做出判斷、預測；深度學習是實現機器學習的一種技術，利用人工神經網絡(Artificial Neural Network，ANN)實現，它的構想源自于大腦的神經元，擁有獨立的層、連接以及數據傳播方向。每一個神經元會對輸入的信息進行權衡，確定權重，搞清它與所執行任務的關系，比如有多正確或多么不正確，最終的結果由所有權重來決定[8]。

數據庫系統與AI系統是相輔相成的，AI系統使用大量標準的算法去執行搜索與推理、高效檢索訪問以及管理海量數據庫。數據庫技術中引入AI，實現了兩者的完美結合：數據庫智能化和智能化數據庫。數據庫智能化，就是將數據庫系統作為 AI系統，利用AI技術實現數據庫系統的智能表達、推理和查詢功能；智能化數據庫表現為數據庫定時自我更新的功能，使其具備一定的翻譯、推理功能，提高系統的智能化程度[9]。目前，國內的 AMLC、WFSD、WPCS、PaperPass等系統均不能達到智能化效果，同時還存在數據庫不穩定、更新不及時、缺乏外文以及小語種文獻、覆蓋范圍不全面、缺乏網絡或會議發表文章等問題，不能將同一作者、導師、單位進行歸類，在文獻檢測的時候，通常不能排除同一作者的文章。另外，各系統缺乏數據共享平臺，不同系統的檢測結果無法進行共享對比。出版巨頭愛思唯爾誠信部門主管也表示，出版商需要創建一個共享的數據庫，以便進行相關檢索，查實論文圖片重復使用的情況。而 AI不僅能建立完善的數據庫系統，甚至構建數據共享平臺，為學術不端檢測打造扎實的基礎。

2 開發高效的圖片相似性檢測技術

在文章相似性檢測中，圖片的相似性檢測往往是最困難的，因為目前沒有任何一個軟件或算法能夠準確分析2張圖片的相似性，尤其是在作者刻意進行修改的前提下。在中國，論文文字查重體系一直到2005年前后才建立。后來，人們又不斷優化這個系統，從能識別“復制粘貼型”抄襲，到能識別改變用詞和句法的抄襲，但圖片重復一直是論文查重的死角[10]。在過去，圖片審核的工作往往需要人力完成。Nature雜志會對收到的稿件隨機抽樣進行檢查，并要求作者提供未編輯的圖像作參考；《細胞生物學雜志》和《歐洲分子生物學組織雜志》也是對圖片進行手工查重。手工查重不僅耗時、耗力，更重要的是效率低，甚至檢測不出，以至于多數刊物都沒有采用這項流程。

2018年億歐智庫發布的《2017人工智能＋內容生產研究報告》中提到的“圖像相似性檢測”或許將帶來新的希望。近 2年，在 AI芯片和服務器集群逐步完善，算力越發強大的基礎上，無監督學習、深度強化學習、遷移學習、生成對抗網絡等算法的研究繼續深入，在文本處理、音頻處理和圖像處理方面持續取得突破。將這一技術用于文章相似性檢測的想法，很快就實現了。同年，美國紐約雪城大學的研究員丹尼爾·阿庫納等研發出一套算法，可以利用 AI識別學術論文中的圖像造假，對論文圖片進行查重。他們檢測了 76萬篇論文，并從中提出有效圖片 263萬張。其中，約 9%的圖像存在高度重復，該團隊又在其中選取了約4000張可疑圖片進行人工核查。經測算，在所有論文中，約 1.5%存在學術不端的嫌疑，0.6%確認存在圖像方面的論文造假。

3 完善智能語義檢測技術

現有的檢測系統只能粗略檢測大段的文字復制，無法對篡改、偽造進行檢測，并不能根據語義、語境、同義詞、近義詞等進行檢測。中文博大精深，如果作者刻意對語言文字進行修飾、篡改，現有檢測系統是不能及時發現的。自然語言處理(Natural Language Processing，NLP)是利用計算機對人類自然語言信息進行處理和加工，最終實現人機對話的理論和方法[11]。目前，NLP與 ANN技術被應用于學術不端檢測，大幅提高了編輯的效率[12]。無論字還是詞組，在形式上都可從發散或收斂、分或合，來產生或排除相應的形式歧義，形成涉及形式語義的判定。另外，由于年代、方言和人際的種種復雜因素，其交叉重疊的內容與形式之間增加了無數歧義，很多文章難以判斷，而 AI可以很好地解決這一難題。

此外，另一個檢測難點為外文翻譯，某些作者提交的文章是直接翻譯外文文獻后拼湊而成，目前各大檢測系統尚無法識別這種類型的文章。但是隨著 AI的發展，AI翻譯也逐漸變得簡單、便捷。AI翻譯是指通過計算機等芯片軟件，基于規則的機器翻譯，根據統計規律來進行翻譯，這是通過詞典和規則庫來構成知識源，以一定的規則為基礎來進行的翻譯。隨著AI的發展，基于 ANN的機器翻譯誕生，通過深度神經網絡，自動地在數據庫中學習翻譯知識，通過理解源句子，經過復雜的推導運算和學習計算，生成流暢且符合規范的譯文。這種基于ANN的機器翻譯實現了學習功能，從各個方面使人工智能翻譯取得質的飛躍[13]。而文獻檢測系統可以利用這一技術，檢測中文文章與外文文獻的相似性，進一步杜絕不勞而獲的現象。

總之，學術期刊作為把控學術論文真實性的重要環節之一，深刻影響了國內學術環境的學術誠信。科研人員及科研單位作為源頭，更應充分了解國內學術誠信現狀和學術態度的影響因素，加強學術誠信建設，以提高論文的質量和可靠性，提高我國學術誠信和國際影響力。在當今人工智能迅速發展的時代，“互聯網＋”、AI、數據挖掘等已經為我們的生活帶來了許多便利，積極擁抱人工智能帶來的變革，探索利用人工智能促進學術誠信建設的新方法，將會為學術期刊發展帶來新的動力。