□文│何小軍 梁 俊
我國對科研誠信的重視已經上升到國家層面。國務院發布了《關于全面加強基礎科學研究的若干意見》;中國科學技術協會印發了《科技工作者道德行為自律規范》。但目前我國在處理學術不端行為上名硬實軟、缺少“牙齒”。中央全面深化改革委員會第五次會議審議通過的《關于深化改革培育世界一流科技期刊的意見》,強調了科技期刊傳承人類文明,薈萃科學發現,引領科技發展,直接體現國家科技競爭力和文化軟實力,要以建設世界一流科技期刊為目標,科學編制重點建設期刊目錄,做精做強一批基礎和傳統優勢領域期刊。凈化學術環境是做大做強科技期刊的基礎與保障。應對學術不端行為,我們不僅要有嚴厲的懲治政策,也應有高效的發現能力。如何高效運用人工智能(AI)技術盡早發現科研失信問題,提高對學術不端行為檢測技術的威懾力,應當成為我國科研誠信建設的一項重要任務。
科研失信行為極大地破壞了當前我國的學術環境。由于種種原因,主動發現科研失信行為面臨困難。
隨著社會進步和科學技術迅猛發展,各類研究成果不斷快速涌現并導致文獻數量急劇增長。僅以中國為例,據中國科技論文與引文數據庫(CSTPCD)統計,2017年CSTPCD收錄自然科學領域期刊2029種,發表我國作者作為第一作者的論文47.23萬篇;收錄社會科學領域期刊394種,發表我國作者作為第一作者的論文5.95萬篇。[1]除此之外,還有科技報告等大量特種文獻。隨著網絡的發展,更是產生了海量的經過網絡產生和傳播的學術科研信息。隨著網絡和信息技術的發展,學術文獻撰寫、編撰、出版、存儲、傳播整個流程的電子化成為發展趨勢,但也為各類造假提供了便捷的渠道。
科技期刊作為學術成果的主流展示交流平臺和科研知識文庫,有責任也有義務對其內容的真實性進行判斷和篩選。但目前,科技期刊對于各種學術失信行為的防范,主要依賴于評審專家的學術判斷、讀者或同行的舉報、學術倫理規范的引導以及科研資源的知識工程和有效可信信息的知識導航的運用。
人工智能技術對于科研誠信系統的構建有著無以比擬的技術優勢。基于人工智能的科研資源與可信度的知識圖譜與知識導航和知識工程的研究密切相關。人工智能是知識工程和知識導航的原理和方法,對需要運用專家的智慧和知識才能解決的應用性難題提供了解決辦法。20世紀90年代的大規模知識工程和目前的超大規模知識工程(以開放性知識庫OpenKG和UMLS為代表[2]),側重研究實體識別和表示、關系提取、知識融合和集成、知識推理等方面。現在,知識工程的“產品”在產業界也已經開始了大規模部署和應用,如百度大腦、知識圖譜和學術導航等產品相繼面世。但知識工程過分地依賴于知識庫或知識本體的構建,是一種集中式的信息處理方法。
在“互聯網+科研知識”結合后,一方面,將所有的信息進行集中獲取和處理是不可能完成的任務;另一方面,科研文獻大數據具有動態、連續性、碎片化等特征,如何有效融合靜態和動態知識是迫切需要研究的問題,只有將AI技術與知識工程完美結合才可以解決這類問題,見圖1。

圖1 基于AI技術的科研誠信系統工作模型
此外,運用AI技術構建科研資源與學習行為的知識圖譜與知識導航不僅在預防科研造假中有光明的前景,還可以挖掘科研大數據的價值,同時豐富目前大數據知識工程的理論和方法。
隨著互聯網、計算機、信息化技術的普及與提高,計算機和數據庫系統在科研誠信系統建設中扮演了重要的角色,人工智能技術也開始在科研誠信系統建設中發揮作用。隨著大數據時代的到來,伴隨著海量的數據產生的科研失信,其防治難度將更大,科研失信行為隱藏得更深更難以發現;同時,基于人工智能而產生的隱私問題,因為缺少制度監管及人工智能技術本身仍不夠完善,對AI在科研失信治理中的作用提出了一定的挑戰。
當前,國際上對科研與出版的學術失信行為的認定主要包括偽造(fabrication)、篡改(falsification)和剽竊(plagiarism)等。[3]現有學術出版物的學術反剽竊主要采用針對文本比對檢測的主流計算機輔助手段,[4]國內有中國知網學術失信文獻檢測系統(AMLC)和萬方數據庫以萬方數據的學術文獻資源為比對提供的論文相似性檢測服務(PSDS)以及國外的查重系統(CrossCheck、Plagiarism、Mydropbox、WordCheck、Paperpass、Turnitin 等),已被大部分期刊編輯部所采用。[5]但這些反剽竊系統也具有如下不足:①目前的反剽竊系統多局限于同一語種內的不同文本間是否存在科研失信問題,但對不同語種間的科研失信行為卻無從下手。因為這不僅僅涉及知識導航,還需要自然語言處理,尤其是機器翻譯技術的支持。②在正式運行前,大部分會自動剔除上傳文件中的圖表和公式等信息,故對圖片本身的剽竊問題顯得束手無策,只能通過為數不多的圖表題目、注解等進行判斷。
然而,對剽竊、篡改和偽造等失信行為的判斷,最有說服力的證據就是圖表以及數據本身。斯坦福大學的5位研究人員從數據庫(PMC)中隨機選擇了1364篇生物醫學相關文獻并從中抽取出4778張圖片作為數據集。在此基礎上通過有監督機器學習技術訓練出一個生物醫學圖片查重和匹配模型(ImageCheck)。使用該模型對2009~2016年發表在分子與細胞生物學(MCB)上的960篇論文組成的測試集進行評估后發現,其中59篇(6.1%)含有“不適當的”重復圖像,約有2%值得再去進行圖像證偽;[6]但有監督學習需要大量各種不同類型的標注圖片庫,這仍將是一條漫長的建設道路。以被曝光的哈佛大學皮耶羅·安韋薩(Piero Anversa)長達17年的干細胞造假事件為例,其聲稱在所謂的心臟干細胞領域取得了令世人震驚的“重要發現”,有著最嚴謹、最苛刻的審稿團隊的《新英格蘭醫學雜志》《柳葉刀》《循環》等全球著名的頂級醫學學術期刊也未能發現相關研究中數據的篡改和大量的圖片造假,刊發了他的所謂“研究成果”,使他成為美國乃至世界心臟病領域最著名的“大牛”和“絕對權威”,甚至開創了一個全新的心臟病研究和醫療產業——“干細胞療法”。直到2018年10月15日,美國生命科學網站“STAT”發布報道稱,哈佛大學醫學院要求撤回前哈佛醫學院教授皮耶羅·安佛薩(Piero Anversa)的31篇論文,謊言至此方被戳穿。
在科技快速發展的今天,傳統的預防和檢測方法工具在學術不端防治中的作用是有限的;即便是擁有較高學術水平的《新英格蘭醫學雜志》的評審專家也沒有發現研究中存在的造假行為。就上例來看,其研究有著眾多看似精美、客觀的圖片,圖形比對檢測系統應該有用武之地。現有的研究成果對于技術細節交待的都不是很清楚,如有的研究[7]重點放在了如何設計檢測和預防學術論文中圖像(image)抄襲的概念模型以及在此基礎上的業務流程框架,但沒有涉及如何實現查重、驗真,如何標注、如何訓練,具體的程度是多少,參數的調整都未交待,其檢測結果的說服力仍然有待驗證。因此,要應對科研成果里錯綜復雜的海量圖片,做到去偽存真,這是對(所有閱讀文獻的)人的挑戰,也只有通過人工智能不間斷的學習能力,才有可能得以解決。
對于涉及人為造假的“假冒同行評審”(Fake Reviews)等行為,更是學術出版所不能容忍的。科研失信經歷了從“負責任的研究行為”,經過“有問題的研究行為”,發展到“故意的不當行為”,是一個連續的惡化過程,這是對學術界的褻瀆,也是對科技期刊界的挑釁。斯坦福大學的研究人員也發現學術文化、同行控制、發表獎金制度以及政策等因素與這些潛在不端行為高度相關,是影響科研誠信的要素。
雖然我國已經陸續出臺了一系列政策法規,對學術失信行為進行整治,但是買賣論文、代發代寫、大量撤稿等新聞依舊一次次沖擊著我們的倫理底線。
人工智能技術在為科研失信的治理提供強大武器的同時,也對其合理使用提出了新要求,應當在科研失信治理中充分利用AI技術優勢的同時對它的應用加以法律的制約,以充分保護相關人員的合法權益并有效阻遏科研失信行為的發生。AI背景下的科研失信治理需要以加強科研人員的誠信教育為基礎,以有力的法律、法規制度為保障,輔以人工智能技術為強力防治手段,形成三位一體的綜合治理模式。
個人誠信檔案在歐美等發達國家已發展運用得較為成熟。[8]如美國是以商業公司服務為主的運作模式;歐洲則以政府為主導,以中央銀行或金融監管部門管理個人誠信檔案。在西方國家公民的誠信記錄與社會生活各個方面關系密切,直接與教育、工作、收入、保險、金融服務等方面緊密相關。同他們相比,中國的誠信系統建設起步較晚,但國家非常重視。
建立科研管理制度。基于網絡多維度和海量數據建立科研誠信檔案庫后,科研主管部門、評審專家、科研人員都可以實現資源共享。在人工智能技術的幫助下,實現對申報項目的選題、研究內容與方法、創新、社會和經濟效益等方面進行分析,更方便、快捷地對研究數據、科研成果乃至出版載體的真實性和價值進行評估。
建立科研人員的監督、管理制度。基于AI技術、網絡多維度和海量數據建立科研誠信檔案庫后,科研主管部門很方便地就能行使準入機制,有了人工智能技術的支撐,就能夠對申請人及其科研團隊的詳細情況及既往誠信情況有全面的了解與評估;人工智能技術在項目申請、科學研究和學術評議中能對申報者的研究方向是否合適、是否有能力按項目要求完成科研、是否有可能取得創新性研究成果作出初步評估。
獎懲有力有據。基于機器學習技術、網絡多維度和海量數據建立科研誠信檔案庫后,將會極大地增加科研人員及其誠信行為的綜合影響力,為其今后的科研、晉升、評聘等產生影響。此外,準確、實時地記錄、公開科研失信行為并及時地給予處罰,實現互聯網內異構信息的交互,將減少科研主管部門和科研機構對科研失信行為等各類信息掌握不對稱的情況,增加科研失信行為的違法、違規成本,進而對科研失信行為產生巨大的威懾力。
誠信教育是科研誠信防微杜漸、長治久安的最有效工具,是治理科研失信的基礎。只有德治與法治兩手并重才有可能真正完成我國誠信體系的構建并發揮其在我國科研進步中的重要作用。對于科研誠信建設而言,不僅要有嚴格的法律制度,更應有基于人工智能技術的科研失信檢測手段加以防治,同時,對科研失信人員的懲治也不應浮于形式。但構建我國的科研誠信體系的目的并不單單是懲罰違規者,而是要通過科研誠信建設,打造我國良好的科研環境,為我國的科研創新提供保障,為中國創造、中國智造服務。在此意義上,通過科研誠信教育,提高科研人員的科研誠信素養,使其自覺遵守科研誠信規范和法律制度,從而避免科研失信行為,就顯得更為重要。
針對科研誠信的教育,應該始于大學,從大學開始就對未來的科研人群進行教育,讓他們掌握科研規范與要求,避免因不了解科研規范而陷入科研失信,同時也從一開始就培養科研誠信,使之成為陪伴終生的習慣;科研誠信也應融合到素養教育中去,可以針對科研人員進行針對性的專題教育,培養、規范正確的科學信念:誠信是保障科研創新的重要基礎,面對海量的科研信息,科研人員應當在了解知識產權,了解科研誠信的基礎上,充分利用國內外的科研成果,了解相關領域的最新進展,避免重復性、無用性研究,進而站在前人研究的基礎上,實現自己的創新與突破。
科研誠信問題是必須重視并加以解決的,我們不僅要有嚴格的懲治措施,同樣需要有高效的發展手段,但我們同樣不能忽略誠信的教育問題,只有綜合運用多種措施,才能為我國的科技進步與發展,為建設科技強國提供有力保障。