人工智能的出現為開展學術研究帶來了極大便利,也對學術生態造成了強烈沖擊,具體表征為學術不端的表現形式可能更為隱蔽,認定更加復雜。為營造誠信、健康的學術生態環境,應重構以“軟法規制”為主的法律治理體系,并創新治理規則,以保障人工智能在學術領域的合理使用。
針對學術不端行為,傳統的檢測方式主要依靠技術,如高校和學術出版機構主要運用查重軟件進行認定。然而,人工智能生成物具有混合性特征,就外觀而言,并非體現為對他人原創性內容的簡單復制,因此難以通過傳統的方式簡單檢測。以典型的學術不端行為——剽竊為例,生成式人工智能的學術性應用至少將引發兩個維度的認定難題。
第一,是否構成對他人學術成果的剽竊。一種觀點認為,生成式人工智能通過人機互動、深度學習算法,結合海量數據訓練,已經能夠生成具有邏輯性的獨創性表達。根據“思想表達二分法”的著作權原則,使用者完全可以主張擁有對人工智能生成內容的完整權屬,使用生成式人工智能不構成對他人學術成果的剽竊。但另一種觀點認為,學術創作的核心并不是表達形式的獨創性,而是表達內容的創新性,即呈現前人所未表達的觀點。人工智能往往在不明確注明轉述來源的前提下,生成“詞匯和表達看起來有別,但論點論據幾乎相同”的內容,其強大的智能化轉述“洗稿”能力,雖然能夠規避傳統查重工具的檢測,但并未提供具有獨創性的論點和論據,應視為構成對他人學術成果的剽竊。
第二,是否構成對其他生成式人工智能創作內容的剽竊。用戶在使用生成式人工智能時,其輸入的內容會被生成式人工智能實時記錄并構成大模型訓練的語料,成為后續其他生成式人工智能創作的組成部分。因此,生成式人工智能是否能成為獨立的法律主體,其創作的作品是否受到著作權法的保護,是目前學界爭議的焦點。
一種觀點認為,自主創作型人工智能已經逐漸可以脫離預先設計,并且呈現超越現有算法實現獨立創作的趨勢,已具備相當的獨立性。例如,《科學》雜志明確表示,使用生成式人工智能,構成對生成式人工智能的剽竊。但也有學者提出,根據著作權法,作者只能是“自然人、法人或者其他非法人組織”,作為生成式人工智能訓練來源的數據是一種特殊的物或工具,不符合“作者”的主體資格。生成式人工智能不是著作權人,因此生成式人工智能對作為其訓練來源的數據文本不構成剽竊。中華人民共和國教育部頒布的《高等學校預防與處理學術不端行為辦法》及《學位論文作假行為處理辦法》也規定剽竊行為的對象應為“他人”成果。
生成式人工智能固有的主體性缺失、內容原創性和獨特性匱乏等問題,使得關于學術不端的識別和認定更為困難。筆者認為,對于生成式人工智能學術性應用是否沖擊學術生態,其行為是否構成學術不端,以及構成哪種類型的學術不端,需要具體分析。
首先,關于生成式人工智能的獨立創作。這種情形一般是指,使用者限定創作主題并給予目標設定,其余工作由生成式人工智能獨立進行完整寫作并生成學術內容。
隨著生成式人工智能的高階化發展,越來越多的學者認為,只要達到獨創性標準,生成式人工智能生成的文章即可被視為符合著作權法的作品。司法實踐中,廣東省深圳市南山區人民法院判決的“騰訊訴盈訊案”,體現了此種立場。2018年,騰訊公司在其網站上發表了一篇財經文章,文末注明文章由其機器人自動撰寫。同日,盈訊科技在其運營網站發布了相同文章。騰訊公司認為,涉案文章作品的著作權應歸其所有,盈訊科技的行為侵犯了其信息網絡傳播權并構成不正當競爭。2020年1月,法院審理認定,涉案文章屬于我國著作權法所保護的文字作品,是原告主持創作的法人作品。
筆者認為,第一,生成式人工智能的作品屬性與其法律主體資格是兩個命題。人工智能因其不具有法律人格的獨立意志、無法獨立享有權利和承擔義務,不宜輕易突破現有理論,將生成式人工智能定義為法律主體。第二,無論生成式人工智能是否剽竊了數據來源,其知識產權歸屬如何,實際上都意味著作者并無實質性的研究貢獻。這種缺乏倫理性判斷和創造性思考的智力成果,實際上與代寫并無區別。如果放任生成式人工智能獨立創作,將湮滅研究者的創新動力,加劇科研同質化,容易造成學術生態隱蔽式的惡化。
其次,關于生成式人工智能的輔助創作。這種情況下,學術創作的主體性任務由研究者完成,而搜索、提取、整理、分析數據的相關基礎性工作由生成式人工智能輔助完成。
生成式人工智能因有強大的獲取和整合能力,在降低科學研究成本、解放學術勞動力方面有明顯助益。允許生成式人工智能輔助開展研究,客觀上有助于作者將更多時間和精力用于思考和論證創新性觀點,不應一概視為學術不端。但實證考察也表明,生成式人工智能輔助論文創作是學術不端的“重災區”,容易誘發更隱蔽的剽竊、偽造和篡改等學術不端風險。
在生成式人工智能大規模的學術性應用中,為了逃避檢測工具,人工智能產品的技術開發者和使用者也在不斷更新算法規則以修正其表達。生成式人工智能基于大規模預訓練的語言深度學習模型,通過與使用者進行人機對話,了解其需求并完成特定語言處理任務,其代碼設定決定了其任務導向即必須回答問題。在一些情況下,當使用數據進行訓練時,由于某些不可避免產生的樣本偏差,生成式人工智能可能會產生無意識的偽造;在另外一些情況下,生成式人工智能可能會為了迎合使用者的需要而有意篡改相關內容。毋庸置疑的是,這樣的行為對健康學術生態的營造無益。
面對人工智能可能造成的學術不端風險,可以在明確學術生態治理邏輯的基礎上重構治理體系,創新治理規則。
首先,明確治理邏輯。
人工智能并非造成剽竊等學術不端現象的根本原因,而是對其的運用在一定程度上加劇了這些現象。因此,學術生態的治理,首先應當保證人的主體地位,明確“價值—主體—工具”的治理邏輯:學術創作的價值應在于創新性提出問題,用批判性思維判斷和回答問題;人的主體地位是學術生態治理的基本立場;人工智能應當作為工具和被規制的對象,而非依靠算法、模型和知識應答等重組生成海量但同質化的內容。學術研究不是簡單地屏蔽人工智能的應用,而必須堅持人類的智慧引領作用,確保人工智能學術性使用是“增強”而非“替代”。
其次,重構治理體系。
任何技術革新將同時面臨發展機遇和風險挑戰這一對矛盾。在不同階段,發展和機遇的博弈狀態不同,應當根據不同階段決定治理重點。在當前人工智能快速發展的階段,其技術風險及復雜性尚未被充分論證,如果倉促制定剛性的監管硬法規范,可能會阻礙其發展空間。與硬法規范相比,公共政策、行業倫理、科研工作者自身的道德建設等開放和靈活的軟法規制,可能更能適應社會發展的需求。
最后,創新治理規則。
剽竊等學術不端行為的核心特征是“使用卻未說明來源”。既然目前的學術規范允許學者借助助理進行前期基礎性工作,借助同行建議進行修改,并在學術作品中表明他人的貢獻,那么,不妨創新性針對人工智能學術性應用的特點作出引注規范,如引入生成式數字水印等治理技術工具,并完善多元化學術不端認定規則及處罰機制。
(蔡萍琴系浙大城市學院法學院法學系副主任,政府法務教研室主任,法律實訓基地指導教師)