孫玉發 郭銳
人工智能技術的發展,特別是以ChatGPT為代表的大語言模型(Large Language Model),對各個領域的工作方式和研究范式都形成沖擊。[1]在所有這些領域中,數字出版業受到的影響可謂首當其沖,因為大語言模型較之以往的技術表現在更強的“創作”能力上。在這樣的背景下,本文將分析人工智能大語言模型對數字出版的影響,以及其引發的倫理和法律挑戰。
人工智能大語言模型對數字出版的影響
人工智能大語言模型對數字出版的影響是全方位的,包括選題策劃、內容生產、編輯加工、出版發行等出版涉及的各個方面,其生產力工具的屬性非常明顯:它可以為選題策劃提供創意靈感,加速選題策劃的過程;它可以自動生成文本內容,加速創作過程;它可以輔助編輯工作,糾正錯誤并提升內容質量;它可以強化個性化內容供給,根據讀者偏好提供定制化推薦;它可以改變數字出版平臺,提供智能推薦和優化用戶界面。
在數字出版選題策劃方面,人工智能大語言模型可以通過分析海量的文本數據,洞察讀者的興趣和市場趨勢。了解讀者的需求和市場趨勢,選擇那些更受歡迎和有潛力的選題,加快選題策劃的速度和提高效率 [2,3]。在生成新的、有內在邏輯和連貫性的文本方面,人工智能大語言模型具備強大的創作能力,可以自動創建新聞文章、博客帖子、小說[4],甚至是學術論文等各種類型的內容,為作者提供創意靈感。此外,人工智能大語言模型在多語種翻譯方面也展示了取代人類翻譯的潛力 [5]。在編輯校對方面,人工智能大語言模型能夠自動檢測和修正文本中的語法和拼寫錯誤,從而提高編輯和校對的效率。通過較強的自然語言處理能力,它還可以幫助評估和修正文本的語義連貫性、風格一致性和邏輯結構等更深層次的問題[6]。在市場營銷和方案策劃方面,人工智能大語言模型可以在數字產品銷售數據分析、銷售方案等方面發揮關鍵作用,優化內容、策略和效果,包括理解和預測讀者興趣,預測市場趨勢和競爭對手策略。
人工智能大語言模型也為數字出版提供了全新的互動式閱讀體驗的可能性。借助人工智能大語言模型,讀者可以在閱讀過程中與文本進行互動,從而創造出更加豐富、深入并且個性化的閱讀體驗[7]。
人工智能大語言模型帶來倫理和法律挑戰
也恰是因為人工智能大語言模型的革命性影響,它所帶來的倫理和法律挑戰也將日益顯著。其中,個人信息保護(數據隱私)問題、人工智能生成內容的質量和版權問題將是其中主要的問題。
隨著人工智能大語言模型在數字出版中的廣泛應用,個人信息保護成為一個重要的倫理和法律問題。這些模型通常需要大量的數據進行訓練和運行,這些數據可能包括讀者的個人信息、閱讀歷史、搜索記錄、社交媒體活動等,如果沒有得到適當的處理和保護,可能會導致個人信息的泄露和濫用[8,9]。
無論是訓練基礎模型還是對已有模型進行微調,人工智能大語言模型都依賴已有的文本。使用已有文本訓練大語言模型涉及是否符合合理使用等法律問題,這本身就有侵犯版權的風險;在數字出版中應用大語言模型,其生成的文本可能包含其他人的原創作品,存在侵犯版權的風險。盡管現有技術已經通過添加引用或注釋來標注來源,但這是否滿足版權法的要求,仍沒有定論。
人工智能大語言模型生成內容的質量問題,在數字出版中引發的問題非常突出。在模型訓練文本不夠的情況下,它可能產生低質量或錯誤的內容,導致讀者接收到誤導性、混淆或偽科學信息。此外,人工智能大語言模型生成的內容可能受存在偏見和歧視內容的訓練數據影響,導致性別、種族、政治、殘障等方面的歧視問題出現。
上述數字出版業應用人工智能大語言模型時出現的倫理和法律問題,根本上是人類社會在應用人工智能中所遭遇創造秩序危機的體現。創造秩序危機,簡而言之,是人類遭遇的被自己所創造的技術反噬的后果。[10]具體到人工智能大語言模型引發的問題上,它表現為人工智能生成內容成為默認的工作方式,并被當作價值無涉的工具。創造秩序危機源于兩大難題:因果聯系難題和終極準則難題。因果聯系難題來自人工智能被委以對人類事務做決策的能力,但它對決策結果的倫理判斷能力不足;終極準則難題來自由于缺乏引導人工智能發揮作用的終極道德準則,人工智能難以在互相沖突的決策之間權衡。無論是在個人信息保護(數據隱私)還是人工智能生成內容的版權問題、生成內容的偏見和歧視問題,都是終極準則難題的體現,而立法與政策要決定的是否干預、如何干預的問題,則是因果聯系難題的體現。
人工智能大語言模型在數字出版領域具有巨大的潛力。未來,我們可以期待人工智能大語言模型為讀者提供更加智能化、個性化和創新的數字出版內容和服務,帶來更豐富、高質量的閱讀體驗。然而,人工智能大語言模型也引發了一系列倫理和法律問題。我們需要反思這些問題中所體現的創造秩序危機,這意味著對技術進行價值校準以及了解這種校準本身的局限性。解決這些問題,需要數字出版從業者建立倫理共識、在行業生態中推動問題的預防和解決。這取決于人工智能大語言模型的設計者、數字出版業者、用戶之間的一系列復雜的互動,其中共同的價值目標是至關重要的。從創造秩序危機的分析出發來分析,我們看到價值校準應當作為一個長期持續的過程,以便算法與人的決策保持一致。在這個意義上,我們也期待立法者和政策制定者能夠尊重行業規律,著眼長遠,推動版權法規、管制政策的良性發展。
參考文獻:
[1]楊倩,林鶴.大語言模型背景下情報研究的數字化應對策略及實踐場景[J].競爭情報,2023,19(03):2-13.
[2]王元.人工智能與圖書出版融合發展研究[J].中國傳媒科技,2022(01):57-59.
[3]鄭柳潔.人工智能類圖書選題策劃思路分析[J].新聞研究導刊,2022(01):205-208.
[4]武菲菲.人工智能技術與出版行業的融合應用[J].出版廣角,角,2018(01):26-28.
[5]耿芳,胡健.人工智能輔助譯后編輯新方向:基于ChatGPT的翻譯實例研究[J].中國外語,2023,20(03):41-47.
[6]范軍,陳川.AI出版:新一代人工智能在出版行業的融合創新[J].中國編輯,2019(05):64-71.
[7]王羽佳.AI與出版融合視角下圖書選題策劃與內容生產的優化路徑[J].出版科學,2023,31(01):44-49.
[8]殷軼平. 基于知識蒸餾的訓練數據隱私保護方法研究[D].哈爾濱:哈爾濱工業大學,2021.
[9]湯鳳儀 , 劉建 , 王會梅,等.保護數據隱私的深度學習訓練數據生成方案[J].計算機應用研究,2021,38(07):2009-2012.
[10] 郭銳.人工智能的倫理和治理[M].北京:法律出版社,2020.
作者單位:孫玉發,石油工業出版社有限公司數字出版中心技術研發部主任;郭銳,中國人民大學未來法治研究院研究員