顏小虎?紀蕾
【摘要】以ChatGPT為代表的生成式人工智能橫空出世,推動出版業從數字化向智能化知識服務加速躍升,引發出版業態升級、出版理念轉變、出版流程優化等一系列反應。面對人工智能帶來的機遇和挑戰,需從人工智能提升出版知識服務的內容供給效率、優化出版知識服務的知識加工能力、改善出版知識服務的場景服務體驗三方面探討人工智能賦能出版知識服務的創新路徑。
【關? 鍵? 詞】人工智能;GPT;數字出版;知識服務;數智化出版
【作者單位】顏小虎,北京工業大學出版社;紀蕾,北京工業大學出版社。
【中圖分類號】G230.7【文獻標識碼】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.23.006
2017年,《關于深化新聞出版業數字化轉型升級工作的通知》明確指出要探索知識服務模式。2022年,《新聞出版業數字出版“十四五”時期發展規劃》再次提出,要提升公共文化數字化水平,推動科技賦能文化產業。上述文件的發布,不僅為出版業利用科技賦能知識服務提供了政策支撐,也對知識服務發展提出了具體要求,即“利用大數據、云計算等技術,分領域進行知識整合,搭建知識資源庫群,建立國家知識服務平臺與知識資源服務中心,形成以國家平臺為樞紐、行業平臺為支撐,覆蓋國民經濟主要領域,分布合理、互聯互通的國家知識服務體系,為生產生活提供精準、高水平的知識服務”。
出版知識服務作為知識服務體系的重要組成部分,在國家知識服務體系建設中應肩負起應有的責任。而“緊盯技術發展前沿,用好信息技術革命成果”,積極探索人工智能技術賦能出版知識服務的創新路徑,“從用戶角度出發,打破自身產品形態,無縫嵌入各種應用場景,為用戶提供隨時隨身的出版知識服務”,推動出版知識服務向智能化、場景化和精準化轉型,則是出版知識服務積極融入國家知識服務體系建設的重要舉措,也是出版業高質量發展的必由之路。
一、從出版文獻服務到出版知識服務
出版業作為信息傳播和文化傳播的重要領域,一直以來都在不斷地探索新的發展模式。出版業要實現高質量發展,離不開對新技術的創新應用,技術進步始終是推動出版業發展的重要因素。在技術發展的不同階段,出版通過不同的產品形態和內容為讀者提供服務。
印刷技術的發展將出版帶入印刷時代,在這一階段,出版主要通過書、報、刊等有形的文獻產品來提供服務,文獻即產品,產品即服務,產品與服務融為一體不可分割。計算機技術的發展將出版推進到信息時代,在這一階段,出版主要通過專業數據庫、論文數據庫和其他商業數據庫等無形的情報產品來提供服務,情報即產品,情報即服務,出版的產品屬性有所減弱,服務意識開始增強[1]。數字化和互聯網技術的發展將出版推進到智能時代,在這一階段,出版快速經歷了傳統出版的數字化轉型及數字化轉型升級,從數字出版演進到融合出版。出版的知識生產和知識傳播方式發生了根本性變化,從產品形態來看,不僅有傳統的書、報、刊等印刷品,還有有聲書、電子書、網絡出版物等各種形態的產品;不僅有基于優質資源的各種數據庫、在線課程,還有智庫、付費社群、APP等互聯網產品。出版服務逐漸從有形或無形產品的依附關系中獨立出來,直接為服務對象提供知識、創造價值,知識即服務,出版即服務,出版的服務屬性進一步增強。
隨著人工智能技術在出版知識服務中的深度應用,基于特色內容資源、以用戶需求為導向、融入用戶決策過程、向用戶提供完整解決方案的增值類深度出版知識服務應運而生,將為用戶提供更智能、全面、友好的服務模式,以滿足用戶在知識獲取和應用方面不斷增長的需求。
二、人工智能在出版知識服務中的應用
以GPT為代表的生成式人工智能,是人工智能研究實驗室OpenAI開發的一個基于深度學習的語言生成大模型。它可以利用深度學習技術,對從互聯網上獲得的海量數據進行預訓練和微調,分析不同單詞、短語、句子、段落之間的語義關系,并能夠根據上下文關系生成連貫、合理的對話文本,甚至可以進行文本、圖像、音頻、視頻等多模態知識的轉換,從而生成與人類表達幾乎沒有區別的文本。經過專門訓練的GPT模型集信息支持、創作支持、服務支持、情感支持等多種功能于一體,已經在多個領域實現新的價值。尤其是聽得懂、說得出、能互動的GPT4的面世,在多項技術上性能得到進一步提升,為出版知識服務提供了全新的發展動能。
1.文本生成技術
GPT可以自動生成高質量的文本內容,包括文章、博客、評論等,而且可以和其他技術結合,整合多模態輸入(文本、圖像、音頻、視頻等),為用戶提供更豐富、多樣化的知識服務內容。GPT的創造性文本生成能力還可以用于創意寫作,如創作故事、詩歌、廣告等,推動文學創作和內容創新。
2.多任務學習技術
GPT在自然語言處理領域的成功應用,尤其是在生成式任務上的運用,使它成為開展多任務學習的有力工具。GPT的多任務學習模式使得單一的模型能夠在多個不同領域和任務上展現出色的性能,而無須為每個任務單獨訓練一個專門的模型,如可在問答、文本分類、文檔翻譯等不同任務上進行學習以生成不同層次的語言特征,這為提高模型的通用性和適應性提供了強大的工具。
3.預訓練和微調
通過預訓練和微調,GPT可以在特定領域或任務上發揮更好的性能,應用于特定領域的知識服務,可以為專業領域提供更準確和定制的信息,如GPT4使用了大量的多模態數據進行預訓練,以便更好地理解現實世界中的各種信息和場景,這為建設單位、行業、領域大模型,使其更加精準地賦能出版知識服務提供了無限可能。
4.知識挖掘
結合GPT和知識圖譜技術可以創造更為智能、準確和全面的自然語言處理系統,提升文本理解和生成的水平。這對于許多應用場景,如智能助手、搜索引擎、虛擬客服等,都有潛在的價值。使用知識圖譜構建的結構化信息數據庫,包含了大量的實體和關系,可以與現實世界的事物和關系很好地聯系起來。
5.智能交互技術
GPT可以通過用戶輸入的對話數據實現用戶意圖識別,并以用戶最容易理解的語言,用自動化加工和生成的內容滿足用戶的即時需求。GPT可以保持對多輪對話內容的長期記憶,實現對上下文的細粒度感知和分析以及多輪交互,可以創造更加智能、自然、個性化的用戶交互體驗。
三、人工智能賦能出版知識服務的潛在風險
以ChatGPT為代表的人工智能技術迅猛發展并日益在出版領域得到深度應用,促使出版知識服務在基礎數據采集、知識內容加工、服務場景優化等全生態領域發生根本性變革,為推動出版知識服務向更高階段數智化出版轉型提供了強大推力。技術的創新和突破總是雙刃劍,人工智能技術在為出版知識服務帶來全新發展契機的同時,也引發了一系列潛在風險。
1.人工智能技術對于數據隱私的安全性挑戰
出版知識服務場景化、個性化的發展要求,需要人工智能技術在收集、存儲、處理、分析和使用大量個人數據方面具有很高的效率和準確性,但這往往會引發諸多隱私和安全方面的問題。比如,對服務對象個人數據的獲取是否取得授權,對個人偏好數據的采集和訓練模型是否征得本人同意,對個人數據或其他數據是否過度采集和超范圍使用。如果公司沒有充分保護數據隱私,數據還有可能被利用或泄漏,導致個人隱私受到侵犯。
2.人工智能技術對于版權保護的挑戰
海量數據語料庫是人工智能賦能出版知識服務的前提和基礎。一方面,人工智能大模型用來訓練的數據語料主要來源于公開的網絡,且對數據邊界缺少明晰的界定,這些數據一般是在未經同意的情況下收集獲取,在抓取過程中極易出現數據過度采集及數據泄露等問題,造成侵權;另一方面,生成式人工智能生成的內容主要是通過搬運組裝、數據派生實現,如果對生成的作品內容不能有效把關,就極易引發復制權、改編權等侵權風險。
3.人工智能技術帶來的意識形態風險
作為提供出版知識服務的主體,我國出版單位肩負著維護國家文化安全、意識形態安全的重要責任。在數據供給階段,ChatGPT體現的政治取向根植于其學習的數據集,目前網絡上的數據資料主要是英文資料,其可能輸出帶有偏見、歧視的內容[9]。在知識加工階段,如果算法邏輯受到資本邏輯或人為的干預,就容易產生基于群體特征區別性對待的算法歧視,甚至生成迎合受眾需求的低俗化、媚俗化、庸俗化內容,尤其是人工智能應用于網絡文學出版,弱化了網絡文學出版的社會功能,催生出網絡文學出版的意識形態風險。在知識交付階段,基于場景的知識服務追求與用戶的良性互動,即時生成的內容缺少人工審核,尤其是在面對青少年用戶時,有可能出現含有誘發未成年人模仿違反社會公德行為和違法犯罪行為的內容。
四、人工智能賦能出版知識服務的路徑
1.提升出版知識服務的內容供給效率
(1)智能輔助策劃效果顯著
選題策劃是出版活動的重要環節,最能體現編輯主體的智慧與創造性,而要策劃出一個優質的選題,編輯首先要做的就是梳理信息,結合本出版單位的業務范圍和特色,通過綜合分析已有信息,提煉出出版物市場需求的特點、熱點和發展趨勢,從而成功地構思、設計選題。可以說,編輯水平的高低直接影響選題的質量[2]。
根據2022年全國新聞出版業基本情況統計,2022年全國共出版圖書190391種,出版選題總量與圖書出版單位責任編輯人數對比懸殊,這種選題總量與責任編輯數量的差距對比意味著在無集成性、智慧化數據系統或平臺提供服務保障與支撐的情況下,責任編輯要想開展全行業、多業態、廣泛而深入的調研,高效完成選題的創新、策劃及決策等工作,需要耗費大量的時間與精力。
利用人工智能技術,編輯不僅可以快速地采集、梳理海量信息,對市場數據進行深度挖掘和分析,提高選題策劃的準確性,還可以根據用戶的反饋和閱讀行為等數據,通過大數據挖掘、語義分析等途徑了解用戶喜好和市場需求,不斷優化選題策劃,策劃出更符合目標客戶興趣和需求的圖書,提升用戶滿意度和閱讀體驗,從而進一步提高選題策劃定位的精準性。以GPT為代表的生成式人工智能,可以通過持續性的多輪對話激發編輯的靈感,甚至給編輯直接提供選題參考,從而幫助編輯大大提高選題策劃的效率,策劃更多更優質的選題。
中國版本圖書館的數據服務平臺擁有最具權威性、時效性和規范性的中國出版物元數據,可以充分應用5G、人工智能等信息技術,基于所有過往館藏樣書、選題數據,根據不同出版單位的學科定位、出版特色及市場優勢,提供差異化、特色化、集成化的數據分析服務,并利用語義識別、語義分割、關聯擴展等智能算法為編輯提供基于本社特色的選題方向推薦,助力編輯深度聚焦某一專題領域,不斷從自身及周邊領域挖掘豐富的選題。
(2)內容生產模式不斷豐富
從內容生產主體來看,群體不斷擴大,從專家到用戶,從個體到群體,從人工到機器,內容生產的主體不斷擴大。人工智能與大數據技術推動著出版業內容生產方式由PGC模式(專業生產內容)、UGC模式(用戶生產內容)向包括AIGC模式(人工智能生成內容)在內的多元化內容生產模式的快速變革[3]。目前,AIGC在國內新聞界的應用十分廣泛,特別是在體育報道和財經報道領域,用機器人寫稿相對普遍,如新華社的第一位機器人記者“快筆小新”、騰訊的寫稿機器人Dreamwriter、第一財經的“DT稿王”等。在出版領域,人工智能機器人“微軟小冰”已先后出版了現代詩集《陽光失了玻璃窗》和原創繪畫作品集《或然世界》等多部作品。2023年,完全由人工智能生成的圖書逐漸增多:2023年3月,華齡出版社出版了由人工智能大語言模型生成的圖書《ChatGPT:AI革命》;亞馬遜網站專門開辟了以ChatGPT大語言模型為作者的書籍專欄,截至2023年10月13日,在亞馬遜官網署名作者為ChatGPT的書籍,已有1024本[4]。
(3)內容生產效率不斷提高
從內容生產速度來看,原來出版一本圖書要經過作者寫作、編輯審校、印刷出版等環節,短則幾個月,長則數十年。作者使用人工智能可以極大地提高創作速度,以施普林格自然集團的實踐為例,其授權作者使用GPT創作的德文書《GPT在財務、合規和審計中的應用》,從啟動到完成出版,用了不到5個月時間,大約是正常出版時間的一半。完全使用人工智能出版圖書,效率則更加驚人。全球首本由人工智能處理整個出版過程的圖書《尋找人生目標的45種方法》,人工智能僅花7小時便完成所需的數據搜集并以英文寫成,新書隨后由人工智能翻譯程序Papago譯成韓文,整個過程不到2小時,AIGC讓內容生產的速度提升了數百倍[5]。
不僅如此,作者使用人工智能進行研究,還能有效提高寫作質量。同樣以施普林格自然集團的實踐為例,在67%使用人工智能寫作助手Curie的作者中,有90%的作者發現其稿件隨后進入同行評審,試用結束時獲得發表的文章增加了14%。
(4)智能翻譯效率和質量提升
基于神經網絡深度學習的機器翻譯軟件,通過海量計算機模擬的神經元,模擬人腦“理解語言,生成譯文”,已經在出版行業得到廣泛應用。Google、微軟、百度、搜狗等互聯網公司和中國外文局、社會科學文獻出版社等出版機構都推出了自己的機器翻譯平臺。
人工智能翻譯系統在“網文出海”方面有著出色的表現,《2023中國網絡文學出海趨勢報告》顯示,截至2023年10月,閱文集團旗下海外門戶起點國際已上線約3600部翻譯作品,同比三年前增長110%。在人工智能的助力下,網文翻譯的效率提高了3600倍,以1000字網文的翻譯為例,人工需要1小時,AI只需要1秒;成本也降低到原來的1%左右,100萬字網文的翻譯,專業譯者翻譯約需要20萬元,AI只需要不到1000元。以GPT和Gemini為代表的生成式人工智能,其超強的自然語言處理能力和跨語言轉換能力,將使智能翻譯的效率和質量得到進一步提升。
2.優化出版知識服務的知識加工能力
(1)智能審校
GPT在智能編校中的應用可以大幅提高編輯效率,同時確保文本質量和表達的準確性,使得編輯過程更為智能和高效。
與以往的編校輔助工具相比,GPT不僅可以用于自動拼寫和語法檢查,幫助編輯發現和糾正拼寫錯誤、語法錯誤以及其他常見的語言問題。在編輯長篇文檔或多篇相關文章時,GPT通過理解文本的上下文,可以生成與前文和后文相符的連貫性語句,幫助編輯保持語境的一致性。對于專業領域的內容,GPT可以通過學習并理解該領域的專業術語和行業語言,幫助編輯在文本中正確使用這些術語,從而提高文本的專業性。對于學術內容或專業文檔,GPT可以幫助編輯檢查引用的內容是否準確、參考文獻的格式是否規范,從而保證內容的嚴謹性和規范性。GPT甚至可以學習作者的寫作風格,在編輯時保持與作者一致的風格,并在編輯過程中提供實時的編輯建議,幫助編輯更迅速地發現并修復潛在的問題。
(2)智能審查
智能審查利用人工智能和大數據技術,基于海量語料庫建立自動分析和糾錯系統,建立、訓練、建構并修正出版領域專用模型,形成行業敏感詞、行業專業術語等各類型詞條,參考編輯出版行業相關規范與標準,不斷完善智能審查的標準化設計,制定詳細的、定期更新的規范制度,避免自動化語料庫和審查規則中隱藏的價值觀偏向和歧視性表述[6]。與智能審校相比,智能審查不僅可以快速對文字、語音、圖像、視頻等內容審查鑒定以及與侵權案例進行大數據分析比對,篩出存在思想、道德、政治等問題的內容,還可以對進入市場流通的圖書進行不間斷監測,一旦發現不當內容,及時提醒人工編輯審核,全面防范意識形態風險的出現。
(3)智能設計和排版
人工智能不僅可以輔助設計師快速、高效地設計出美觀、易讀、符合規范的封面,輔助進行版式設計和排版,提高設計效率和品質,還可以通過對大量設計案例的學習和分析,使用自然語言處理和機器學習技術,在設計圖書封面之前,了解書籍的主題、內容和目標受眾,根據用戶提供的需求和設計要求,自動生成符合設計規范和主題的封面設計方案。人工智能可以使用計算機視覺和機器學習技術,自動調整字體、字號、字距等排版參數,以及完成圖像剪裁、色彩調整、文字渲染等,從而自動化地完成封面、排版設計任務。
(4)智能知識挖掘
出版行業擁有多年積累的優質內容資源,并對其進行數字化加工,建立了專業的數據庫和知識庫。利用人工智能技術和知識圖譜技術,出版單位可以將分散在海量出版物里的知識挖掘、整理、關聯并形成體系,構建關聯性強的知識圖譜,提高平臺可解釋推理的知識應用能力,使用戶更好地理解知識之間的關系和結構,從而為用戶提供更系統、連貫和深入的知識服務。
(5)多模態內容輸出
隨著數字出版的深入發展,互聯網技術打破了傳統出版物對內容形態的束縛,文字、圖像、音頻、視頻等各種形式融入內容產品的形態中,使得出版知識服務更加立體化,更具交互性。人工智能的多模態輸出能力,將出版知識服務跨越式推進到數智化階段,尤其是谷歌的Gemini多模態模型,可以同時識別和理解文本、圖像、音頻等,能夠更全面地理解輸入信息的細節,也能回答與復雜主題相關的問題。它即使在對數學和物理等人工智能較為頭疼的復雜學科問題進行推理時也能輕松應對。比如,一位老師畫了一個滑雪者從斜坡上下來的物理問題,一位學生則提出了一個解決方案來計算滑雪者在斜坡底部的速度[7]。利用Gemini的多模態推理能力,該模型能夠讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉換為數學公式,識別出學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案,經過訓練的Gemini1.0在多模態處理方面展現出超強能力。
3.改善出版知識服務的場景服務體驗
(1)精準的知識問答服務
GPT賦能出版知識服務場景下,在為用戶提供知識服務時,一方面,通過用戶需求動態分析、場景捕捉能夠深度理解用戶查詢的意圖,精確匹配用戶需求;另一方面,通過大數據采集系統,對接用戶即時反饋和自生成的信息,進行知識再生產、加工和轉化,及時調整檢索結果,生成明確的解決問題方案,可省去用戶在海量檢索結果中人工篩選答案的時間和難度,提升用戶交互體驗。
(2)友好的用戶交互體驗
GPT超強的自然語言生成能力,能夠實現與用戶的自然語言交互,還可以與GPT進行基于上下文語境的多輪交互,大大降低普通用戶的使用門檻。用戶可以通過自然語言文字或語音輸入的方式來獲取知識服務,想問什么就問什么,不需要嚴格按照某些關鍵詞進行查找,甚至不用在表達提問時組織語言,GPT就可以理解用戶的知識需求,甚至還可以挖掘用戶的潛在需求。隨著GPT未來交互模式的不斷擴展,增加視覺、手勢、表情、動作、環境等交互方式后,還可以充分模擬人與人之間的交互方式,能夠以多種方式理解用戶意圖的多模態交互,滿足用戶在不同情境下獲取知識內容的個性化需求,實現像人與人一樣簡單的交流。
(3)泛在的用戶服務環境
GPT的出現將出版知識服務的環境泛在化,用戶只要擁有一臺手機、電腦類移動終端就可以隨時隨地與GPT進行實時交互,通過知識問答獲取知識服務,不再需要進入任何空間場館或者遵守特定的服務時間就能實現不同時空的問答交互[8]。平臺甚至可以用嵌入GPT的機器人直接為用戶提供出版知識服務,其間不需要其他人員的參與,服務響應更加迅速,且擺脫了人員主觀經驗與情緒可能帶來的負面影響,在一定程度上交流更加隱秘、問答更加客觀理性,在節約人員成本的基礎上,降低了用戶獲取知識服務的限制,減少了用戶獲取服務的時間,提升了服務效率。在一些專門的行業,GPT還可以專門搭建場景,深入專業知識場景提供知識服務,起到專業知識輔助決策作用,如人民衛生電子音像出版社推出的人衛助手系列知識服務數字平臺、人民法院出版社的“法信”知識服務平臺等。
五、結語
人工智能大模型作為有史以來第一個可以與人類對話的“人造物種”,正在推動出版業發生顛覆性變革。GPT技術為出版知識服務帶來了巨大的發展機遇,其在自然語言生成方面的出色表現為內容創作提供了全新的可能性,使得出版業能夠更高效地生產豐富、吸引人的文本,極大地提升了出版知識服務的內容供給效率。在知識編輯和加工環節,GPT的智能策劃、智能審校、智能審查、智能翻譯為編輯提供了強大的輔助工具,使得出版單位提供知識服務的能力不斷完善。GPT技術的智能問答通過深度理解用戶意圖,能夠提供更準確、詳細的答案,為讀者提供更加智能化和個性化的服務,使得出版知識服務的場景服務體驗更加優化。同時,我們也不能忽視GPT在賦能出版知識服務過程中可能面臨的一些挑戰。大量數據隱私可能面臨泄露的危險,人工智能的大量應用帶來版權主體界定的模糊,版權侵權難以界定,大模型的理解能力仍然有限,其帶來的意識形態安全風險,需要引起出版行業和社會的高度重視。
未來,我們期待出版業在利用GPT技術的同時,積極探索新的知識服務應用場景,并與技術開發者、政策制定者和社會共同努力,解決相關的法律、倫理、意識形態問題。正如谷歌聯合創始人戴密斯·哈薩比斯(Demis Hassabis)所說,人工智能帶給人們的不再只是智能軟件,而是更有用、更直觀的專家助手或助理,未來出版知識服務為讀者提供的不僅是精準化、個性化的知識,也不僅是智能化的解決方案,還可能是作為讀者的虛擬助手隨時隨地提供知識服務。
|參考文獻|
[1]方卿,王一鳴. 論出版的知識服務屬性與出版轉型路徑[J]. 出版科學,2020(1):22-29.
[2]周國清,陳暖. AI+中國出版“走出去”:方法、價值與啟示[J]. 出版發行研究,2018(10):82-85.
[3]尹達,楊海平. 智慧出版理念下學術出版融合發展體系創新[J]. 出版廣角,2023(16):4-10.
[4]左志紅,張雪嬌. 大模型賦能行業發展[N]. 中國新聞出版廣電報,2023-10-23.
[5]馮媛. 人工智能在出版領域的應用前景及風險應對[J]. 編輯學刊,2023(6):20-26.
[6]羅學科,黃瑩. 出版人工智能賦能:內容生態重塑與產消圖景互構[J]. 中國編輯,2022(2):27-31.
[7]Google發布能力最強AI多模態大模型Gemini[EB/OL]. (2023-10-30)[2023-12-08]. http://insights.zhiding.cn/2023/1207/3154262.shtml.
[8]王潔. ChatGPT對知識服務的五大變革[J]. 圖書館,2023(9):10-16.
[9]叢立先,起海霞. 生成式AI對出版業的影響及其應對:ChatGPT應用場景的視角[J]. 新疆師范大學學報(哲學社會科學版),2023(6):113-122.