

摘要:GPT技術正在改變人類生產生活的方式,有必要對此類技術相關文獻進行梳理,為未來深度議題聚焦提供方向參考和理論借鑒。本文采用文獻計量法,通過對知網社會科學方向論文高頻學科和主題詞統計和聚類分析,聚焦生成內容應用場景、哲學倫理、教育、法律安全四個層面,對科研熱門領域和主題進行情報分析。
關鍵詞:GPT;生成式人工智能;情報分析;文獻綜述;文獻計量
doi:10.3969/J.ISSN.1672-7274.2025.01.061
中圖分類號:G 351;TP 18 文獻標志碼:A 文章編碼:1672-7274(2025)01-0-03
A Literature Review on the Explosion and Application of GPT Technology
YANG Guang
(Fujian Agriculture and Forestry University Library, Fuzhou 350000, China)
Abstract: GPT technology is changing the way humans produce and live. It is necessary to review the relevant literature on this technology to provide direction and theoretical reference for future in-depth topics. This article adopts bibliometric method to conduct statistical and cluster analysis on high-frequency disciplines and keywords in the social science direction of CNKI, focusing on the application scenarios of generated content, philosophy and ethics, education, and legal security, and conducting intelligence analysis on hot research fields and themes.
Keywords: GPT; generative AI Intelligence analysis; journals reviewed; bibliometrics
GPT是基于Transformer架構的自然語言處理模型,該架構最初由Google提出。2018年,OpenAI發布了第一個GPT模型(GPT-1),2022年11月GPT-3.5(即ChatGPT)上線,不到一周的時間,用戶量就超過了100萬人,推出兩個月便擁有上億的活躍用戶。GPT技術從此成為技術界甚至全球關注的焦點,也開始成為引領人工智能技術研究的新熱點。最新版本GPT-4o可以處理文本、音頻和圖像任意組合作的輸入內容,能聽說會唱,還能帶著情緒和人聊天[1]。OpenAI于2024年2月推出了類似技術的大模型Sora,用戶只需提供簡單的文本描述就能生成具有豐富細節和連貫性的視頻。
各大廠商紛紛加大GPT類技術的研發投入,該類技術得到了飛速發展,應用場景不斷落地,形成了如今“一超多強”的局面。谷歌無疑是追趕最緊的那個,2024年5月,谷歌對應GPT、Sora對自己的大模型Gemini發布了一系列更新產品,谷歌郵件可以利用該模型識別電子郵件,然后幫你總結出要點;可以把材料或會議記錄輸入,整合成科學討論來幫助學生或教師等。微軟因投資OpenAI公司使GPT技術在微軟的商業化過程中得到了廣泛應用。2024年2月,微軟旗下GitHub宣布GitHub Copilot Enterprise正式全面發布,利用高質量數據和GPT模型,能夠按要求獲取、審核、擴展得到安全可靠的代碼。Microsoft 365 Copilot也在顛覆著Office用戶的工作方式,可通過文字對話,讓Excel操作數據生成文筆一致的Word內容,讓PPT自動排版,重新設計等。音樂科技領域的創新者Suno只需用戶要提供文字,就能生成相關曲風、流派的音樂,大大降低了音樂制作的門檻。機器人公司Figure AI因為深度使用GPT技術,被業界譽為最有潛力的機器人公司之一。
截止到2023年5月,美國10億級參數規模以上的GPT類大模型就已突破100個,中國10億級參數的大模型數量如今也超100個[2],如字節跳動的豆包大模型、百度的文心大模型等。GPT類技術應用正在改變國內在各行各業的生態,有必要對此類技術相關文獻進行梳理,為未來深度議題聚焦提供方向參考和理論借鑒。
1 研究設計
1.1 文獻收集和篩選
本文按照系統性文獻綜述的標準展開文獻收集、篩選、分析工作。第一,以中國知網作為檢索平臺,將已發表的社科方向學術論文作為研究對象進行統計;第二,將數據來源類別設為北大核心、SSCI、CSSCI;第三,使用“ChatGPT/GPT/LLM/大語言模型”作為主題詞進行搜索,時間截止到2024年4月30日。總共檢索出2 627篇學術論文,其中滿足條件的1 203篇,人工進行核對和查重后得到1 195篇中文文獻。
1.2 論文基本情況
表1展現了近5年中文社科方向相關研究文獻發表數量的分布情況。從整體上看,在2023年之前,GPT類技術社科方向的研究論文幾乎沒有,從2023開始爆炸性增長,2024年與2023年環比持平。一方面,GPT技術從爆發到國內應用經歷了至少兩年時間,引發學者對國內社會變化的研究;另一方面說明GPT技術從誕生以來備受關注,其在社科方向研究領域具有持續的熱度和巨大的發表潛力。
表2展示了最熱門學科和主題詞頻次排序前十。熱門學科常用于關鍵詞影響較深的熱門領域,而高頻主題詞常用于確定領域的熱點方向。本文已經忽略人工智能、ChatGPT、大語言模型等共性且籠統的熱門學科和主題。
經過聚類分析聚焦四個領域,分別是關于生成式人工智能生成內容與應用場景的探討(#C1,#C3,#C4,#C5)與主題詞(#T2,#T3,#T4,#T5)聯系較為密切;哲理倫理學話題(#C8)與主題詞(#T1,#T10)聯系較為密切;而教育層面(#C2,#C7)與主題詞(#T1,#T5,#T8)聯系較為密切;法律與安全層面(#C6,#C9,#C10)與主題詞(#T1,#T6,#T9)聯系較為密切。
2 聚焦科研熱門領域
2.1 生成內容與應用場景層面
(1)研究方法。GPT大模型技術是黑盒子,隨著對GPT技術認識的加深,研究者從研究模型可解釋性逐漸開始轉向以類似腦科學的研究方法研究GPT技術作為新的嘗試。如清華大學腦與智能實驗室首席研究員劉嘉最新研究論文《從腦科學+人工智能角度講透GPT-4》等。
(2)使用方法。如何引導GPT更高效地完成交代它的工作是近兩年arXiv發表的論文熱點之一。如中國學者吳娜等的論文《AIGC驅動古籍自動摘要研究:從自然語言理解到生成》,金源等的論文《基于ChatGPT的問答式財務知識庫構建與應用》都在特定領域嘗試通過更好的提示詞組合,生成更理想更穩定的內容。
(3)評估方法。當今模型好壞通常通過參數多少、吞吐量大小、計算速度等維度進行比較。但隨著應用在細分領域的不斷落地,此評估方法太過粗獷,模型大小無法等同于體驗好壞、模型能力大小,迫切需要建立新的模型評估體系。如研究者羅文、王厚峰研究的論文《大語言模型評測綜述》中介紹了企在探尋大語言模型評測的新方法。
2.2 哲學層面
(1)技術倫理方向。GPT類技術應該是監管式的發展還是冒進式發展,發展過快是否對人類生存產生威脅?不少人有這樣的擔憂,甚至在GPT技術誕生的OpenAI公司內部也存在分歧。分歧產生了不同的科研方向和觀點,一種觀點對通用人工智能充滿警惕,擔憂AI會對人類的生存造成風險,研究者堅持用謹慎的態度來發展AI,如發起的“超級對齊”的項目。另一種持有者是有效加速主義者,認為人類目前面臨的大多數問題,都能通過技術進步和不斷增長來解決,在研究上更加激進、更商業化。
(2)意識方向。AI狂暴發展的勁頭會讓機器產生意識么?智能和意識是哲學領域研究的一大課題。一派論文作者認為智能和意識是無法分開,雖略有不同但連續成整體。訓練大模型的數據是人類信息的載體,承載信息量密度最高的是文字,其次是圖片、視頻等。GPT承載了人類意識的一部分,它能夠自主學習、自動規劃、自動推理、判斷并進行知識遷移等,應視為擁有某種形式的意識[3]。另一派論文作者則努力證明GPT技術只是一種信息的壓縮技術,將人類信息存放在大數據里,機器快速地將需要的信息提取給人類。意識是更高的維度,兩者是無法跨越的,不會產生意識甚至威脅人類。
2.3 教育層面
(1)學術不端的爭議。有研究表明GPT已經在很多領域擁有知識專業度超越了普通研究者,而且具有強大的文獻搜索、梳理和整合能力,生成物為學生在學術中“舞弊”成為可能,但此行為在學術界仍各執一詞。一部分觀點認為,生成物往往是有套路的,分析不夠充分,未能達到學術論文的標準。做學術主要關注的是創新點,所以應該將GPT類生成物看成工具,不宜認定成學術不端[4]。但也有一些認為,完成論文體現的是學者動手能力和提出、分析和解決問題的能力。而隨著GPT功能的強大,生成的內容越來越深入讓人很難分辨是否有學者的參與,依賴GPT生成的作品類似于“代寫”,屬于學術不端的行為。
(2)人才培養的新模式。如何調整人才培養模式以適應GPT這種具備更大的容量、更快的速度和更強的知識分享能力的技術是教育研究者的另一個熱門課題。有學者提出,大學需要對某些學科進行重構,將人工智能相關知識納入各學科體系,甚至使其成為所有大學生必備的素養,這樣有利于更好地利用該技術實現科研目標。同時,大學也需要加強人機倫理道德教育,培養辨識利與弊的能力,并據此引導人工智能向有益于社會的方向發展[5]。
2.4 法律與安全層面
(1)法律方向。GPT技術帶來的改變,法律應該如何完善和調整是法律工作者相繼研究的熱門課題。首先,判定困難。GPT是生成式的預訓練模型,大部分公司沒有公布訓練使用的數據,2023年12月,就有11名美國作家起訴OpenAI用他們的作品訓練ChatGPT,直至今日,起訴的結果還未有定論[6]。其次,裁判責任時由開發者承擔還是使用者承擔存在爭議。一部分論文中指出,人工智能司法責任承擔必須以保護公共利益為優先,由使用者優先承擔責任,更有利于此目標的實現。因為只有使用者與利益具有最緊密的關聯性,如果不予問責或者逃避問責,會對公共利益產生最大程度的侵害[7]。而另一部分學者認為,GPT類生成式模型并非傳統意義上的“輔助工具”,如果模型在訓練中使用了侵權的數據進行訓練學習,生成的內容便存在侵權風險。而使用者作為此事件的弱勢群體往往不自知。讓使用者承擔主要責任,會使模型的生產者逃避法律責任,甚至為了追求利益造成更大規模的侵權事件。最后,GPT生成物著作權爭議。傳統觀念著作權作者只能是自然人,有的學者認為,由算法、模板生成的結果,不能體現作者獨特的個性,故難以構成著作權法意義上的作者。但也有知識產權界的教授指出,著作法只保護獨創性而非創作過程,只要達到獨創性標準,就能夠視為作品[8]。
(2)安全方向。生成式人工智能技術正在迅速進步,原文上的篡改、音域上的模仿、視域上的捏造,這些虛假信息與生成式人工智能技術已經深度結合,導致虛假信息數量呈指數級增長[9]。同時在利用GPT類技術時,有上傳數據信息泄露風險,也是擺在國家和治理者研究的課題之一。
3 結束語
如今看來,GPT類技術改變人類生產生活是大勢所趨,無法阻擋,此類技術影響世界的發展進程,其技術特征與應用效果也日漸明朗。本文通過系統梳理知網關于GPT類技術社會科學方向較為核心的1 195篇文章,初步繪制出了國內科研的前沿知識熱點地圖。通過分析框架聚焦四個層面九個熱門方向,并大致介紹了如今科研熱點話題或研究現狀,厘清了GPT類技術當前的研究脈絡,可為未來深度議題聚焦提供方向參考和理論借鑒。
參考文獻
[1] Hello GPT-4o[EB/OL]. (2024-05-13)[2024-05-13]. https://openai.com/index/ hello-gpt-4o/
[2] 騰訊網.2023AI大模型應用中美比較研究報告[EB/OL].(2023-09-26)[2024-03-25]. https://new.qq.com/rain/a/20230926A099R000
[3] 張俊.人工智能意識問題的哲學省思[J].山東社會科學,2024(2):48-58.
[4] 侯利陽,李兆軒.ChatGPT學術性使用中的法律挑戰與制度因應[J].東北師大學報:哲學社會科學版,2023(4):29-39.
[5] 眭依凡,幸泰杞.人才培養模式創新:人工智能時代大學的緊迫課題[J].中國高教研究,2024(3):8-16,21.
[6] 新浪財經.因涉嫌侵犯版權,OpenAI和微軟遭多位美國知名作家起訴[EB/OL].(2023-12-22)[2024-03-26].https://baijiahao.baidu.com/s?id=1785960763089159204
[7] 江必新,陳夢群.司法審判的根本遵循——習近平司法理論述要[J].法律適用,2022(5):3-12.
[8] 吳漢東.人工智能時代的制度安排與法律規制[J].法律科學(西北政法大學學報),2017,35(5):128-136.
[9] 鮑家琴.生成式人工智能視域下虛假信息的法律風險及規制[J].中國價格監管與反壟斷,2024(3):90-93.
作者簡介:楊 光(1990—),男,漢族,內蒙古烏海人,助理館員,本科,研究方向是數據挖掘、機器學習、情報學等。