馬亞男,楊瑞豐,何小東
(1.蘭州大學第二醫院第二臨床醫學院; 2.蘭州大學信息科學與工程學院,甘肅 蘭州 730000)
隨著人工智能(AI)技術的迅猛發展,各個行業都面臨著深刻的變革,其中醫學教育領域也不例外[1-2]。近年來,采用深度學習技術的大規模語言模型(Large Language Model,LLM)通過大量文本數據的訓練可以生成自然語言文本。由OpenAI開發的GPT系列(Generative Pre-trained Transformer,生成式預訓練變換器)是最為著名的LLM之一,其采用了Transformer架構,并通過無監督的預訓練方式來提高模型的語言生成能力。GPT目前已經發布了多個版本。最初的版本GPT-1包含1.17億個參數,是一個單向的語言模型,能夠在句子級別上生成類似人類的語言。GPT-3在GPT-1和GPT-2的基礎上進一步改進模型并訓練,參數數量超過1 750億個,可以生成更長、更準確、更連貫的語言文本,并可以執行更多的自然語言處理任務。近期發布的GPT-4的參數數量是GPT-3的16倍,其采用的多模態預訓練大模型更具備了高水平的識圖與高級推理技能。GPT-4被認為是目前最強大的自然語言模型之一,可以生成人類語言水平的文本,其強大的語言、圖像與語音生成及零樣本學習能力為自然語言處理帶來了巨大的潛力和可能性[3]。
基于自然語言處理(NLP)的AI平臺——聊天機器人生成預訓練轉化器(Chatbot Generative Pre-trained Transformer,ChatGPT)是GPT系列的一種變體,由于其可以生成真實、流暢的語言,并且可以與人類用戶進行自然交互,并能夠生成類似人類反應的能力而獲得了廣泛的關注,已成為自然語言處理的一個重要研究方向[4]。各種類ChatGPT大規模語言模型也在不斷涌現,其發展已在社會上引起廣泛關注[3],正推動人工智能生成技術(Artificial Intelligence Generate Content,AIGC)的快速發展與市場應用。AIGC已經正被應用于廣告、新聞、文學創作及醫療診斷等領域,將為人們提供了更加豐富、多樣化的內容。在醫學教育領域中,人工智能或者類ChatGPT也可以作為一種輔助教學工具,為學生提供高質量、個性化的教育體驗[5-6],或者是帶來新的挑戰[7-8]。
但是類ChatGPT作為新出現的實用工具,其人群知曉率較低且沒有切實有效的實踐研究來評價其在醫學教育的前景和實用性,故本文將首先從介紹技術原理及其在醫學領域的應用出發,以學生主體,通過調查問卷的形式落實學生中類ChatGPT在醫學生中普及率問題、實用性問題以及主觀態度感情問題,闡述類ChatGPT在醫學生中的使用現狀、主要用途以及分析其中出現的問題,評估類ChatGPT在醫學生中使用的可行性。
類ChatGPT其工作原理主要是通過強化學習(RL),提示優化[9](Prompt Tuning),思維鏈[10](Chain-of-thought)等技術手段,每一次工作時可以概括為以下幾個步驟[11]:①處理輸入。當用戶在輸入端輸入問題后,輸入文本被轉換成計算機能夠理解的數字形式。這些數字被傳遞給一個神經網絡,這個神經網絡已經通過大量的訓練學習了如何理解自然語言。②理解上下文。神經網絡分析輸入文本,并嘗試理解用戶正在尋求什么樣的回應。它會分析語法、句法和語義,還會考慮上下文,以便更好地了解用戶意圖[12]。③生成回應。一旦類ChatGPT理解用戶的意圖,它就會生成一個相應的回應。這個回應也是一條文本消息,目前的類ChatGPT并不能進行視覺或語音交互。④增強學習。類ChatGPT不斷地學習、自我修正和改進自己的回答,以提高效率和自然度。在與用戶的對話中,類ChatGPT會記錄對話歷史,并進行反饋和自我評估,從而不斷提高自己的回答質量。
總體而言,類ChatGPT的工作原理是基于自然語言處理技術,通過訓練大型神經網絡以實現對案例的自動語義理解,然后以此與用戶進行自然的聊天(圖1)。

圖1 類ChatGPT的問答流程圖
作為大型語言模型,類ChatGPT體現出了與傳統學習方式相比強大的可塑性與便捷性。這主要體現在ChatGPT能夠提供方便的信息檢索功能、文獻回顧功能[13],相比于傳統的文獻檢索能夠更加方便地獲取領域內的最新研究并且整理學習。例如,當用戶輸入“糖尿病的治療方案”,ChatGPT可以搜索醫學知識庫中的相關文獻,并根據不同治療方案對文獻進行歸納和分類(表1),返回給用戶相關的信息。此外,類ChatGPT可以作為一個知識庫,提供有關醫學方面的各種問題的解答,從而幫助醫學生更好地理解學術知識。加之類ChatGPT的自然語言屬性,甚至可以對醫學生提供思想教育、自我管理和職業發展。

表1 ChatGPT總結的糖尿病治療方案以及參考文獻*
但是目前相關研究僅僅集中在理論階段,并沒有相關研究深入落實到學生群體實地考察,為解決這個問題,以蘭州大學第二臨床醫學院的學生為切入點,通過問卷調查探究學生對類ChatGPT的真實感受,以期能夠更全面地了解醫學生對ChatGPT的認知度和使用體驗,并從中獲取有關ChatGPT在教育中應用的反饋和建議。
本次調查通過無記名網上問卷調查,使用問卷星軟件(https://www.wjx.cn/)設計調查問卷并在線上進行發放,調查群體為蘭州大學第二臨床醫學院全體學生。調查問卷問題主要分為四個部分:了解程度與了解途徑、使用情況與主要用途、積極影響與消極影響、風險評估與整體認識。通過四個方面十五個問題的闡述,可以基本評價以蘭州大學第二臨床醫學院為代表的醫學生對于類ChatGPT的認識程度與潛在問題。
本次調查共回收問卷684份,其中有效問卷621份,有效率90.8%。最終納入至研究中的本科生463人,研究生95人,博士生63人。通過判斷頁面停留時間、作答問卷時間和前后矛盾排除等方法排除無效數據,維持問卷質量水平。
本研究中所有的圖表和統計量計算均來源于Origin 2022b(https://www.origi nlab.com/),所有的假設檢驗的檢驗水平α均為0.05.
通過對調查問卷的初步分析,可以看出在621份有效問卷中,自覺對類ChatGPT(如ChatGPT、文心一言、Bard等)有一定了解的人(包括了解但不深入和相當了解)共有255份,占到了有效問卷的41.1%,其中相比于本科生,研究生和博士生對于類ChatGPT的了解程度更好,知曉率均在50%以上(圖2),將納入人群重新分成本科生、研究生和博士生,通過卡方檢驗(Pearson卡方)計算得出χ2=16.891,卡方檢驗的P=0.002<0.05,說明在此研究中,本科生對類ChatGPT的知曉率總體上要低于研究生與博士生。

圖2 類ChatGPT在蘭州大學第二臨床醫學院各年級中的知曉率
本研究中納入的本科生較多,但是整體而言本科生對類ChatGPT的認識缺明顯低于研究生和博士生,出現此類原因的情況可能是由于類ChatGPT在醫學生中主要用于文獻查閱、文獻管理和論文寫作,而本科生相關需求量較少,導致本科生中了解ChatGPT的人相對偏少;同時研究生、博士生接觸科技前沿知識的機會相較本科生較多,這也可能是導致研究生和博士生中使用類ChatGPT人數較多的原因之一。
在了解途徑方面,可以看到在較為了解的255位同學中對類ChatGPT的了解途徑來源于新媒體平臺(包括微信公眾號、抖音和社交平臺等),占比在70%以上(表2)。除去新媒體平臺外,也有小部分人獲取ChatGPT的途徑為朋友介紹或者科研學報得知,從卡方結果來看,了解但不深入的學生和了解且深入的學生了解途徑并無差別(χ2=4.577,P=0.334)。這說明自覺了解類ChatGPT的學生的了解途徑大部分均為網絡途徑。

表2 蘭州大學第二臨床醫學院了解類ChatGPT途徑[n(%)]
從這一部分而言,蘭州大學第二臨床醫學院的學生對類ChatGPT了解比較少且了解途徑較為單一,大多數都來源于網絡,這樣的分布特點可能致使學生們對類ChatGPT的理解有所誤差。
根據上一部分的統計,曾經使用過類ChatGPT的人一共有97人,只占到了有效人數的15%,在后續反饋中可以得知大家使用類ChatGPT較少的原因是類ChatGPT一般要使用虛擬專用網絡,對于醫學生而言有一定難度。
在使用過類ChatGPT的97人中,大多數人選擇使用類ChatGPT用以查詢普通資料或者單純對類ChatGPT感興趣(圖3),這可能與了解途徑多偏向娛樂性質(新媒體平臺)相關。除此之外,也有多數學生選擇用類ChatGPT來查詢資料,后續反饋中得知這部分學生主要是看重類ChatGPT方便的交互功能,省去了傳統資料查閱中的信息識別和整合步驟,更加方便快捷的得出問題的答案。只有約1/3的學生選擇利用類ChatGPT進行學術論文指導或者學業知識答疑。

圖3 類ChatGPT在蘭州大學第二臨床醫學院學生中使用情況調查*注:*多選題選項百分比=該選項被選擇次數÷有效答卷份數;含義為選擇該選項的人次在所有填寫人數中所占的比例。
通過觀察分析,可以發現使用過類ChatGPT的大部分學生是興趣使然,僅有少部分學生將類ChatGPT功能使用在與醫學教育相關的學術論文指導或者學業知識答疑中,這一方面說明醫學生對類ChatGPT的了解不甚廣泛,另一方面也充分說明了類ChatGPT在醫學生教育中的潛在市場。
在類ChatGPT可能對醫學生的積極影響方面,了解并接觸過類ChatGPT的學生中有80.78%認為類ChatGPT能對醫學前沿有很好的掌握能力(圖4A),同時大部分人(84.71%)都認為類ChatGPT能為人們極大提升工作效率,并且能夠提供更好的智能服務(圖4B)。使用過類ChatGPT的學生均認可類ChatGPT在醫學教育領域尤其是在醫學前沿方面的廣泛前景,并且確實能為人類帶來便利,使用過類ChatGPT的學生對醫學前沿與類ChatGPT關系的認識相較未使用過ChatGPT的學生而言有一定提升(表3)。

圖4 類ChatGPT的學科優勢與積極影響*注:*多選題選項百分比=該選項被選擇次數÷有效答卷份數;含義為選擇該選項的人次在所有填寫人數中所占的比例。

表3 使用過類ChatGPT與未使用過ChatGPT醫學生對類ChatGPT在醫學教育領域應用的認識[n(%)]
在面對類ChatGPT的缺陷時,了解類ChatGPT的255位學生大部分都對類ChatGPT的準確性和客觀性存疑,認為此類人工智能無法保證其絕對的正確回答,同時對隱私問題和信息安全表達了擔憂(圖5A,圖5B)。

圖5 ChatGPT的暴露問題與消極影響*注:*多選題選項百分比=該選項被選擇次數÷有效答卷份數;含義為選擇該選項的人次在所有填寫人數中所占的比例。
由此可見在積極影響方面,雖然大部分學生都僅是興趣使然才使用類ChatGPT,但是使用過類ChatGPT的學生大部分都認為類ChatGPT能很好地利用于文獻查找或者前沿研究。出現此情況的原因可能是因為類ChatGPT的出現解決了醫學生閱讀文獻困難的痛點,能夠為醫學生切實帶來學業上的便利和科研上的進步,并且這一特點已經得到了大多數使用類ChatGPT人群的認可。
反觀消極影響方面,大部分學生都認為類ChatGPT展現出來的算力不足以讓人信服,甚至有時會提供虛假信息來達到回答問題的目的。類ChatGPT的底層邏輯包含根據上下文推斷的功能,故可能出現依從性和客觀性的矛盾,此事再面對真實問題的回答可能會缺乏真實性和客觀性。此外運用類ChatGPT期間的網絡安全問題也值得討論,尤其是將來如果類ChatGPT應用于醫學領域面對的倫理問題和患者隱私問題也值得討論。
但是總體而言,在面對新技術時,學生們依然能保持中立的態度(表4),使用過類ChatGPT醫學生對于類ChatGPT持樂觀態度的比例也明顯增長(χ2=14.826,P=0.002)。大部分學生(489人,78.74%)在面對類ChatGPT時能夠保持自信的態度,認為大學生的創造力要優于類ChatGPT,而且這個認知與是否使用過類ChatGPT無關(表五,χ2=2.973,P=0.085)。

表4 蘭州大學第二臨床醫學院學生面對類ChatGPT的態度

表5 蘭州大學第二臨床醫學院學生對類ChatGPT與大學生之間的創造力比較
通過上述分析過程,立足于蘭州大學第二臨床醫學院,分析可能存在于現在醫學生應用類ChatGPT的問題和現狀,可以得出以下結論:①醫學生對類ChatGPT缺乏固定認識途徑,缺乏全面、合理的認識,大部分學生通過網絡途徑認識并了解類ChatGPT;②醫學生對類ChatGPT使用率較低,主動應用于醫學教育領域的情況較少,但是可以對類ChatGPT有正確的認識,認可其在醫學教育領域的發展潛力;③大多數醫學生認為類ChatGPT可以解決自身在學習上的困難,但是仍然對類ChatGPT存在一定擔憂;④大部分學生認可類ChatGPT的同時也不否認人本身的創造力,在面對類ChatGPT時能夠保持中立態度,在使用過類ChatGPT后也有更多的學生持樂觀態度,認為類ChatGPT的出現可以引領新的科技革命。
通過調查問卷與研究分析,我們初步認為類ChatGPT在醫學教育中的應用是可行的。首先,使用類ChatGPT模型能夠切實提高學生的醫學素養和科研能力,降低學習成本;其次,大多數學生對于類ChatGPT抱有較為樂觀的態度,并不排斥類ChatGPT作為工具為自己的學習生活帶來便利;最后,由于類ChatGPT主要溝通方式是文字交流,與傳統書本形式貼合又具有便捷性和及時性。而醫學作為前沿學科,保證及時性可以極大開拓醫學生的視野,有利于醫學生的培養。
除前文提到的醫學教育的幫助之外,類ChatGPT可以提供許多關于各種醫療衛生方面的問題和解答,包括疾病、診斷[14]、治療等。這些問題和解答可能會激發醫學生對醫學問題的好奇心,鼓勵他們去更深入地學習相關主題。同時,醫學生可以通過類ChatGPT處理他們的職業規劃和目標。作為聊天機器人,類ChatGPT可以回答求職信,提供工作建議,并且對預算規劃、現實中的醫療實踐進行模擬,讓學生更加了解自己所需要的工作。在一定程度上可以幫助醫學生減輕學習道路中的困惑,幫助醫學生建立信心,對未來職業道路有更加明確的認識。
4.3.1 過度依賴
如果類ChatGPT在醫學教育中廣泛應用,醫學生可能過度依賴這種技術來完成學習任務。這可能導致他們在學習過程中缺乏獨立思考和解決問題的能力。過度依賴類ChatGPT會削弱醫學生的批判性思維,使他們在面對現實世界的復雜問題時感到無所適從[15]。
4.3.2 辨別真假
盡管類ChatGPT具有強大的學習和處理能力,但其知識庫并不是隨時更新的,這意味著其所提供的信息可能已經過時。醫學是一個不斷發展的領域,新的研究和發現每天都在涌現。因此,醫學生若完全依賴類ChatGPT的知識,可能會導致他們對最新的醫學進展認識不足,甚至接收到“虛假”的信息[8]。加之醫學生對專業領域的認識不強,研究不深入,很容易導致過度信任類ChatGPT提供的信息從而導致接受錯誤的醫學知識,不利于醫學生自身發展。故在技術未達到完全成熟之前,醫學生的學習仍需要以課堂學習、實踐能力訓練為主,不能完全依靠類ChatGPT[16]。
4.3.3 類ChatGPT的邏輯局限性
盡管類ChatGPT依托其強大的語言理解功能能夠和人類進行自然、流暢的語言交流,但是作為一種語言模型,其底層邏輯依然依托于深度學習算法和自然語言處理技術,人類在日常生活的自然交流中可能出現的思維跳躍、深層語義和復雜名詞而言,類ChatGPT理解其背后的含義還有一定的難度,故在一次會話之中應當盡量選擇同一主題的內容對類ChatGPT進行訓練以達到更好的效果。
4.3.4 ChatGPT在醫學倫理中可能存在的問題
醫學生或者醫生在向類ChatGPT詢問醫學咨詢和建議時,需要考慮到醫學倫理方面的問題[21],例如如何平衡醫學治療效果和患者的個人意愿和價值觀等問題。在類ChatGPT提供建議后,醫生應該遵循相關的醫學倫理原則和規定,不能完全接納類ChatGPT提供的建議,并盡可能地減少因提供不當建議或咨詢而導致的風險,尤其是在類ChatGPT向患者或者醫生提供錯誤的咨詢和建議導致患者的健康問題時,由誰來負責是一個值得討論的問題。
在本文中,我們從調查問卷入手,總結了醫學生以及醫學教育在面對類ChatGPT時可能會出現的問題,之后評估了醫學生在面對類ChatGPT時的現狀,以及類ChatGPT在醫學教育中的應用和對醫學生的潛在影響。總體而言,類ChatGPT作為聊天機器人能夠在醫學教育中起到積極作用,能夠幫助醫學生完成學業、精進知識、開闊眼界、探索未知領域。相比于傳統的閱讀醫學課本和其他醫學文獻期刊,類ChatGPT具有易于掌握、方便快捷等特點,可以預見其未來在醫學教育領域的前景是十分廣闊的[16-18]。
但是類ChatGPT作為工具依然存在其局限性,這主要體現在:①太在意語言邏輯而缺乏本身的客觀性和真實性;②可以通過語言訓練使類ChatGPT回答自己想要得到的答案,而醫學作為一門自然科學和社會科學的結合,面對客觀事實要保持一定的理性,這與類ChatGPT的訓練特點存在一定的矛盾;③類ChatGPT擁有自己的語言邏輯,雖然盡可能模擬了自然語言,但是在面對復雜問題時仍然表現乏力,在使用類ChatGPT前應該經過一定的學習,以便快速讓類ChatGPT理解并回答提出的問題,同時我們也要秉承技術服務于人的原則,防止濫用人工智能[19]。此外由于本研究僅在蘭州大學第二臨床醫學院開展,其背后暴露的問題可能并不適用于全部的醫學生,如果要綜合評價所有醫學生對于ChatGPT的現狀認識,需采用多中心的研究數據進行分析討論。