生成式人工智能科普寫作能力評(píng)估

2025-07-12 00:00:00和鴻鵬張雅欣張力愷

科普研究 2025年2期

中圖分類號(hào)］N4；TP18 ［文獻(xiàn)標(biāo)識(shí)碼］A [DOI]10.19293/j.cnki.1673-8357.2025.02.003

1問題提出

1.1關(guān)于生成式人工智能科普寫作能力的爭(zhēng)論

生成式人工智能為科學(xué)家和科普工作者提供了便捷工具，可快速生成科普內(nèi)容，也吸引了研究者的關(guān)注。馬科維茨（DavidMMarkowitz）倡導(dǎo)將生成式人工智能融入科學(xué)傳播（ScienceCommunication）{l；阿爾瓦雷斯（AmandaAlvarez）等認(rèn)為其可能徹底改變科學(xué)傳播的方式[2；麥克（MikeS.Schafer）在承認(rèn)生成式人工智能科學(xué)傳播能力的同時(shí)，也指出人工智能可能導(dǎo)致準(zhǔn)確性挑戰(zhàn)和“大規(guī)模錯(cuò)誤”，并對(duì)科學(xué)傳播本身和更大的科學(xué)傳播生態(tài)系統(tǒng)產(chǎn)生影響[3]。事實(shí)上，生成式人工智能憑借高效的信息處理和語言生成能力，參與科普寫作已成為現(xiàn)實(shí)，如亞馬遜網(wǎng)站上架了超百本ChatGPT參與創(chuàng)作的科普相關(guān)圖書[4]。但不同研究者對(duì)于生成式人工智能的科普寫作能力尚存爭(zhēng)議，如雪莉（ShirleyS.Ho）認(rèn)為，“生成式人工智能工具通過可能比以前更簡(jiǎn)單、更快速的方式生成內(nèi)容，為科學(xué)傳播引入了新的協(xié)同作用”，但是阿爾瓦雷斯卻指出，“鑒于生成式人工智能工具產(chǎn)生無意義的傾向，科學(xué)傳播者應(yīng)該考慮生成式人工智能是否實(shí)際與他們的工作目的完全對(duì)立”[2]。可見，研究者對(duì)生成式人工智能的科普寫作能力是否達(dá)到（甚至超過）人類作者的水平，在觀點(diǎn)層面尚存爭(zhēng)議，特別是由于不同版本生成式人工智能（如GPT3.5與4.5版本）的科普寫作能力存在較大差異[5]，以及科普寫作能力涉及多個(gè)維度的評(píng)價(jià)等原因，使得這一爭(zhēng)議變得愈發(fā)復(fù)雜，有待實(shí)證研究作出回答。

1.2生成式人工智能寫作能力評(píng)估

生成式人工智能在不同領(lǐng)域的廣泛應(yīng)用，推動(dòng)對(duì)其能力的評(píng)估成為學(xué)界關(guān)注的焦點(diǎn)，如論文評(píng)價(jià)能力、數(shù)據(jù)分析能力等[6-8]，其中對(duì)寫作能力的評(píng)價(jià)是研究重點(diǎn)之一。對(duì)生成式人工智能寫作能力評(píng)估的相關(guān)研究主要從不同寫作主題切入，如文學(xué)寫作、醫(yī)學(xué)寫作[10]；還有學(xué)者關(guān)注生成式人工智能的學(xué)術(shù)寫作能力，如摘要和引言撰寫[、論文銜接[12]、材料準(zhǔn)確性[13]、寫作技能[14]等，并提示了潛在的學(xué)術(shù)倫理風(fēng)險(xiǎn)[15]。但目前鮮有研究對(duì)生成式人工智能的科普寫作能力作出評(píng)估，又因科普寫作兼顧通俗性與專業(yè)性，現(xiàn)有研究的結(jié)論不易直接類推至科普寫作。因此，本文的研究問題為：不同類型的生成式人工智能在科普寫作的總體表現(xiàn)和關(guān)鍵評(píng)價(jià)指標(biāo)上，是否可以達(dá)到（甚至超過）人類科普創(chuàng)作者的水平？回答這一問題有助于了解生成式人工智能在科普寫作方面的優(yōu)勢(shì)、效果及不足，深化對(duì)人工智能時(shí)代科普工作變革的理解。

2實(shí)驗(yàn)設(shè)計(jì)與實(shí)施

2.1實(shí)驗(yàn)設(shè)計(jì)

2.1.1科普寫作能力的評(píng)價(jià)指標(biāo)構(gòu)建

《芝加哥科學(xué)傳播指南》指出，“科普寫作”是運(yùn)用日常的、非專業(yè)的語言寫科學(xué)，而判斷一篇科普作品好壞的標(biāo)準(zhǔn)有三。第一，是否有趣，第一句話或者第一段話是否有可能會(huì)讓大部分讀者對(duì)這個(gè)主題感興趣，文章的主體部分是否能夠滿足這種興趣。第二，是否準(zhǔn)確，文中的事實(shí)和數(shù)據(jù)是否無誤，概念界定是否清楚，使用是否得當(dāng)。第三，是否易讀，文中的語言是否簡(jiǎn)潔且不依賴于術(shù)語，讀者是否能夠非常順暢地從頭讀到尾，且不會(huì)出現(xiàn)卡殼或困擾的地方。第四，是否有良好的過渡銜接，內(nèi)容之間是否存在良好的組織邏輯[16]。綜上，科普作品的評(píng)價(jià)標(biāo)準(zhǔn)至少包括趣味性、科學(xué)性、易讀性和組織邏輯4個(gè)維度。

然而，當(dāng)前大型語言模型在組織邏輯的呈現(xiàn)形式方面有明顯的可辨識(shí)特征。為避免因此造成的實(shí)驗(yàn)誤差，本研究通過適當(dāng)提示，使人工智能生成的科普作品在呈現(xiàn)形式上趨近于人類創(chuàng)作的作品。由此，“組織邏輯”將不被納入評(píng)價(jià)標(biāo)準(zhǔn)。為更好地評(píng)價(jià)科普作品質(zhì)量，將“傳播效果”納入指標(biāo)體系，從而形成表1所示的科普作品評(píng)價(jià)指標(biāo)。

2.1.2實(shí)驗(yàn)變量與評(píng)價(jià)者

本實(shí)驗(yàn)考察不同類型科普作品創(chuàng)作者的科普寫作能力，具體包括3個(gè)變量：（1）科普作品的創(chuàng)作主體，包括人類與生成式人工智能；（2）大型語言模型類型，包括DeepSeekR1版本、ChatGPT4.0版本與文心一言3.5版本；（3）對(duì)大型語言模型的提示程度，分為“初步提示”與“深度提示”。為確保實(shí)驗(yàn)的科學(xué)性和嚴(yán)謹(jǐn)性，以下變量被嚴(yán)格控制：第一，科普作品主題被限定為“微生物”，以減少主題差異對(duì)評(píng)價(jià)結(jié)果的影響。選擇該主題的主要原因是微生物學(xué)既是現(xiàn)代科學(xué)（特別是生命科學(xué)）中發(fā)展最快的領(lǐng)域之一，同時(shí)也與公眾生活密切相關(guān)，是理解“科學(xué)知識(shí)”和“科學(xué)與社會(huì)”這兩個(gè)科普創(chuàng)作維度的重要切口。第二，實(shí)驗(yàn)評(píng)價(jià)者均采用盲評(píng)方式，從而盡可能減少評(píng)價(jià)者預(yù)期對(duì)實(shí)驗(yàn)結(jié)果的影響。

在微生物主題下，實(shí)驗(yàn)選定兩個(gè)子主題——“微生物與社會(huì)”和“微生物知識(shí)”，每個(gè)子主題包括5篇科普作品，分別是人類創(chuàng)作版本（A）、文心一言初步提示版本（B）ChatGPT初步提示版本（C）、ChatGPT深度提示版本（D）和DeepSeek深度提示版本（E），共計(jì)10篇科普文章（見表2）。每篇文章均同時(shí)由一般評(píng)價(jià)者與專家評(píng)價(jià)者在不同維度進(jìn)行評(píng)價(jià)，其中一般評(píng)價(jià)者40位（評(píng)價(jià)除科學(xué)性之外的其他指標(biāo)）、專家評(píng)價(jià)者3位（評(píng)價(jià)科學(xué)性指標(biāo)并進(jìn)行作品甄別）。其中，專家評(píng)價(jià)者均已取得生物學(xué)博士學(xué)位且研究方向?yàn)槲⑸铮灰话阍u(píng)價(jià)者均為在校本科生，并被分為兩組，每組20人，分別評(píng)價(jià)“微生物與社會(huì)”和“微生物知識(shí)”主題的科普文章。

2.2實(shí)驗(yàn)過程

2.2.1人類科普作品的選取

人類科普作品的選取方式為在“科普中國(guó)”網(wǎng)站中，選擇“中國(guó)科普博覽”科普號(hào)發(fā)表的作品①，以“微生物”為關(guān)鍵詞檢索，排除視頻音頻類科普作品和需圖片傳達(dá)重要信息的科普作品，并將字?jǐn)?shù)限定在 1500～1800 字。最終得到8篇符合條件的人類作品，其中“微生物知識(shí)”主題的作品3篇、“微生物與社會(huì)”

主題的作品5篇。考慮到人工智能已具備較強(qiáng)寫作能力，選擇人類作者的高質(zhì)量作品與人工智能作品比較能夠更好地回應(yīng)研究問題，3位研究者通過評(píng)價(jià)量表對(duì)8篇文章分別評(píng)價(jià)，選擇各主題下得分最高的科普文章，作為本次實(shí)驗(yàn)的人類科普作品

2.2.2生成式人工智能科普作品的生成

對(duì)生成式人工智能的提示要消除其具有特征性的形式，并保持與人類作品主題的一致性。實(shí)驗(yàn)采取以下提示策略：（1）呈現(xiàn)形式，根據(jù)同主題人類作品的文體特征，要求其不出現(xiàn)大小標(biāo)題或生成若干小標(biāo)題，以與人類創(chuàng)作版本一致；（2）內(nèi)容主題，參照人類作品主題并自擬題目；（3）文字體量，1500＼～1800字；（4）寫作標(biāo)準(zhǔn)，初步提示版本無提示，深度提示版本要求“內(nèi)容科學(xué)準(zhǔn)確、有趣、有吸引力、語言簡(jiǎn)潔通俗易懂不依賴專業(yè)術(shù)語”。

實(shí)驗(yàn)采用盲評(píng)方式，研究者告知評(píng)價(jià)者，其評(píng)價(jià)的每篇文章為隨機(jī)抽取，可能為人類或生成式人工智能創(chuàng)作。在實(shí)驗(yàn)中，每位一般評(píng)價(jià)者對(duì)“微生物與社會(huì)”或“微生物知識(shí)”主題的5篇作品給出評(píng)分，專家評(píng)價(jià)者為全部10篇作品評(píng)分。為排除連續(xù)閱讀對(duì)評(píng)價(jià)造成干擾，實(shí)驗(yàn)過程分5天完成。最終，每篇文章的科學(xué)性指標(biāo)得到3個(gè)評(píng)價(jià)結(jié)果，其他指標(biāo)得到20個(gè)評(píng)價(jià)結(jié)果，取均值作為最終結(jié)果。

3實(shí)驗(yàn)結(jié)果分析

3.1人機(jī)科普寫作能力的總體評(píng)價(jià)結(jié)果

為直觀了解各版本文章的整體表現(xiàn)水平與文章間的差異性，研究采取描述性統(tǒng)計(jì)、方差分析、獨(dú)立樣本t檢驗(yàn)等方法分析不同科普作品的得分情況與顯著性水平。結(jié)果表明（見表3），在5類科普作品的總體表現(xiàn)方面，DeepSeek深度提示版本得分最高且標(biāo)準(zhǔn)差最小，說明經(jīng)深度提示的DeepSeek在科普文章創(chuàng)作方面具有較高水平且不同評(píng)價(jià)者的評(píng)分間有較好的穩(wěn)定性。人類創(chuàng)作版本的得分雖然高于文心一言初步提示版本，但低于ChatGPT初步提示與深度提示版本。經(jīng)方差分析（ p=0.003^** ）和每?jī)山M間的t檢驗(yàn)，發(fā)現(xiàn)文心一言初步提示版本分別和ChatGPT初步提示版本（ p=0.047^* ）、ChatGPT深度提示版本 p=0.0023^** ）以及DeepSeek深度提示版本（ p=0.0004^*** ）之間存在顯著差異。

進(jìn)一步考察“微生物與社會(huì)”和“微生物知識(shí)”兩個(gè)子主題的結(jié)果（見表4），發(fā)現(xiàn)：（1）在“微生物與社會(huì)”主題下，DeepSeek深度提示版本表現(xiàn)最優(yōu)，人類創(chuàng)作版本所得均分僅高于文心一言初步提示版本。經(jīng)方差分析和每?jī)山M間的t檢驗(yàn)，發(fā)現(xiàn)文心一言初步提示版本得分顯著低于其余4篇實(shí)驗(yàn)文章，其他文章之間均無顯著差異。（2）在“微生物知識(shí)”主題下，不同版本的人工智能創(chuàng)作文章在均分上均高于人類創(chuàng)作版本，其中DeepSeek深度提示版本表現(xiàn)最優(yōu)。經(jīng)方差分析和獨(dú)立樣本t檢驗(yàn)，DeepSeek深度提示版本得分顯著高于人類創(chuàng)作版本（ p=0.0374^* ），其余實(shí)驗(yàn)文章之間不存在顯著差異。

表4“微生物與社會(huì)”“微生物知識(shí)”兩主題人機(jī)得分情況表

3.2人機(jī)科普寫作能力的分指標(biāo)評(píng)價(jià)結(jié)果

3.2.1“易讀性”評(píng)價(jià)結(jié)果

在“易讀性”評(píng)價(jià)指標(biāo)中（見表5），人類創(chuàng)

作版本得分最低，ChatGPT深度提示版本得分最高。經(jīng)顯著性檢驗(yàn)！（p=0.03^* ），ChatGPT深度提示版本在“易讀性”上顯著優(yōu)于人類創(chuàng)作版本。

3.2.2“趣味性”評(píng)價(jià)結(jié)果

在“趣味性”評(píng)價(jià)指標(biāo)中（見表6），DeepSeek深度提示版本得分最高。經(jīng)顯著性檢驗(yàn)，DeepSeek深度提示版本得分顯著優(yōu)于人類創(chuàng)作版本（ _p=0.0018^** ）、文心一言初步提示版本（ p=0.0009^*** ）和ChatGPT初步提示版本（ p=0.0005^*** ），ChatGPT深度提示版本與人類創(chuàng)作版本之間差異不明顯，但顯著優(yōu)于文心一言和ChatGPT初步提示版本（ scriptstyle?p=0.011^* p=0.047^* ），這說明不同提示程度對(duì)“趣味性”得分有顯著影響。

3.2.3“科學(xué)性”評(píng)價(jià)結(jié)果

在“科學(xué)性”表現(xiàn)中（見表7），人類創(chuàng)作版本優(yōu)于ChatGPT深度提示版本、DeepSeek深度提示版本和文心一言初步提示版本。但經(jīng)顯著性檢驗(yàn)，人類創(chuàng)作版本與其他人工智能創(chuàng)作版本之間不存在顯著差異。

3.2.4“傳播效果”評(píng)價(jià)結(jié)果

在“傳播效果”表現(xiàn)中（見表8），人類創(chuàng)作版本得分低于DeepSeek深度提示版本和ChatGPT深度提示版本，高于ChatGPT初步提示版本和文心一言初步提示版本。經(jīng)顯著性檢驗(yàn)，DeepSeek深度提示版本在“傳播效果”上顯著優(yōu)于人類創(chuàng)作版本（ p=0.042^* ）、文心一言初步提示版本（ p=0.046^? ）和ChatGPT初步提示版本（ p=0.037^* ）。

3.3人機(jī)作品的甄別結(jié)果

評(píng)價(jià)者對(duì)實(shí)驗(yàn)文章創(chuàng)作者（人類或人工智能）的判斷結(jié)果顯示（見表9），人類創(chuàng)作版本的人類傾向性（即判斷系人類創(chuàng)作的比例）僅為 52.17% ，這說明評(píng)價(jià)者無法準(zhǔn)確區(qū)分人機(jī)作品。從甄別正確率來看，4篇出自人工智能之手的科普文章分別成功“欺騙”了 45.65% 、 54.35% 、 63.04% 和 52.17% 的讀者。

表9人工智能創(chuàng)作者與人類創(chuàng)作者作品甄別效果匯總表

為了解評(píng)價(jià)者的甄別結(jié)果與文章評(píng)分的對(duì)應(yīng)分布情況，通過交叉分析，發(fā)現(xiàn)那些被判斷為人類所作的文章，整體得分高于被判斷為人工智能所作的文章，皮爾遜相關(guān)系數(shù)與斯皮爾曼秩相關(guān)系數(shù)計(jì)算結(jié)果同樣顯示“甄別結(jié)果”與“均分”之間存在較強(qiáng)的負(fù)相關(guān)關(guān)系。這表明評(píng)價(jià)者傾向于給他們視作人類創(chuàng)作的文章打高分，而給視作人工智能創(chuàng)作的文章打低分，即評(píng)價(jià)者對(duì)人類創(chuàng)作者有更高的期待。為了解釋這一現(xiàn)象，研究進(jìn)一步分析了評(píng)價(jià)者在進(jìn)行人機(jī)甄別時(shí)給出的原因，通過對(duì)原因內(nèi)容進(jìn)行聚類分析發(fā)現(xiàn)，評(píng)價(jià)者主要將易讀性和趣味性（合計(jì)占比超過50% ）作為甄別人機(jī)作品的依據(jù)。一篇語言自然、內(nèi)容生動(dòng)又有吸引力的科普作品，會(huì)更容易被評(píng)價(jià)者認(rèn)為是由人類創(chuàng)作，而人工智能創(chuàng)作的科普作品則更容易被評(píng)價(jià)者認(rèn)為是格式化、生硬和缺乏情感的。有趣的是，這一主觀認(rèn)知與客觀結(jié)果恰好相反，如ChatGPT深度提示版本在“易讀性”“趣味性”上的得分均高于人類創(chuàng)作版本，這也解釋了為什么

63.04% 的評(píng)價(jià)者將ChatGPT深度提示版本的作者判定為人類。

4結(jié)論

本文基于實(shí)驗(yàn)數(shù)據(jù)，從4個(gè)維度探查了生成式人工智能的科普寫作能力，分析了評(píng)價(jià)者對(duì)人機(jī)科普作品的甄別情況，得出以下結(jié)論。

第一，生成式人工智能具備替代人類科普創(chuàng)作者的潛力。ChatGPT創(chuàng)作的科普作品得分（不論是初步提示還是深度提示版本）在趣味性、科學(xué)性和傳播效果3個(gè)指標(biāo)上均與人類創(chuàng)作版本無統(tǒng)計(jì)學(xué)上的顯著差異。上述結(jié)果顯示，機(jī)器作品能夠很輕易地“迷惑”讀者，評(píng)價(jià)者對(duì)所有生成式人工智能創(chuàng)作科普作品的甄別正確率均在 55% 以下，且ChatGPT深度提示版本能夠“欺騙” 63.04% 的評(píng)價(jià)者。換言之，人工智能已具有與人類近似的科普寫作能力，讀者無法對(duì)二者的作品作出區(qū)分。

進(jìn)一步，ChatGPT深度提示版本在“易讀性”指標(biāo)上顯著優(yōu)于人類創(chuàng)作版本，且DeepSeek深度提示版本在“趣味性”和“傳播效果”兩個(gè)維度的得分上顯著優(yōu)于人類創(chuàng)作版本。人類科普創(chuàng)作者在過去之所以不可或缺，是因?yàn)榭破兆髡吲c科技工作者相比，具有寫作語言通俗易懂、講述方式直觀形象、想象力豐富、知識(shí)面更寬等特征[17-18]，然而上述結(jié)果不僅證明生成式人工智能挑戰(zhàn)科普作者具有現(xiàn)實(shí)的可能性，也有力地回應(yīng)了麥克對(duì)人工智能在科學(xué)傳播中可能會(huì)產(chǎn)生“大規(guī)模錯(cuò)誤”的擔(dān)憂[3。但是需要特別指出的是，大型語言模型的核心原理是通過統(tǒng)計(jì)關(guān)聯(lián)預(yù)測(cè)下一個(gè)詞或句子，而不是真正理解科學(xué)概念或邏輯[19-20]。例如，如果訓(xùn)練數(shù)據(jù)中“量子力學(xué)”和“平行宇宙”經(jīng)常一起出現(xiàn)，模型就可能會(huì)生成“量子力學(xué)證明了平行宇宙的存在”的表述，即使這種說法在科學(xué)上并不準(zhǔn)確。

第二，人機(jī)合作科普創(chuàng)作是一種可行的創(chuàng)作模式。除了人工智能在科學(xué)問題“理解”上的不足，人類尚有人工智能不具備的優(yōu)勢(shì)，如人類創(chuàng)作者在“微生物與社會(huì)”主題上的表現(xiàn)整體優(yōu)于文心一言，這說明人類創(chuàng)作者在科普寫作的“價(jià)值”維度上能夠更好地把握讀者需求，在情感共鳴、倫理判斷等方面展現(xiàn)專長(zhǎng)，而已有研究表明，這些方面正是人工智能的不足之處[21-22]。未來在“人機(jī)合作科普創(chuàng)作”的模式下，人類創(chuàng)作者應(yīng)“揚(yáng)長(zhǎng)避短”，更多將社會(huì)期待與人文價(jià)值融人科普作品的創(chuàng)作過程中，承擔(dān)喚醒公眾的科學(xué)理性意識(shí)的社會(huì)責(zé)任，促進(jìn)和構(gòu)建科學(xué)合理的社會(huì)價(jià)值體系[23]，避免只做科學(xué)知識(shí)的“搬運(yùn)工”，而是做科學(xué)精神的“傳播者”，如此方能發(fā)揮科普作者的獨(dú)特價(jià)值。

需要注意的是，不同的生成式人工智能在科普寫作方面表現(xiàn)出較大差異。在本文的研究范圍內(nèi)，DeepSeek和ChatGPT比文心一言表現(xiàn)更優(yōu)，文心一言在整體得分、趣味性、科學(xué)性等指標(biāo)上均表現(xiàn)最差，其原因也許可以從在訓(xùn)練數(shù)據(jù)、模型架構(gòu)、技術(shù)路線等方面的差異得到解釋[24-25]。因此，“人機(jī)合作科普創(chuàng)作”的有效實(shí)現(xiàn)需要選擇合適的生成式人工智能模型。同時(shí)，運(yùn)用適當(dāng)?shù)奶崾竟こ蹋≒romptEngineering）亦可提升生成式人工智能的科普寫作能力，如經(jīng)過更細(xì)致提示的DeepSeek深度提示版本創(chuàng)作的科普作品在全部科普作品中整體表現(xiàn)最優(yōu)，

第三，“人類能力幻覺”現(xiàn)象需引起關(guān)注。研究發(fā)現(xiàn)，評(píng)價(jià)者先驗(yàn)地認(rèn)為人類的科普寫作能力強(qiáng)于生成式人工智能，即傾向于將高分作品認(rèn)定為人類創(chuàng)作。本文將這種人類的認(rèn)知偏差現(xiàn)象稱為“人類能力幻覺”。如果說“AI幻覺”展現(xiàn)出AI本身的能力局限和人們對(duì)AI的不信任與擔(dān)憂[2，那么“人類能力幻覺”則展現(xiàn)出人類對(duì)生成式人工智能能力的認(rèn)識(shí)不足一—盡管有學(xué)者通過實(shí)證研究等方法證明目前生成式人工智能的寫作在創(chuàng)造力等方面仍難以和人類媲美[27，但是就科普寫作而言，不得不承認(rèn)這種“人類能力幻覺”已在事實(shí)上產(chǎn)生。這種“幻覺”的產(chǎn)生可能受人類中心主義以及對(duì)生成式人工智能抱有誤解和偏見的影響，另一方面也說明生成式人工智能的科普寫作能力并不為公眾所知。

5結(jié)語

本研究基于“微生物”主題，通過人機(jī)對(duì)比實(shí)驗(yàn)，從易讀性、趣味性、科學(xué)性、傳播效果以及人機(jī)作品的甄別等多個(gè)維度評(píng)估生成式人工智能的科普寫作能力。研究發(fā)現(xiàn)，生成式人工智能具備替代人類科普創(chuàng)作者的潛力，人機(jī)合作科普創(chuàng)作是一種可行的創(chuàng)作模式，并提示關(guān)注“人類能力幻覺”現(xiàn)象。

本研究雖力求嚴(yán)謹(jǐn)，但仍存在局限。第一，專家評(píng)價(jià)者與一般評(píng)價(jià)者數(shù)量相對(duì)有限。第二，被評(píng)價(jià)的科普作品只涉及“微生物”主題的純文字科普短文，難以反映其他科普主題、圖文結(jié)合作品或長(zhǎng)篇科普文章等類型作品。第三，本文的科普作品內(nèi)容主要來自經(jīng)典生物學(xué)理論，不能反映人工智能對(duì)前沿科技成果的科普能力。這些局限導(dǎo)致上述結(jié)論的可推廣性有待進(jìn)一步證實(shí)。

未來研究可進(jìn)一步考察生成式人工智能在前沿科技或其他學(xué)科領(lǐng)域的科普寫作，從而更全面地理解生成式人工智能與人類科普作者的能力差異，為新時(shí)代科普人才培養(yǎng)提供有益借鑒。

參考文獻(xiàn)

[1] Markowitz DM.From Complexity to Clarity： How AI Enhances Perceptions of Scientists and the Public’s Understanding of Science[J]. PNAS Nexus， 2024，3（9）： 387.

[2] Alvarez A，Caliskan A， Crockett MJ，et al. Science Communication with Generative AI[J].Nature Human Behaviour， 2024，8（4）： 625-627.

[3] SchaferM S.TheNotorious GPT：Science Communication in the Age of Artificial Inteligence[J]. JCOM： Journal of Science Communication，2023，22（2）：1-15.

[4] 中國(guó)科協(xié)之聲.AI大模型之下，科普何為？[EB/OL].（2024-09-23）[2025-02-06].htp：//ww.kepu.gov.cn/scifi/2024-09/23/content_233498.html.

[5] Volk S C，Schafer MS，Lombardi D，et al. How Generative Artificial Intelligence Portrays Science： Interviewing ChatGPT from the Perspective of Diferent Audience Segments[J]. Public Understanding of Science，2024： 09636625241268910.

[6] Bui N M，Barrot JS. ChatGPT as an Automated Essay Scoring Tool inthe Writing Classrooms：How it Compares with Human Scoring[J]. Education and Information Technologies，2O24：1-18.

[7] Lin S，Crosthwaite P.The Grass is not always Greener： Teacher VS. GPT-Assisted Written Corrective Feedback[J]. System，2024，127：103529.

[8] Huang Y，Wu R，He J，et al. Evaluating ChatGPT-4.O's Data Analytic Proficiency in Epidemiological Studies：A Comparative Analysis with SAS， SPSS，and R[J]. Journal of Global Health，2O24，14： 04070.

[9] Revell T，Yeadon W， Cahilly-Bretzin G，et al. ChatGPT versus Human Esyists：An Exploration of the Impact of Artificial Intelligence forAuthorshipandAcademic IntegrityintheHumanities[J]. International JournalforEducational Integrity，2024，20：18.

[10]Dergaa I，Saad HB，Glenn JM，et al.A Thorough Examination of ChatGPT-3.5 Potential Applications in Medical Writing： A Preliminary Study[J]. Medicine，2024，103（40）：e39757.

[11] KongX LiuC. Comparative Genre Analysis of AI-Generated and Scholar-Written Abstracts for English Review Articlesir Internationa Journals[J]. Journal of English for Academic Purposes，2O24，71：101432.

[12]LiJ，HuangJ， et al. Evaluating the Role of ChatGPT in Enhancing EFL Writing Assessments in Classroom Settings： Preliminary Investigation[J]. Humanities and Social Sciences Communications，2O24，11（1）： 1-9.

[13]Lozic E，Stular B.Fluent but not Factual： A Comparative Analysis of ChatGPT and Other AI Chatbots’Proficiency and OriginalityinScientificWriting imanities[ Future Internet，2023，15（10）：336.

[14]KimJ，YuS，Detrick ploring Students Perspectives on Generative AI-Assisted Academic Writing[J]. Educatio 1265-1300

[15] 和鴻鵬成式發(fā)的倫理問題及其應(yīng)對(duì)[J].倫理學(xué)研究，2025（02）：115-122.

[16] 斯科特·蒙哥馬利芝加哥科學(xué)傳播指南[M].楊文源，趙博，譯.北京：科學(xué)出版社，2021：315.

[17] 李國(guó)昌，王鳳林，龍昭月.科普工作新需求下作者隊(duì)伍建設(shè)的對(duì)策[J].出版科學(xué)，2020，28（1）：48-52.

[18] 周麗，王德福，姜華.大學(xué)出版社的作者培訓(xùn)模式和實(shí)現(xiàn)途徑——以科普出版物的作者培訓(xùn)為鑒[J].科技與出版， 2012（2）： 35-37.

[19] 陳小平.大模型關(guān)聯(lián)度預(yù)測(cè)的形式化和語義解釋研究[J].智能系統(tǒng)學(xué)報(bào)，2023，18（4）：894-900.

[20] 陳小平.大模型：人工智能思想及其社會(huì)實(shí)驗(yàn)[J].文化縱橫，2023（3）：70-77.

[21] Zhang X，Zhang P，Shen Y，et al. A Systematic Literature Review of Empirical Research on Applying Generative Artificial Intelligence in Education[J]. Frontiers of Digital Education，2024，1（3）： 223-245.

[22]殷杰.生成式人工智能的主體性問題[J].中國(guó)社會(huì)科學(xué)，2024（8）：124-145，207.

[23]鄭念.科普的社會(huì)責(zé)任及實(shí)現(xiàn)路徑[J].科學(xué)與社會(huì)，2011，1（4）：79-87.

[24] Yuan X，Shao C， Zhang Z，et al. Comparing the Performance of ChatGPT and ERNIE Bot in Answering Questions Regarding Liver Cancer Interventional Radiology in Chinese and English Contexts： A Comparative Study[J]. Digital Health，2025，11：20552076251315511.

[25]Wei X.The UseofLarge Language ModelsforTranslating Buddhist Texts from Clasical Chinese to Modern English：An Analysis and Evaluation with ChatGPT 4，ERNIE Bot4，and Gemini Advanced[J]. Religions，2024，15（12）：1559.

[26]OnderI，McCabe S. How AI Hallcinations ThreatenResearch Integrityin Tourism[J].Annals of Tourism Research， 2025，111：103900.

[27]Francescheli G，Musolesi M. On the Creativity of Large Language Models[J]. AI amp; SOCIETY，2O24：1-11. （編輯顏燕和樹美）