“AI考生”闖關(guān)高考，誰(shuí)是最會(huì)做題大模型？

2024-07-21 00:00:00趙廣立

科學(xué)大觀園 2024年14期

作為國(guó)內(nèi)最權(quán)威的考試之一，高考覆蓋各類學(xué)科及題型，同時(shí)在開(kāi)考前這些題屬于“絕密”，非常適合用來(lái)作為考查大模型智能水平的評(píng)測(cè)工具，堪稱大模型綜合能力的“試金石”。

2024年全國(guó)高考的“硝煙”剛剛散去，“大模型考生”就被抓回來(lái)重新“做題”了。

市面上涌現(xiàn)出的大模型產(chǎn)品讓人眼花繚亂，圍繞“大模型技術(shù)哪家強(qiáng)”的討論不絕于耳，各色名目的大模型評(píng)測(cè)應(yīng)運(yùn)而生。作為國(guó)內(nèi)最權(quán)威的考試之一，高考覆蓋各類學(xué)科及題型，同時(shí)在開(kāi)考前這些題屬于“絕密”，非常適合用來(lái)作為考查大模型智能水平的評(píng)測(cè)工具，堪稱大模型綜合能力的“試金石”。

連日來(lái)，一些專業(yè)機(jī)構(gòu)紛紛下場(chǎng)，使用市面上常見(jiàn)的大模型產(chǎn)品如通義千問(wèn)、字節(jié)豆包、訊飛星火、文心一言、騰訊元寶、月之暗面Kimi等作為“考生”，圍繞“大模型高考測(cè)試”得出了一系列結(jié)果，為人們更好地了解大模型產(chǎn)品的性能和特點(diǎn)提供了參考樣本。

AI高考數(shù)學(xué)全不及格？換個(gè)打開(kāi)方式試試

近期，一則“AI高考測(cè)試出分，數(shù)學(xué)全不及格”的消息登上“熱搜”。

消息出自上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系OpenCompass對(duì)7個(gè)開(kāi)源大模型進(jìn)行的高考語(yǔ)、數(shù)、外全卷能力測(cè)試。據(jù)OpenCompass于6月19日發(fā)布的評(píng)測(cè)結(jié)果，大模型的語(yǔ)文、英語(yǔ)考試水平還不錯(cuò)，但數(shù)學(xué)都不及格，最高分只有75分（滿分150分）。

參加OpenCompass此次高考測(cè)試的大模型，分別是來(lái)自阿里巴巴、零一萬(wàn)物、智譜AI、上海人工智能實(shí)驗(yàn)室、法國(guó)Mistral的開(kāi)源模型。OpenCompass稱，因無(wú)法確定閉源模型的更新時(shí)間，此次評(píng)測(cè)沒(méi)有納入商用閉源模型，僅引入GPT-4o作為評(píng)測(cè)參考。

對(duì)于數(shù)學(xué)測(cè)試全部不及格，OpenCompass表示，“大模型在數(shù)學(xué)方面還有很大的提升空間”。

不過(guò)，復(fù)旦大學(xué)自然語(yǔ)言處理（NLP）實(shí)驗(yàn)室LLMEVAL團(tuán)隊(duì)主持的高考數(shù)學(xué)評(píng)測(cè)顯示，大模型數(shù)學(xué)成績(jī)不佳的結(jié)果，可能緣于“打開(kāi)方式不對(duì)”。

對(duì)于考生而言，作文考試主要考查學(xué)生運(yùn)用語(yǔ)言成文的能力，考查的是識(shí)字情況、用詞組句的能力，以及表達(dá)事實(shí)、思想或觀點(diǎn)的能力。事實(shí)上，作文是最能考驗(yàn)大模型語(yǔ)言理解能力和文本生成能力的測(cè)評(píng)工具，這兩項(xiàng)能力正是時(shí)下大模型最為倚重的。

首先，LLMEVAL團(tuán)隊(duì)選取了2024年高考新I卷、新II卷數(shù)學(xué)試卷的客觀題（單選、多選和填空題，共73分）來(lái)評(píng)測(cè)，得出了不同的結(jié)論。使用客觀題測(cè)試大模型的好處是，對(duì)就是對(duì)、錯(cuò)就是錯(cuò)，結(jié)果一目了然。同時(shí)主觀題由于解題方法、思路存在差異，具有一定的主觀性，如果結(jié)果不正確，就很難客觀地評(píng)出步驟分。

其次，此次大模型“考生”增加到12個(gè)：阿里巴巴Qwen2-72b、訊飛星火、GPT-4o、字節(jié)豆包、智譜GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、騰訊元寶、月之暗面Kimi、DeepSeek-V2-Chat。

另外，他們?cè)谠u(píng)測(cè)中發(fā)現(xiàn)，數(shù)學(xué)問(wèn)題不同格式的提示輸入（Prompt）對(duì)大模型性能影響很大。在最初的評(píng)測(cè)中，LLMEVAL團(tuán)隊(duì)對(duì)數(shù)學(xué)題目中的公式部分采用了通過(guò)光學(xué)字符識(shí)別（OCR）后輸出的格式（轉(zhuǎn)義符格式），最新一次評(píng)測(cè)則使用了Latex格式進(jìn)行了橫向?qū)Ρ仍u(píng)測(cè)。

結(jié)果顯示，大多數(shù)模型的兩次測(cè)試結(jié)果均出現(xiàn)較大差異，不過(guò)使用Latex格式后，大模型整體表現(xiàn)更佳：2024年全國(guó)高考新I卷、新II卷數(shù)學(xué)測(cè)試中，得分率超過(guò)50%的大模型產(chǎn)品數(shù)量由此前的5個(gè)和6個(gè)升至7個(gè)和9個(gè)。考慮到Latex格式更符合人類實(shí)際使用大模型時(shí)所采用的格式，LLMEVAL團(tuán)隊(duì)建議后續(xù)測(cè)試主要基于此格式。

具體而言，LLMEVAL團(tuán)隊(duì)使用Latex格式Prompt的測(cè)試結(jié)果顯示，在2024年全國(guó)高考新I卷數(shù)學(xué)測(cè)試中，阿里巴巴Qwen2-72b、訊飛星火的得分率均超過(guò)及格線（60%），分別為78.08%和71.23%；在2024年全國(guó)高考新II卷數(shù)學(xué)測(cè)試中，訊飛星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格線，分別為65.07%、63.70%、62.33%。

由此可見(jiàn)，大模型在數(shù)學(xué)方面并非“熱搜”所說(shuō)那樣完全不及格，訊飛星火、阿里巴巴Qwen2-72b等國(guó)產(chǎn)大模型在高考數(shù)學(xué)客觀題中具有較高的準(zhǔn)確率，令人眼前一亮。當(dāng)然，LLMEVAL團(tuán)隊(duì)在評(píng)測(cè)后也指出，大模型在數(shù)學(xué)推理任務(wù)中的魯棒性與準(zhǔn)確性仍有很大的提升空間。

語(yǔ)文、英語(yǔ)高考測(cè)試，作文見(jiàn)真章

“AI考生”之于語(yǔ)文、英語(yǔ)高考，最引人注目的當(dāng)數(shù)大模型的作文水平了。

對(duì)于考生而言，作文考試主要考查學(xué)生運(yùn)用語(yǔ)言成文的能力，考查的是識(shí)字情況、用詞組句的能力，以及表達(dá)事實(shí)、思想或觀點(diǎn)的能力。事實(shí)上，作文是最能考驗(yàn)大模型語(yǔ)言理解能力和文本生成能力的測(cè)評(píng)工具，這兩項(xiàng)能力正是時(shí)下大模型最為倚重的。

2024年全國(guó)高考語(yǔ)文科目考試一結(jié)束，就有不少場(chǎng)外師生使用市面上的大模型產(chǎn)品“寫作文”。圍繞新課標(biāo)I卷高考作文題“答案與問(wèn)題”、新課標(biāo)II卷“抵達(dá)未知之境”、北京高考卷的作文題“歷久彌新”和“打開(kāi)”等題目，文心一言、訊飛星火等多家大模型產(chǎn)品紛紛化身“寫手”，并交出“作品”。

一些大模型作文令人眼前一亮。以全國(guó)新高考I卷的作文題為例，在這個(gè)具有思辨性的題目引導(dǎo)下，大模型提交的部分作文題不僅切題，更顯巧妙，如《問(wèn)，豈可少？》《疑問(wèn)如春芽，答案似剪刀》《于無(wú)疑處生疑，方是進(jìn)矣》《問(wèn)題不止，智慧無(wú)窮》《智涌未來(lái)，問(wèn)海無(wú)涯》等。

近日，全國(guó)中小學(xué)生作文競(jìng)賽評(píng)委、中學(xué)語(yǔ)文教研專家呂政嘉和河南省基礎(chǔ)教育教學(xué)專家?guī)斐蓡T李來(lái)明共同對(duì)市面上7款大模型產(chǎn)品的上述4張?jiān)嚲淼淖魑倪M(jìn)行了評(píng)測(cè)打分。從打分情況來(lái)看，訊飛星火、文心一言4.0、騰訊元寶在4張?jiān)嚲淼淖魑念}上均有不俗表現(xiàn)，最高平均得分接近50分。

能拿50分的AI作文長(zhǎng)啥樣？訊飛星火作出的《問(wèn)，豈可少？》得到均分51.5的評(píng)分。李來(lái)明對(duì)該文的評(píng)語(yǔ)為，“全文結(jié)構(gòu)完整，思路清晰，論證層層遞進(jìn)，結(jié)構(gòu)框架清晰明了。全文多處扣題生發(fā)議論，鞭辟入里，分析得當(dāng)。但在一些地方，可以適當(dāng)增加一些論證手法，使文章更加生動(dòng)有趣”。

在高考英文作文題目“幫李華寫郵件”中，中國(guó)外語(yǔ)教育研究中心特約研究員、知名教研策劃專家周國(guó)榮和廣東國(guó)家級(jí)示范校教師楊菁菁也對(duì)上述7款大模型產(chǎn)品的英語(yǔ)作文進(jìn)行了評(píng)測(cè)和打分。他們將2024年高考真題作文要求輸入7款大模型產(chǎn)品，生成作文后，由教研雙評(píng)給出評(píng)分并作最高分點(diǎn)評(píng)。

全國(guó)高考卷的英語(yǔ)應(yīng)用文寫作題中，7款大模型產(chǎn)品均能完成試題規(guī)定的寫作任務(wù)，結(jié)構(gòu)上也能做到邏輯清晰、結(jié)構(gòu)合理，其中不乏能夠使用復(fù)雜句式，在語(yǔ)言表達(dá)上有多處亮點(diǎn)的作品。但這些文章也有一些明顯的扣分項(xiàng)，如使用超綱詞匯、超過(guò)字?jǐn)?shù)上限等。打分方面，7款產(chǎn)品均有超過(guò)12分（滿分15分）的表現(xiàn)，且得分相對(duì)穩(wěn)定。

在難度更高的全國(guó)高考英語(yǔ)卷“讀后續(xù)寫”題目和北京卷英語(yǔ)作文題中，7款大模型產(chǎn)品的表現(xiàn)有了差別。周國(guó)榮和楊菁菁的打分和點(diǎn)評(píng)顯示，訊飛星火、騰訊元寶在“讀后續(xù)寫”題目中高分領(lǐng)先；在北京卷英語(yǔ)作文題中，訊飛星火、月之暗面Kimi、文心一言4.0排前三位。綜合來(lái)看，國(guó)產(chǎn)大模型在中國(guó)高考的表現(xiàn)不落下風(fēng)，有著教育行業(yè)背景的訊飛星火大模型在一眾大模型中表現(xiàn)搶眼，堪稱“更會(huì)做題的大模型”。

評(píng)測(cè)，還有很長(zhǎng)的路要走

評(píng)測(cè)作為對(duì)機(jī)器理解、處理、應(yīng)用自然語(yǔ)言能力的一種評(píng)估和量化手段，是大模型領(lǐng)域技術(shù)水平和研究進(jìn)展的直觀體現(xiàn)，是相關(guān)研究的工具和重要驅(qū)動(dòng)力。

未來(lái)大模型評(píng)測(cè)應(yīng)當(dāng)以具有綜合考查能力的類人機(jī)器語(yǔ)言能力評(píng)測(cè)為目標(biāo)，在參考信度、難度、效度三大原則的基礎(chǔ)上，發(fā)展更系統(tǒng)的評(píng)測(cè)大綱、更具挑戰(zhàn)的評(píng)測(cè)任務(wù)、更科學(xué)的評(píng)測(cè)方法，采取更多樣、更魯棒的評(píng)測(cè)手段，科學(xué)高效地為大模型提供客觀、公平、類人的評(píng)測(cè)結(jié)果。

北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所教授穗志方日前在“大模型+計(jì)算語(yǔ)言”專題論壇上的報(bào)告中表示，大模型在人類標(biāo)準(zhǔn)化考試中如中國(guó)高考、公務(wù)員考試、美國(guó)SAT考試等的表現(xiàn)，能夠?yàn)槠湓谡鎸?shí)世界中的能力提供評(píng)估參考，但仍存在一些問(wèn)題。如一些模型在諸如SAT數(shù)學(xué)測(cè)試等任務(wù)中表現(xiàn)優(yōu)異，但在復(fù)雜推理或特定知識(shí)領(lǐng)域中的表現(xiàn)卻又不夠出色。截然相反的表現(xiàn)，讓人無(wú)從評(píng)判。

“在大模型內(nèi)在機(jī)理沒(méi)有探究清楚的情況下，我們目前的評(píng)測(cè)路徑只能依靠從外部表現(xiàn)來(lái)推測(cè)內(nèi)在能力。”穗志方說(shuō)，現(xiàn)有評(píng)測(cè)仍存在規(guī)范性、系統(tǒng)性及科學(xué)性方面的問(wèn)題，評(píng)測(cè)的深度和廣度方面有待改進(jìn)。

她提出，未來(lái)大模型評(píng)測(cè)應(yīng)當(dāng)以具有綜合考查能力的類人機(jī)器語(yǔ)言能力評(píng)測(cè)為目標(biāo)，在參考信度、難度、效度三大原則的基礎(chǔ)上，發(fā)展更系統(tǒng)的評(píng)測(cè)大綱、更具挑戰(zhàn)的評(píng)測(cè)任務(wù)、更科學(xué)的評(píng)測(cè)方法，采取更多樣、更魯棒的評(píng)測(cè)手段，科學(xué)高效地為大模型提供客觀、公平、類人的評(píng)測(cè)結(jié)果。如此，方能引領(lǐng)和推動(dòng)人工智能領(lǐng)域各類模型、方法的提出和創(chuàng)新。

◎ 來(lái)源|中國(guó)科學(xué)報(bào)

科學(xué)大觀園2024年14期

科學(xué)大觀園的其它文章: 與孩子一起行走世界; 胸口碎大石的奧秘; 嫦娥六號(hào)任務(wù)總設(shè)計(jì)師胡浩：航天人已投入新的戰(zhàn)斗; 揭開(kāi)千年文物的“保護(hù)密碼”; 復(fù)活節(jié)島未曾崩潰; 海洋溫度達(dá)歷史新高，我們正在走向未知