999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大規(guī)模多任務(wù)中文理解能力測試

2024-07-09 12:32:51曾輝
電腦知識與技術(shù) 2024年15期

曾輝

關(guān)鍵詞:中文大模型;多任務(wù)評測;zero-shot;few-shot;垂直領(lǐng)域任務(wù)

0引言

隨著ChatGPT[1]等大模型的驚艷亮相,ChatGLM[2]、MOSS[3]、文心一言、通義千問、商量等具備中文能力的大模型也相繼發(fā)布。雖然針對英文大語言模型已有較為完善的評測方式(如MMLU[4]),但目前仍缺乏針對中文大語言模型的評測方法。因此,推出一種科學(xué)的中文大模型評測方法并提供高質(zhì)量的中文評測數(shù)據(jù)集已迫在眉睫。

以Transformer[5]為架構(gòu)的中文預(yù)訓(xùn)練大模型采用大量文本語料(包括中文百科數(shù)據(jù)、海量中文電子書籍和眾多中文網(wǎng)站)進行預(yù)訓(xùn)練。然而,這種訓(xùn)練方式的模型在理解和解決諸多領(lǐng)域問題的能力尚未經(jīng)過科學(xué)、全面的評測。

由于近期發(fā)布的大語言模型大多經(jīng)過了指令微調(diào)訓(xùn)練,本測試提供了zero-shot和few-shot兩種測試方式。在few-shot模式中,模型會得到5個示例。測試題目為單項選擇和多項選擇題,每道選擇題可能有一個或多個正確答案,更類似于人類考試,難度也更大。

本次測試涵蓋醫(yī)療、法律、心理學(xué)和教育四個大類。其中,醫(yī)療類題目來自大學(xué)醫(yī)學(xué)專業(yè)考試,法律類題目來自國家統(tǒng)一法律職業(yè)資格考試,心理學(xué)題目源于心理咨詢師資格考試和心理學(xué)專業(yè)研究生入學(xué)綜合基礎(chǔ)考試,教育領(lǐng)域的題目取自全國普通高等學(xué)校統(tǒng)一招生考試。測試題目覆蓋范圍廣,專業(yè)知識點難度高,非常適合評估大模型的綜合能力。

值得一提的是,高達160億參數(shù)的MOSS模型在四大領(lǐng)域的zero-shot準(zhǔn)確率均低于26%,是評測中表現(xiàn)倒數(shù)第二的模型。而參數(shù)量至少1750億的GPT-3.5-turbo模型取得了41.3%的平均zero-shot準(zhǔn)確率(見表1)。

評測結(jié)果顯示,雖然大模型最近進展迅速,但最先進的模型仍未達到某個領(lǐng)域的專家水平。所有模型在法律領(lǐng)域任務(wù)上的準(zhǔn)確率都接近隨機準(zhǔn)確率。相關(guān)測試代碼見github.com/Felixgithub2017/MMCU。

1多任務(wù)測試

本研究開發(fā)了一個涉及多個任務(wù)的廣泛測試,包括各個領(lǐng)域知識的單選和多選題,涵蓋醫(yī)學(xué)、法學(xué)、心理學(xué)和教育學(xué)等領(lǐng)域。其中,醫(yī)療分為15個子任務(wù),教育分為8個子任務(wù)。數(shù)據(jù)集中的問題由專業(yè)人員從在線免費資源中手動收集,涵蓋醫(yī)學(xué)院考試、全國法律資格考試、心理咨詢師資格考試、心理學(xué)研究生入學(xué)基礎(chǔ)綜合考試和全國普通高校招生考試等內(nèi)容。本研究共收集了11900個問題,設(shè)計為few-shot調(diào)試集和測驗集。few-shot調(diào)試集每個主題有5個問題,共55個問題;測驗集共有11845個問題。

1.1醫(yī)療

醫(yī)學(xué)領(lǐng)域涵蓋以下學(xué)科:基礎(chǔ)醫(yī)學(xué)、藥學(xué)、護理、病理、臨床診斷、感染病、手術(shù)、人體結(jié)構(gòu)、放射學(xué)、寄生蟲病、免疫、小兒科、皮膚病與性病、胚胎學(xué)、藥物學(xué)。醫(yī)療領(lǐng)域共有2819個問題。

以下是一個醫(yī)療問題示例:

針對初次出現(xiàn)的急性腰椎間盤膨出,首選的治療方式為:

A.嚴格的床上休息,三周之后佩戴腰帶進行下床活動。

B.保持臥床,但可進行站立和坐起動作。

C.在硬膜外進行皮質(zhì)類固醇注射。

D.對髓核進行化學(xué)溶解處理。

1.2法律

法律類問題包括以下領(lǐng)域:中國特色社會主義法律體系、法學(xué)基礎(chǔ)、憲法原理、中國法制史、國際法概論、法律職業(yè)倫理與司法體系、刑法基礎(chǔ)、刑事司法程序、行政法及其訴訟程序、民事法律、知識產(chǎn)權(quán)保護、商業(yè)法規(guī)、經(jīng)濟法理論、環(huán)境與資源法、勞動法與社會保障法規(guī)、跨國私法、國際商法、民事訴訟法律、法律職業(yè)道德與司法結(jié)構(gòu)。法律領(lǐng)域共有3,695個問題。

以下是一個法律問題示例:

依據(jù)法律規(guī)定,哪種情形應(yīng)受民法調(diào)整?

A.小明要求稅務(wù)部門退還多繳的所得稅。

B.小紅丟了手機,貼出尋物啟事:“歸還者將獲得現(xiàn)金獎勵。”

C.小李向女朋友保證:“若我在北京找到工作,便帶你去美國旅游。”

D.小王作為志愿者,定期在孤兒院提供幫助。

1.3心理學(xué)

心理學(xué)問題覆蓋以下領(lǐng)域:心理學(xué)基礎(chǔ)、個性及群體心理學(xué)、成長心理學(xué)、心理健康與異常、心理咨詢基礎(chǔ)、咨詢理念、評估心理學(xué)、咨詢技巧、咨詢實踐方法。心理學(xué)領(lǐng)域共有2,001個問題。

以下是一個心理學(xué)問題示例:

將與己無關(guān)的事物視為相關(guān),這種臨床癥狀最可能見于:

A.被害型幻想

B.癡迷型幻覺

C.連接型錯覺

D.夸張型妄想

1.4教育

這部分包括語文、數(shù)學(xué)、物理、化學(xué)、政治、歷史、地理和生物,題目來自中國普通高等學(xué)校招生全國統(tǒng)一考試(中國高考)。教育領(lǐng)域共有3331個問題。

以下是一個數(shù)學(xué)問題示例:

如果一個圓錐的側(cè)面積是底面積的三倍,那么這個圓錐的側(cè)面展開成扇形時,扇形的中心角大小為()。

A.六十度

B.九十度

C.一百二十度

D.一百八十度

2實驗

2.1實驗方法

為了衡量多任務(wù)測試的性能,本研究計算了所有模型在所有任務(wù)上的zero-shot和few-shot準(zhǔn)確率。評測了Bloom系列中的bloomz_560m、bloomz_1b1、bloomz_3b和bloomz_7b1_mt;同樣評測了清華大學(xué)知識工程與數(shù)據(jù)挖掘研究組開發(fā)的ChatGLM6B[2]、復(fù)旦大學(xué)創(chuàng)建的MOSS16B[3]以及OpenAI的GPT-3.5-tur?bo[1]。

在zero-shot模式下,將題目直接輸入到模型以獲取答案并計算準(zhǔn)確率。以下是一個zero-shot提問示例:

請閱讀以下選擇題并給出正確選項,不要解釋原因。

在笛卡爾坐標(biāo)系中,點P(m-3,4-2m)不可能位于()

A.一象限

B.二象限

C.三象限

D.四象限

正確答案的序號是:

其中,粗體部分為問題的前綴和后綴,前綴告訴模型應(yīng)該怎樣給出答案,后綴引導(dǎo)模型輸出答案序號。而在few-shot模式下,先給模型提供5個問題和答案的例子,再附上問題讓模型給出答案。

2.2評測結(jié)果

1)模型的大小與其準(zhǔn)確性。表1對不同模型的zero-shot準(zhǔn)確率進行了比較。本研究發(fā)現(xiàn)GPT-3.5-turbo在四個領(lǐng)域都遙遙領(lǐng)先。還發(fā)現(xiàn),MOSS16B模型雖然有160億參數(shù),卻具有接近隨機的準(zhǔn)確率(大約25%)。相比之下,參數(shù)量更低的Bloom家族的bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt以及ChatGLM6B的zero-shot準(zhǔn)確率都要更高。

盡管bloomz_560m模型的參數(shù)量最小,它的表現(xiàn)卻超越了參數(shù)量更大的bloomz_1b1模型和MOSS16B模型。這些結(jié)果表明,雖然模型參數(shù)量是實現(xiàn)強大性能的關(guān)鍵因素,但訓(xùn)練的方式和數(shù)據(jù)也非常重要。

turbo在大多數(shù)子任務(wù)上都取得了相對最高準(zhǔn)確率,緊隨其后的是ChatGLM6B,但這兩個模型的性能都不均衡。表3顯示了所有模型在教育子任務(wù)上的準(zhǔn)確性。它表明這兩個模型在所有任務(wù)上的表現(xiàn)都低于60%,GPT-3.5-turbo的準(zhǔn)確率從生物的59.9%到語文的31.0%不等,而ChatGLM6B的準(zhǔn)確率從歷史的44.8%到物理的25.6%不等。

總的來說,所有模型在物理任務(wù)上的表現(xiàn)均不佳。表2顯示,計算量大的數(shù)學(xué)、物理科目的準(zhǔn)確率往往較低。對于GPT-3.5-turbo而言,準(zhǔn)確率最低的任務(wù)依次是語文、物理、數(shù)學(xué)科目。部分原因可能是GPT-3.5-turbo的中文訓(xùn)練數(shù)據(jù)不足,導(dǎo)致中文語文科目表現(xiàn)不佳,并且與解決程序性問題相比,模型更容易解答陳述性問題。

測試還表明,所有模型在few-shot模式下都有不同程度的性能下降(見表3)。例如,與zero-shot準(zhǔn)確率相比,GPT-3.5-turbo在語文、化學(xué)、政治和地理子任務(wù)上的few-shot準(zhǔn)確率都有下降。而這種趨勢在ChatGLM6B模型上體現(xiàn)得更加明顯,ChatGLM6B在所有教育子任務(wù)上的few-shot準(zhǔn)確率都低于zero-shot準(zhǔn)確率。我們認為這可能是由于GPT-3.5-turbo和Chat?GLM6B已經(jīng)經(jīng)過了較為充分的指令微調(diào)和與人類偏好的對齊,因此few-shot模式下的5個示例反而給模型造成了困擾。

3討論

3.1評測結(jié)果分析

與針對英文語言的MMLU相同,本研究的測試方式不需要大型訓(xùn)練集。本研究假設(shè)模型已經(jīng)通過閱讀互聯(lián)網(wǎng)上大量不同的文本獲取了必要的知識,這個過程通常稱為預(yù)訓(xùn)練。

人類主要通過閱讀書籍、聽老師講課和做練習(xí)題來學(xué)習(xí)新知識。因此,本研究提供了few-shot測試模式,并為每個任務(wù)提供調(diào)試集和測驗集。調(diào)試集用于few-shot提示,測驗集用于計算最終準(zhǔn)確率。

以表4展示的醫(yī)療領(lǐng)域為例,所有模型在諸多醫(yī)療子任務(wù)上的準(zhǔn)確率都低于60%,表現(xiàn)僅次于GPT-3.5-turbo的ChatGLM6B在諸多醫(yī)療子任務(wù)上的zeroshot準(zhǔn)確率甚至沒有超過50%。因此,未來的研究應(yīng)該特別致力于提高模型在醫(yī)療、法律等垂直領(lǐng)域任務(wù)的準(zhǔn)確性。此外,所有模型在全部任務(wù)上的表現(xiàn)都未達到優(yōu)秀水平(90%)。

目前尚不清楚簡單地增大參數(shù)量是否能在這些任務(wù)上取得提升,因為數(shù)據(jù)也可能是一個重要的瓶頸。這些大模型訓(xùn)練通常采用海量互聯(lián)網(wǎng)公開數(shù)據(jù),數(shù)據(jù)的高效篩選以及垂直領(lǐng)域高質(zhì)量數(shù)據(jù)的標(biāo)注也非常重要。

通過觀察表1-表4中的數(shù)據(jù),可以發(fā)現(xiàn)一些有趣的趨勢。首先,在四個主要領(lǐng)域中,GPT-3.5-turbo的zero-shot準(zhǔn)確率普遍高于其他模型,這表明更大的模型參數(shù)量可能有助于提高模型在這些任務(wù)上的性能。

然而,即使是性能最佳的GPT-3.5-turbo,其在法律領(lǐng)域的準(zhǔn)確率也只有0.239,遠低于理想水平,這突出了法律領(lǐng)域?qū)δP屠斫饽芰Φ奶魬?zhàn)。

此外,在教育子任務(wù)中,所有模型在物理和數(shù)學(xué)科目上的表現(xiàn)普遍較差,這可能反映出這些科目的問題對模型的推理能力提出了更高的要求。相比之下,模型在歷史和政治科目上的表現(xiàn)相對較好,可能因為這些科目更依賴于語言理解能力。

從醫(yī)療子任務(wù)的表現(xiàn)來看,大多數(shù)模型在臨床醫(yī)學(xué)和皮膚性病學(xué)上的表現(xiàn)相對較好,而在組織胚胎學(xué)和藥物分析學(xué)上表現(xiàn)較差。這可能反映了不同醫(yī)學(xué)領(lǐng)域?qū)δP椭R和推理能力的不同要求。

總的來說,雖然大規(guī)模預(yù)訓(xùn)練模型在多任務(wù)測試中取得了一定的成績,但它們在特定領(lǐng)域和子任務(wù)上的表現(xiàn)仍然存在很大的差異。這強調(diào)了未來研究的重點應(yīng)該是提高模型在垂直領(lǐng)域任務(wù)上的性能。

3.2模型改進建議

1)領(lǐng)域特定的預(yù)訓(xùn)練。針對在法律和醫(yī)療等特定領(lǐng)域表現(xiàn)不佳的問題,可以采用領(lǐng)域特定的預(yù)訓(xùn)練方法。通過使用與目標(biāo)領(lǐng)域相關(guān)的文本進行預(yù)訓(xùn)練,可以增強模型在該領(lǐng)域的理解能力。

2)多任務(wù)學(xué)習(xí)。考慮到模型在不同任務(wù)上的表現(xiàn)存在差異,可以采用多任務(wù)學(xué)習(xí)方法,同時訓(xùn)練模型在多個任務(wù)上進行優(yōu)化。這種方法可以幫助模型學(xué)習(xí)到跨任務(wù)的通用特征,提高其在多個領(lǐng)域的表現(xiàn)。

3)任務(wù)特定的微調(diào)。在zero-shot測試中,模型可能沒有充分利用任務(wù)的特定信息。可以在微調(diào)階段引入任務(wù)特定的信息,例如使用與任務(wù)相關(guān)的提示或示例,以幫助模型更好地理解任務(wù)要求。

4)知識融合。考慮到模型在某些科目上的表現(xiàn)較差,可以嘗試將外部知識融合到模型中。例如,對于數(shù)學(xué)和物理等科目,可以將數(shù)學(xué)公式和物理定律作為先驗知識融入模型中,以提高模型在這些科目上的推理能力。

5)模型架構(gòu)的改進。針對模型在特定任務(wù)上的局限性,可以探索新的模型架構(gòu)。例如,對于需要強推理能力的任務(wù),可以設(shè)計能夠進行邏輯推理和關(guān)系推斷的模型架構(gòu)。

6)數(shù)據(jù)增強。為了提高模型在特定任務(wù)上的表現(xiàn),可以采用數(shù)據(jù)增強技術(shù),生成更多樣化的訓(xùn)練樣本。這有助于模型學(xué)習(xí)到更豐富的特征表示,提高其泛化能力。

7)細粒度評估。在評估模型性能時,可以采用更細粒度的評估方法,針對不同的任務(wù)和子任務(wù)進行單獨評估。這有助于更準(zhǔn)確地識別模型在哪些方面存在不足,從而有針對性地進行改進。

通過采用這些改進方法,可以有效提高模型在多任務(wù)測試中的表現(xiàn),特別是在那些模型表現(xiàn)不佳的領(lǐng)域和任務(wù)上。

5總結(jié)

本研究提出了一種新的中文語言測試,覆蓋醫(yī)學(xué)、法律、心理學(xué)和教育四個主要領(lǐng)域及其多個子任務(wù),旨在評估預(yù)訓(xùn)練的中文大型語言模型在解決跨領(lǐng)域問題的能力。通過對不同規(guī)模模型的測試發(fā)現(xiàn),模型的參數(shù)量增加并不總是能帶來性能的提升,模型的訓(xùn)練策略和所使用的數(shù)據(jù)集的質(zhì)量對其性能有著決定性的影響。即便是在性能最佳的模型中,其在特定任務(wù)上的表現(xiàn)也未能達到理想的優(yōu)秀水平,這表明當(dāng)前的模型仍然存在明顯的局限性。

為了進一步提升模型的性能,研究者們應(yīng)該關(guān)注如何設(shè)計更有效的模型架構(gòu),以便更準(zhǔn)確地捕捉和學(xué)習(xí)文本數(shù)據(jù)中的知識。此外,開發(fā)和標(biāo)注高質(zhì)量的數(shù)據(jù)集也至關(guān)重要,這不僅能夠提供更豐富的訓(xùn)練材料,還能夠幫助模型更好地理解和處理復(fù)雜的問題。總之,未來的工作應(yīng)該著重于探索更先進的建模技術(shù)和優(yōu)化數(shù)據(jù)處理方法,以推動中文大型語言模型在多領(lǐng)域任務(wù)中的應(yīng)用和發(fā)展。

主站蜘蛛池模板: 波多野结衣AV无码久久一区| 天堂亚洲网| 欧美亚洲国产一区| 精品人妻一区二区三区蜜桃AⅤ| 欧美三级不卡在线观看视频| 天天躁夜夜躁狠狠躁图片| 2021亚洲精品不卡a| 国产视频资源在线观看| 国产拍揄自揄精品视频网站| 免费久久一级欧美特大黄| 欧美综合一区二区三区| 亚洲香蕉伊综合在人在线| 毛片视频网| 欧美三级视频在线播放| 国产精品视频a| 四虎永久在线视频| 尤物精品视频一区二区三区| 国产成+人+综合+亚洲欧美| 国产成人精品第一区二区| 九九免费观看全部免费视频| 91麻豆精品视频| 久久精品电影| 在线观看精品自拍视频| 国产亚洲成AⅤ人片在线观看| 在线免费a视频| 精品久久人人爽人人玩人人妻| 天天综合网在线| 国产真实乱子伦视频播放| 看av免费毛片手机播放| 国产福利一区在线| 日韩无码黄色网站| 亚洲国产一区在线观看| 中文字幕第1页在线播| 四虎亚洲精品| 亚洲一级毛片免费看| 亚洲AⅤ永久无码精品毛片| 国产美女精品一区二区| 国产精品视频系列专区| 婷婷五月在线视频| 国产精品自拍合集| 亚洲国产精品无码久久一线| 成年看免费观看视频拍拍| 国产女同自拍视频| 思思热精品在线8| 99热这里只有免费国产精品| 国产综合精品日本亚洲777| 日本成人精品视频| 99热免费在线| 日本草草视频在线观看| 亚洲成a人在线观看| 2022精品国偷自产免费观看| 女人18毛片一级毛片在线 | 国产欧美视频一区二区三区| 欧美激情二区三区| 精品成人一区二区三区电影| 中文精品久久久久国产网址| 久久久久亚洲Av片无码观看| 久久美女精品国产精品亚洲| 污网站在线观看视频| 久久久久无码精品| 一边摸一边做爽的视频17国产| 91尤物国产尤物福利在线| AV不卡在线永久免费观看| 欧美日韩专区| 成人国内精品久久久久影院| 在线无码九区| 九九九久久国产精品| 欧美日韩亚洲综合在线观看| 免费一级毛片在线观看| 无码中文AⅤ在线观看| 国产精品久久自在自2021| 亚洲免费福利视频| 国内精品一区二区在线观看| 国产成人综合日韩精品无码不卡 | 欧洲精品视频在线观看| 99精品国产高清一区二区| 5555国产在线观看| 日本午夜精品一本在线观看| 国产成人精品免费av| 欧亚日韩Av| 国产三级视频网站| www精品久久|