999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古漢語大語言模型的構建及應用研究

2024-01-01 00:00:00李紳胡韌奮王立軍
語言戰略研究 2024年5期
關鍵詞:人工智能

關鍵詞 大語言模型;古漢語信息處理;人工智能

中圖分類號H002 文獻標識碼A 文章編號2096-1014(2024)05-0022-12

DOI 10.19689/j.cnki.cn10-1361/h.20240502

一、引言

近年來,以GPT?4(OpenAI 2023)、LLAMA2(Touvron et al. 2023)為代表的通用大語言模型受到學界和公眾的廣泛關注(Zhao et al. 2023)。然而,通用大語言模型主要面向大眾用戶設計和研發,其訓練語料多來自互聯網公開數據,其中包含的專業知識相對有限。例如,互聯網中的中文數據,主要來自新聞網站、論壇等,這些數據幾乎均為現代漢語表述,這無疑限制了模型對古漢語的理解和處理能力。

古漢語作為中華文化的傳承載體,其文本蘊含著豐富的語言文化知識。由于文言表達綿延千年,其文字、詞匯、語法、語音系統不斷發展,每個時期都產生了復雜的語言現象,給后人的閱讀理解帶來了諸多障礙。除了語言層面的問題,對古漢語文本的理解還需依賴文本之外的歷史文化常識——古人對人、事的指稱常有多種變體,且表述追求含蓄蘊藉,常化用典故表達情感或思想。語言與文化的雙重挑戰,不僅給現代人學習和閱讀文言文帶來了困難,也是當前我國古籍整理工作和古漢語信息處理研究中的重難點所在。

為了更好地輔助古籍整理、文言文教學和數字人文研究工作,我們構建了一個專門適用于古漢語信息處理的大語言模型“AI 太炎”。本文將從模型設計、數據處理、基座訓練及微調等方面介紹該模型的構建方法,并結合案例探討其在古籍整理、辭書編纂、語言研究等領域的應用。

二、相關研究進展

(一)古漢語信息處理技術研究

近年來,面向古籍整理出版、文言文教學及數字人文研究的現實需求,古漢語信息處理技術研究日趨深入,涉及句讀標點、分詞與詞性標注、命名實體識別與關系抽取、詞義識別、文白翻譯等眾多任務。

由于古籍文本一般不使用標點符號,因此古籍整理過程中的一項重要工作是句讀標點。據胡韌奮等(2021)統計,現有的古籍數據中,大部分尚未實現句讀,如殆知閣古代文獻藏書2.0版語料庫規模約33 億字,其中僅25% 左右的數據包含標點,可見古籍整理是一項浩大的工程,自動句讀技術有強烈的現實需求。為了解決這一問題,研究者采用傳統機器學習模型(張開旭,等2009)、神經網絡模型(王博立,等2017)、預訓練語言模型(俞敬松,等2019 ;胡韌奮,等2021 ;袁義國,等2022)等方法取得了較好效果。

如需利用計算機技術對大規模古籍文獻進行詞匯粒度研究,往往涉及古漢語分詞、詞性標注、命名實體識別、詞義消歧等基礎性的中文信息處理任務。古漢語分詞經歷了基于規則匹配的方法(邱冰,皇甫娟2008)、基于統計的方法(梁社會,陳小荷2013)以及基于機器學習與深度學習模型的方法(黃水清,等2015 ;程寧,等2020 ;Tang amp; Su 2022)3 個發展階段。詞性標注和命名實體識別與其研究范式相近。為了實現詞義層面分析,舒蕾等(2022)構建了百萬字規模的古漢語詞義標注語料庫,并利用預訓練古漢語語言模型構建了詞義消歧算法。

文白翻譯(文言文?白話文翻譯)是結合了古漢語諸多理解難點的綜合性任務,同時具有輔助現代人閱讀和學習文言文的突出現實需求。Liu et al.(2019)構建了基于Transformer 模型的文白翻譯系統。Guo et al.(2023)進一步提出利用雙音節詞對齊和雙掩碼Transformer 的文白翻譯模型,實現了超過Liu et al.(2019)模型的效果。

綜上可以看出,神經網絡模型及預訓練語言模型方法在古漢語信息處理領域得到了較為廣泛的應用。然而,這些方法對訓練數據規模和質量的要求較高。在古漢語信息處理場景中,很多任務具有“低資源”“富知識”的特點,這為相應的語言資源建設和模型研究帶來了很大挑戰。已有研究發現,采用數據增廣、聯合學習等機制能夠較好地緩解上述問題(李紳,等2023),而大語言模型的多任務、小樣本學習等能力十分突出,因此,構建專門的古漢語大語言模型具有提升古漢語信息處理綜合能力的潛力。

(二)專門領域大語言模型構建研究

為增強大語言模型的領域知識理解能力,檢索增強生成(Retrieval-augmented Generation,RAG)和領域模型構建等方法應運而生。其中,檢索增強生成無須調整模型參數,主要采用向量檢索匹配的方法從外部知識庫或數據庫中獲取與當前問題有關的領域知識,然后將當前問題與檢索得到的結果組合后輸入大語言模型,令其在參考外部知識的前提下回答問題(Gao et al. 2023)。與檢索增強生成相比,構建專門領域的大語言模型能夠更為系統地學習領域知識,從而為垂直領域應用提供服務,例如司法領域大語言模型ChatLaw(Cui et al. 2023)、醫療領域大語言模型medGPTa、科技文獻領域大語言模型“墨子”等。在古漢語領域,也有“荀子”、“九思”等大語言模型,旨在實現古籍文獻的分析處理。然而,上述專業領域大語言模型主要是通過對LLaMA、Qwen、Baichuan 等開源的通用領域大語言模型繼續訓練或微調得到。Taylor et al.(2022)和Lehman et al.(2023)指出,對于專業領域的任務來說,使用專業領域數據訓練的模型通常表現更好。因此,本研究旨在從頭構建專門的古漢語大語言模型“AI 太炎”,使其可以較為充分地編碼古代漢語和文化知識。

三、“AI 太炎”的設計

(一)模型結構

參考最新的大語言模型架構,我們以Transformer 模型為基礎,使用SwiGLU 激活函數(Shazeer2020),并采用ALiBi 位置編碼(Press et al. 2021)以應對長文本的處理。為加速訓練過程,我們引入了Flash Attention 機制(Dao 2022)。

在模型參數量方面,主流開源的大語言模型多采用6 ~ 7B、13 ~ 14B、70B等設定。考慮到古漢語大語言模型旨在編碼專門領域知識,相應的訓練數據規模遠遠小于通用的英文和現代漢語任務,模型大小需要和數據規模相匹配,我們參照Hoff mann et al.(2022)提出的模型最優結構組合曲線,將模型設計為52 層(blocks),共1.8B(18 億)參數。近期,多項研究工作表明,經過合理的設計和訓練,小型大語言模型能夠兼顧效率和效果的平衡,如Gemma(2B)、MiniCPM(2.4B)等。

(二)預訓練任務與數據

大語言模型的訓練通常包括兩個階段:一是預訓練階段,主要利用大規模無標注文本訓練基座語言模型,使模型具有較好的基礎語言能力;二是有監督微調階段,需基于大量有標注數據引導模型學習特定領域知識,完成多項具體任務。

在預訓練階段,模型主要通過預測下一個詞的任務來學習基礎語言知識。大語言模型屬于機器學習模型,即模型的參數權重大小是基于對訓練數據的擬合而得到的,訓練數據的規模、質量和多樣性對模型的語言能力具有決定性影響。雖然古漢語大語言模型重在對古代漢語的理解和生成,但是其輸出結果多服務于當代人的閱讀,比如文白翻譯任務需將古代文言文翻譯成現代白話文,因此基座語言模型需要兼具古代和現代漢語表達能力。此外,在古漢語信息處理技術的現實應用中,簡體字和繁體字文本均有相應需求。為此,在“AI太炎”的預訓練階段,我們采集了約250億字的高質量現代漢語文本和35億字的古代漢語文本作為預訓練語料,簡體字和繁體字文本均占有一定比例。其中,現代漢語文本包括互聯網上的新聞、百科、論壇等數據,古代漢語文本涵蓋了古詩詞、散文、小說等眾多體裁。

(三)有監督微調任務與數據

在有監督微調階段,我們希望“AI 太炎”能夠聚焦領域知識,解決領域問題,因此其不必在通用大語言模型擅長的聊天會話、開放域問答等任務上進行專門學習,而應該重點關注古漢語理解的難點。因此,在設計有監督微調任務時,主要遵循以下兩條原則:第一,所選擇的任務應能夠覆蓋字、詞、句、段等不同層級的語言知識,且能夠引導模型學習古代典籍中的經典文化常識;第二,針對各任務,能夠采集到高質量且較大規模的標注數據。據此,我們設計了4項微調任務:句讀標點、典故識別、詞語釋義和文白翻譯。具體示例見表1。

通過搜集并改寫原始數據,我們共采集到約30億字可供有監督微調的訓練數據,其中句讀標點任務約15億字,詞語釋義任務約6 億字,典故識別任務約0.5億字,文白翻譯任務約8億字。

(四)模型訓練

Tang et al.(2024)指出,對數據的重復使用有助于提升語言模型的訓練效果,因此,我們在訓練“AI 太炎”時對數據進行了一定的重復采樣。依據Hoff mann et al.(2022)的經驗曲線,給定1.8B參數量的模型,我們將其在預訓練數據上訓練了1000億字符,然后在有監督數據上繼續微調訓練了250億字符。模型的最大學習速率設為1e-4,之后以余弦的方式衰減(Loshchilov amp; Hutter 2016)。

四、“AI 太炎”的評測結果

本文針對4 項古漢語信息處理關鍵任務展開了開放評測。為了確保評測結果公平、客觀,所有評測集數據均采自中華經典古籍庫等互聯網未開源的資源庫,以確保模型在預訓練和微調階段均未見過測試數據。除了評測“AI 太炎”外,針對各項任務,我們還分別引入多個已有模型及文史專業研究生作答結果作為對比基線。在通用大語言模型方面,我們選擇在各項通用評測中均表現優秀的GPT–4模型,在4項任務上均對其進行了測試。在領域模型方面,我們引入基于通用開源模型微調得到的古漢語大語言模型“荀子”(Xunzi-Qwen-7B-CHAT),根據其說明文檔,在句讀標點和文白翻譯任務上對其進行了評測。此外,在文白翻譯任務上,還引入百度翻譯中的“中文(文言文)?中文(簡體)”文白機器翻譯系統作為對比。最后,我們邀請多位文史專業研究生參與典故識別、詞語釋義和文白翻譯的人工評測。接下來,本節將對各項任務的具體評測方式和結果進行介紹。

(一)句讀標點任務

對于句讀標點任務,我們從中華經典古籍庫中隨機選取200段經點校的古籍文本作為測試數據,并用F1 值來評測各模型的表現,結果如表2 所示。值得注意的是,現有大語言模型的一個突出問題是添加標點時無法根據原文準確輸出,常見改字、丟字和增字現象,無論如何編寫提示詞,依然存在此問題。在“荀子”的輸出結果中,20.5% 的樣本會出現原文錯誤,而GPT?4 輸出的樣本也有11% 會出現原文錯誤。與之相較,“AI 太炎”在解碼過程中針對句讀標點任務進行了優化,即限制模型輸出結果僅包括原文詞表和標點符號,因此完全避免了輸出錯誤原文的問題。

為了更好地評測標點效果,我們在計算“荀子”和GPT?4的標點效果時排除了輸出有誤的樣本,僅看其正常標點的效果e。如表2 所示,在斷句和標點任務上,“AI 太炎”具有明顯優勢,尤其是斷句任務的F1 值接近97%,達到了較為實用的水平。

(二)典故識別任務

本文采用莫凱潔等(2024)構建的數據集和評測方法,對各模型進行了用典判斷和具體典故識別評測。其中,用典判斷為二分類任務,即判斷給定文本是否用典,以準確率為評價指標;具體典故識別為多標簽、多分類任務,即判斷給定文本使用了哪些典故,以F1值為評價指標。對比基線中,“人類基線”指的是專業標注員在測試集中的平均分數,“"RAG”指引入基于外部典故知識庫的檢索增強生成機制。實驗結果如表3 所示,可見典故識別是一項挑戰性極高的任務,不僅涉及文本語義理解,也需考查文化常識儲備,即使是中文專業的標注人員也無法達到很高的精度。GPT?4 作為通用領域的大語言模型,在解決該類問題時表現欠佳,其中具體典故識別F1 不到10% ;引入外部知識庫做檢索增強后,效果得到顯著提升,但也僅有47%。與之相較,“AI 太炎”在用典判斷準確率上超過了專業標注員的平均水平,在具體典故識別任務上的表現接近人類基線。

(三)詞語釋義任務

考慮到詞語釋義任務在輔助古籍整理和文言文教學中的現實需求,我們從兩種來源采集該任務的測試集:(1)在中華經典古籍庫中按照時間順序選取多個最新出版c 的古籍整理本,并隨機抽取出100條注釋數據;(2)選取中學階段課外閱讀和考試相關文本d 中100條注釋數據。測試集數據共計200條,以下為兩則示例,需要解釋的詞語以【】標記。

(1)若鉛山諸邑所造柬紙,則全用細竹料厚質蕩成,以【射】重價。最上者曰官柬,富貴之家,通刺用之,其紙敦厚而無筋膜。

(2)其汞海、草汞之說,無端狂妄,【耳食】者信之。若水銀已升朱,則不可復還為汞,所謂造化之巧已盡也。

實驗中,除了“AI 太炎”外,我們還引入GPT?4 和文史專業碩博研究生作答結果作為對比基線。研究生作答時不能查閱資料,僅依據對上下文的理解和自身語言知識儲備進行釋義。考慮到釋義可以有多樣化的表達方式,無法直接通過字符匹配計算準確率,且古籍整理本和課外閱讀文本中的注釋參考答案不一定完全準確,我們邀請兩名古代漢語專業研究生對模型和人的作答結果進行人工評估。為確保評估的公正性和可靠性,對于每條注釋,我們均提供3 組匿名且隨機排序的作答結果,以確保評估員不知道哪條結果出自哪個模型/ 人。同時,評估時會提供參考答案,并允許評估員查閱各種資料,對每條作答結果進行準確評分:1 分,正確、精準,能夠幫助人的理解;0.5 分,接近,有部分問題或者不清楚之處;0 分,錯誤、離譜,會誤導他人。我們首先開展試評估與討論,以確保評估員對評分標準的理解一致,然后再進行正式評估。經實驗,兩位評估員的整體評分一致性(Spearman 相關系數)達到0.8842。

詞語釋義的測試結果如表4 所示,其中“嚴格準確率”指完全正確(得1 分)的比例,“準確率”指完全正確與部分正確(得0.5 分)的比例之和。由表中結果可見,詞語釋義任務對于文史專業的碩博研究生來說仍然十分困難,而“AI 太炎”不僅遠遠超過GPT?4 和人類基線,而且準確率達到80%以上,這意味著我們可以利用模型對文本中的重難點詞義進行初步判斷,以輔助人閱讀或整理古籍。同時,相關技術對于輔助辭書編纂和古漢語詞義研究也有一定應用潛力。

(四)文白翻譯任務

文白翻譯作為綜合性的任務,不僅需正確理解古漢語文本中的字、詞、句、段含義,還需要結合一定的背景文化知識,將文本的意義用合理、通順的現代漢語表達出來。考慮到文白翻譯的復雜性,我們除了采用傳統機器翻譯自動評測方法外,還引入了人工評估的方式。

在自動評測階段,我們從中華經典古籍庫中采樣了100 段帶有人工翻譯結果的文言文?白話文對照文本,每段長度從幾十到數百字不等,希望同時考查模型對短文本和長文本的翻譯水平。評測指標為機器翻譯領域常見的BLEU 和CHRF 值,二者反映機器譯文和參考譯文的字符相似程度,數值越高表示翻譯效果越好。測試結果如表5 所示,在這兩項指標上,“AI 太炎”均具有非常明顯的優勢。

在分析模型輸出結果時,我們發現,雖然百度翻譯和GPT?4 的自動評測分值接近,但其翻譯策略有較大差別:百度翻譯常常出現照抄原文的現象,而GPT?4 傾向于給出比較詳細的解釋和譯文,但BLEU 和CHRF 的計算卻無法反映這種差異。為了更嚴謹、更準確地評估翻譯質量,我們采用與詞語釋義類似的方法開展人工評估。

在人工評估階段,測試集同樣包括兩種來源:(1)在中華經典古籍庫中按照時間順序選取多個最新出版的古籍整理本,抽取其中100 段文本作為測試集的一部分;(2)選取中學階段課外閱讀和考試相關文本中的100 段文本加入測試集。測試集數據共計200條,以下為兩則示例。

(3)晉陵張公治信之明年,皇祐二年也,姦彊帖柔,隱詘發舒,既政大行,民以寧息。夏六月乙亥,大水。公徙囚於高獄,命百隸戒,不共有常誅。夜漏半,水破城,滅府寺,苞民廬居。公趨譙門,坐其下,敕吏士以桴收民,鰥孤老癃與所徙之囚,咸得不死。

(4)順治二年乙酉四月,江都圍急。督相史忠烈公知勢不可為,集諸將而語之曰:“吾誓與城為殉,然倉皇中不可落于敵人之手以死,誰為我臨期成此大節者?”副將軍史德威慨然任之。忠烈喜曰:“吾尚未有子,汝當以同姓為吾后。吾上書太夫人,譜汝諸孫中。”

人工評估實驗中,我們選擇自動評測中表現較優的百度翻譯和GPT?4 作為模型基線,并邀請9 位文史專業碩博研究生閉卷作答,將其結果列為人類基線。評估員為4 名古代漢語、古典文獻學和歷史學專業的博士研究生,評估方式和流程同詞義解釋任務。翻譯評分采用5 分制:5 分,錯誤極少,無關鍵性理解錯誤(包括關鍵實詞、名物、銜接、語法錯誤等),語義通順連貫,貼近原文,能夠很好地幫助人理解;4 分,錯誤很少,有1~2個關鍵錯誤,語義通順連貫,貼近原文,能夠輔助人的理解;3 分,錯誤較少,語義基本通順,連貫性有所欠缺,能夠在一定程度上輔助人的理解;2 分,錯誤較多,文意不通順,讓人產生理解困惑;1分,大片錯誤,語言基本不通,或完全誤導人的理解(有害的胡說八道)。經實驗,4位評分員的整體評分一致性(Spearman 相關系數)達到0.7548。

人工評估實驗以大語言模型匿名對戰評測常用的“勝率”(Zhao et al. 2023)作為指標報告結果,此處的“勝率”指各翻譯方法排名第一所占比例,評分相同則排名相同。從圖1 可以看出,與自動評測結果差異較大的是百度翻譯,雖然其自動評測結果與GPT?4 接近,但其真實譯文質量與其他模型有很大差距,可見文白翻譯任務如果僅僅關注機器自動評測指標不一定能得到可靠結果。綜合來看,在人工評估環節中,“AI 太炎”仍然具有明顯優勢。

五、“AI 太炎”的應用探討

由上節評測結果可見,“AI 太炎”在多項任務上較現有模型有明顯優勢,且達到了接近或超過人類基線的水平。考慮到該模型具有較好的古籍文本分析能力,本節將進一步探討其在古籍整理、辭書編纂和語言研究等領域的應用潛力。

(一)輔助古籍整理

古籍整理和出版過程中,往往需要專家根據出版需求開展標點、注解、翻譯等工作,每項任務對于專家的知識和經驗都有極高要求,因此,人力和時間成本極高。“AI 太炎”可以在各個流程中起到相應的輔助作用,以提升古籍整理和出版的效率。此外,該模型還可接入數字化古籍應用平臺,由用戶按需分析,獲取個性化注解內容。

在傳統的古籍整理出版流程中,對于句讀標點環節來說,我們一方面可以運用“AI 太炎”的自動標點技術進行文本預處理,再交由專家校對修改,以確保文本的可讀性和準確性;另一方面,還可在修訂文稿的過程中由該模型進行文本后處理,找出文稿中可能存在的句讀標點錯誤,提醒專家重點審訂。在古籍文本的注釋環節,“AI 太炎”的詞語釋義功能可提供較高質量的詞語解釋,即便自動生成的釋義有時不能完全滿足需求,編纂者也可借助其生成的文白翻譯結果作為參考。如此,編纂者便可快速采納或修改該模型提供的結果,以完成對關鍵詞語的注解。一般來說,整理本古籍很少給出白話文翻譯,這一方面是由于出版社默認書籍受眾為專業人士,無須進行詳細注譯;另一方面是由于文白翻譯難度大,需要投入大量的人力和時間成本才能完成。如果利用“AI 太炎”的文白翻譯功能,只需由專家對譯文進行修改即可,就可大大降低工作量,讓不少整理本古籍有機會變成全譯本,從而服務于更多讀者。

在數字化古籍的應用中,不同讀者對文本內容的困惑點各不相同,因此,提供個性化注解顯得尤為重要。此時,“AI 太炎”即時反饋的能力便凸顯出來,它可以根據讀者的需求實時提供字、詞、句、篇的白話文解釋,大大降低古籍文本閱讀難度,提升閱讀體驗。

(二)輔助辭書編纂

辭書編纂工作涉及古漢語詞匯的釋義和例句選擇,挑戰性極高且工作量巨大。利用“AI 太炎”對大規模數據進行詞義分析,對于辭書的編纂和修訂工作來說均有明顯助益。

首先,給定關鍵詞之后,我們可以采集大規模包含關鍵詞的語料,利用“AI 太炎”對該詞在上下文中的含義進行標注。由于結合上下文語境的詞義解釋具有較高的多樣性,我們可以進一步利用Jaro-Winkler(Winkler 1990)距離等方法對釋義進行聚類,并根據不同需求來調整聚類的精細程度。由此,聚類結果可以幫助專家確定詞義的使用頻率及其精確用例,從而更好地設置詞典中的義項及其順序。

其次,現有辭書中時有因編纂者理解偏差而造成注解錯誤的情況,為辭書修訂工作帶來了較大困難。如以下兩則示例。《漢語大詞典》中詞條“進利”,釋義為“仕進順利”,例句為:

(5)曄少時,兄晏常云:“此兒進利,終破門戶。”終如晏言。

此處對“進利”的解釋并不正確,依例句,應為“貪利”。

《漢語大詞典》的詞條“進資”,解釋為“給予費用”,例句為:

(6)爾令行百里,運不絶道,使軍不乏而士益振,以迄有成,賞可後哉!進資一等,以示褒嘉。此處對“進資”的解釋同樣發生錯誤,依例句,應表示官職提升,而非給予費用。

“AI 太炎”將例(5)中的“此兒進利”注釋為“謂謀利求進”,將例(6)中的“進資一等”注釋為“謂官員再得升遷”,對兩句的翻譯如下:

(5′)范曄小的時候,他哥哥范晏常說:“這孩子貪圖名利,終究會敗壞我們家族。”最後果然像范晏所說的那樣。

(6′)你能使軍隊行軍百里而不斷絕運輸,保證軍隊供給不發生困難,士氣越來越振奮,終於獲得成功,這是值得慶賀的啊!現在進升官階一級,以表示我的褒獎之意。

可見,“AI 太炎”的注譯可以幫助編纂者疏通上下文的含義,避免理解偏誤。在辭書修訂的具體應用過程中,我們可以利用該模型對辭書各條目的詞語結合其例句上下文進行解釋,或對例句進行翻譯,然后將注譯結果與辭書給出的釋義進行自動比對,從而挖掘出不一致的地方,為修訂工作提供線索。

(三)輔助語言研究

與人相較,大語言模型的一個重要能力是可以快速對大量數據進行處理。除了標記的速度和精度外,由于是同一個模型標注,一致性也可以得到很好的保證。以詞義的大規模標注為例,其標注結果一方面可以輔助上文提及的辭書編纂,另一方面也可以輔助探究漢語的詞義演變問題。

為開展相關研究,我們構建了超過1 億字的古漢語歷時語料庫,按照時間先后順序分為:先秦、兩漢、魏晉南北朝、唐、宋、元、明、清。如前文所述,給定關鍵詞,我們可以從庫中獲取所有相關語料,要求該模型對關鍵詞的含義進行注釋,進而通過聚類獲取義項及其歷時頻率信息。圖2 給出“文章”和“消息”的示例,聚類后分別取每個詞語的兩個最高頻義項,呈現其歷時頻率變化情況。由圖中統計結果可見,“文章”始指花紋,從魏晉南北朝開始主要用于文學相關的含義;“消息”本指“消”和“息”,表示消散和生長,常用于指變化,自魏晉南北朝開始,“消息”主要指音訊。與現有的人工分析和自動分析方法(如舒蕾,等2022)相比,這種方法無須人工設計義項和標注數據,可以很方便地拓展到其他詞語上。如果我們據此對大批量詞語進行自動標注分析,無疑將有助于系統地研究漢語詞義演變規律。

六、總結與展望

本研究針對古漢語信息處理任務“低資源”“富知識”的特點,提出從頭構建古漢語大語言模型的方法。首先,從領域知識學習需求和數據現狀出發,設計小型大語言模型結構(52層、1.8B參數量);進一步,經數據處理、基座訓練及微調,構建“AI 太炎”古漢語大語言模型。該模型具有較強的古典文獻釋讀能力,支持句讀標點、典故辨識、詞義解釋及文白翻譯等多種具有挑戰性的文言文理解任務,兼容簡體字和繁體字文本。實驗顯示,與大型通用模型和其他領域模型相比,“AI 太炎”在多項評測任務上表現出明顯優勢,且達到了接近或超過人類基線的水平。此外,本文還探討了該模型在輔助古籍整理、辭書編纂修訂和語言研究等工作上的應用潛力。

值得一提的是,本研究為高效構建專門領域大語言模型提供了參考。由于通用領域大模型在垂直領域的任務上缺乏對專業知識的理解,構建專門領域的大語言模型能夠更為系統地學習領域知識,從而為垂直領域應用提供服務。在具體構建專門領域模型時,并非簡單使用領域數據微調通用開源模型即可取得理想效果,而需特別注意如下幾方面的問題:第一,模型研發人員需和領域專家通力協作以明確該領域的實際需求,并開展相應任務設計,進而從實際問題出發來采集訓練數據并標注特定領域微調數據,數據的規模、質量和多樣性對模型的語言能力有重要影響;第二,需針對不同的專業任務估算出訓練數據量和對應的模型參數量,以提升訓練效率和資源利用率;第三,在完成訓練后需對模型的專業能力進行多輪測試評估,評測不僅是在事先劃定的測試集上報告實驗結果,還有必要邀請該領域專業人員開展人工評估,專業人員對模型的評測和反饋是模型迭代中最有價值的信息源,因此評測工作有賴于模型研發人員和領域專業人員的有效配合;第四,在應用方面,專門領域大語言模型的應用有別于通用大語言模型的對話聊天場景,將其集成到專門領域的平臺或工具中或能夠為該領域工作人員提供更為高效的服務。

需要指出的是,當前大語言模型處理的任務仍然有限,同時也會在一些問題上犯錯誤,給人帶來誤解。因此,現階段的模型應用主要還是定位在輔助性角色上。未來,古漢語大語言模型仍有必要引入更多具有現實需求的任務,并借助高質量數據和改進的訓練微調機制引導模型提升學習能力,使其能夠勝任更多的古漢語相關工作。

猜你喜歡
人工智能
我校新增“人工智能”本科專業
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
基于人工智能的電力系統自動化控制
人工智能,來了
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
學與玩(2017年12期)2017-02-16 06:51:12
主站蜘蛛池模板: 尤物视频一区| 国产视频只有无码精品| 国产网站免费| 国产亚洲精品自在久久不卡| 亚洲视频三级| 亚洲愉拍一区二区精品| 亚洲精品福利视频| 亚洲自偷自拍另类小说| 亚洲国产综合精品一区| 伊人无码视屏| 在线观看国产网址你懂的| 美女视频黄频a免费高清不卡| 动漫精品中文字幕无码| 国产成人久久综合777777麻豆| 中字无码精油按摩中出视频| 欧美第九页| 亚洲综合第一区| 欧美日韩在线亚洲国产人| 中文字幕天无码久久精品视频免费| 中文成人在线| 自拍偷拍欧美日韩| 国产九九精品视频| 国产精品丝袜在线| 伊人久久精品无码麻豆精品| 国产欧美视频在线观看| 亚洲男人的天堂在线| 亚洲无线国产观看| 日本欧美视频在线观看| 亚洲日本韩在线观看| 免费人成视网站在线不卡| 一个色综合久久| 米奇精品一区二区三区| 日韩欧美在线观看| 亚洲三级电影在线播放| 免费无码网站| 欧美亚洲激情| 欧美日本在线| 精品無碼一區在線觀看 | 成人午夜免费观看| 玖玖精品视频在线观看| 日本福利视频网站| 伊人成人在线| 狼友视频一区二区三区| 国产美女在线观看| 91高清在线视频| 亚洲国产日韩一区| 色天堂无毒不卡| 99re这里只有国产中文精品国产精品| 91啪在线| 在线国产毛片手机小视频| 日本欧美在线观看| 国产欧美日韩在线一区| 国产网站在线看| 亚洲免费毛片| 亚洲国产成熟视频在线多多 | 九九热视频在线免费观看| 在线视频一区二区三区不卡| 欧美一区二区三区国产精品| 亚洲三级影院| 亚洲人视频在线观看| 久久香蕉国产线| 国产探花在线视频| 亚洲无码日韩一区| 欧美性精品| 亚洲精品无码在线播放网站| 综合社区亚洲熟妇p| 91久久偷偷做嫩草影院电| 国产一区二区精品高清在线观看| 亚洲天堂精品在线观看| 中文字幕第1页在线播| 婷婷99视频精品全部在线观看| 91久久精品日日躁夜夜躁欧美| 免费人成网站在线高清| 亚洲一区二区精品无码久久久| 欧美国产中文| jizz国产视频| 国产爽妇精品| 91福利免费| 无码专区第一页| 好紧太爽了视频免费无码| 久久免费成人| 97视频精品全国在线观看|