999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語言模型的中文文本簡化能力研究

2024-01-01 00:00:00楊爾弘朱君輝朱浩楠,宗緒泉楊麟兒
語言戰(zhàn)略研究 2024年5期

關(guān)鍵詞 中文文本簡化;大語言模型;語言特征分析

中圖分類號H002 文獻(xiàn)標(biāo)識碼A 文章編號2096-1014(2024)05-0034-14

DOI 10.19689/j.cnki.cn10-1361/h.20240503

一、引言

文本簡化(Text Simplifi cation,TS) 是指將文本中復(fù)雜的語言表達(dá)改寫得容易理解的過程(Crossley et al. 2012)。出于不同目的,中文文本簡化廣泛用于多個(gè)場景之中,如國際中文教材編寫、政府行政公文發(fā)布、信息無障礙建設(shè)及語言應(yīng)急服務(wù)等。無論是國際中文教師為語言水平有限的留學(xué)生準(zhǔn)備“讀得懂”的閱讀素材,還是政府或媒體通過有一定中文基礎(chǔ)的外籍來華人士向世界“講好中國故事、傳播好中國聲音”,對中文文本簡化都有著較大的需求(郭凱,金檀,陸小飛2018 ;熊文新2021 ;張莉2023)。但同時(shí),對篇幅較大的文本進(jìn)行簡化是一項(xiàng)非常復(fù)雜的任務(wù),很難準(zhǔn)確地描述出簡化的規(guī)則及方法,即使對于教學(xué)經(jīng)驗(yàn)豐富的國際中文教師來說,也極具挑戰(zhàn)性,往往只能憑借抽象的教學(xué)經(jīng)驗(yàn)或個(gè)人直覺,工作量大,時(shí)間成本高。近年來,盡管諸多學(xué)者強(qiáng)調(diào)了建設(shè)簡化文本庫的必要性(汲傳波,李宇明2020),探索了簡化應(yīng)當(dāng)考慮的因素和具體方法(張莉2023),但規(guī)模化的中文文本簡化仍然難以令人滿意。

面對這一現(xiàn)實(shí)需求,自動文本簡化(Automatic Text Simplifi cation,ATS)成為重要的研究任務(wù)。自動文本簡化屬于文本生成(Text Generation,TG)范疇,其技術(shù)核心是訓(xùn)練模型學(xué)習(xí)人類專家簡化文本的方法,這些方法主要蘊(yùn)含于一定規(guī)模的簡化數(shù)據(jù)集——簡化前后的平行文本對。因而,在自動文本簡化的研究中,建構(gòu)簡化數(shù)據(jù)集、開發(fā)訓(xùn)練計(jì)算模型、評估簡化效果是3 個(gè)關(guān)鍵問題。高質(zhì)量大規(guī)模的簡化數(shù)據(jù)集是模型開發(fā)的基礎(chǔ)資源,它相當(dāng)于給簡化規(guī)定了目標(biāo),同時(shí)也是支撐技術(shù)發(fā)展的物質(zhì)基礎(chǔ)。然而,當(dāng)前的中文簡化數(shù)據(jù)集十分匱乏。如何在人類專家建構(gòu)的小規(guī)模簡化數(shù)據(jù)集上提升自動簡化技術(shù),是中文自動簡化研究的一個(gè)核心問題。大語言模型(Large Language Models,LLMs,以下簡稱大模型)在文本生成上取得了突破性的進(jìn)展,其特點(diǎn)之一是通過接受小樣本的提示誘導(dǎo)后,便可以定向提升性能,因而,大模型為自動文本簡化帶來新的研究視角。對于簡化效果評估,當(dāng)前主要借用機(jī)器翻譯、文本摘要、文本可讀性等領(lǐng)域的指標(biāo),這些指標(biāo)還無法全面準(zhǔn)確地反映自動簡化的質(zhì)量。

使用大模型進(jìn)行文本簡化,需要解決3 個(gè)問題。(1)選擇什么大模型進(jìn)行文本簡化?這需要對不同的大模型進(jìn)行簡化能力測試。(2)如何誘導(dǎo)、激發(fā)出大模型的文本簡化能力?這需要根據(jù)包括簡化數(shù)據(jù)集在內(nèi)的資源設(shè)計(jì)提示、引導(dǎo)策略。(3)如何評價(jià)大模型的文本簡化效果?這需要有合適的測試數(shù)據(jù)集與評估指標(biāo)、評估方案。

本研究旨在探究不同大模型在不同提示、引導(dǎo)策略下的篇章級文本簡化能力。研究內(nèi)容包括:構(gòu)建中文篇章級簡化數(shù)據(jù)集;選取國內(nèi)外表現(xiàn)優(yōu)異、使用廣泛的6 種不同大模型,通過提示、引導(dǎo)進(jìn)行文本簡化實(shí)驗(yàn);依據(jù)數(shù)據(jù)集提出了一種新的評估方案,以全面評估大模型簡化文本的面貌。

二、研究現(xiàn)狀

對應(yīng)自動文本簡化的3 個(gè)關(guān)鍵問題,本研究使用大模型引導(dǎo)其文本簡化能力,因而不涉及研發(fā)大模型的研究,僅闡述與簡化數(shù)據(jù)集、簡化結(jié)果評估相關(guān)的研究。

(一)文本簡化數(shù)據(jù)集

Petersen amp; Ostendorf(2007)最早應(yīng)用自動文本簡化技術(shù)準(zhǔn)備英語作為外語教學(xué)的學(xué)習(xí)文本,構(gòu)建了首個(gè)平行英語簡化語料庫,但規(guī)模較小。現(xiàn)階段大多數(shù)研究主要關(guān)注句子級別的簡化,經(jīng)典的基于簡單維基百科的句子級數(shù)據(jù)集PWKP(Zhu et al. 2010)、SEW(Coster amp; Kauchak 2011)是簡化研究中的常用數(shù)據(jù)集。多數(shù)文本簡化應(yīng)用需求聚焦在篇章級,Newsela(Xu et al. 2016)是公認(rèn)較為經(jīng)典且公開的篇章級英文新聞數(shù)據(jù)集。

中文簡化研究起步晚,簡化數(shù)據(jù)集較少,主要集中于句子層面的研究,如句子簡化數(shù)據(jù)集MCTS(Chong et al. 2024)。篇章層面尚未形成專用于文本簡化任務(wù)的數(shù)據(jù)集。

(二)文本簡化任務(wù)的評估

簡化的文本應(yīng)該實(shí)現(xiàn)易讀、流暢、語法正確,包含原文的大多數(shù)信息,同時(shí)不丟失原文的趣味性(張莉2023)。這些原則也是評估自動簡化技術(shù)的基本原則。對自動文本簡化效果的評估,主要包括3個(gè)維度的評分:(1)語法正確性,考察模型產(chǎn)生的句子出現(xiàn)的語法或語義錯(cuò)誤;(2)意義保留度,考察模型簡化過程中丟失的信息量;(3)簡單性,考察模型對文本難度的敏感性。

自動簡化的傳統(tǒng)評價(jià)方式有兩種。一是人工評估,專家對單個(gè)維度進(jìn)行打分,存在耗時(shí)長、成本高的問題,往往只能對較小規(guī)模的簡化數(shù)據(jù)進(jìn)行評估。二是通過指標(biāo)計(jì)算。最常用的BLEU(bilingualevaluation understudy,Papineni et al. 2001)、SARI(Xu et al. 2016)等指標(biāo)借自機(jī)器翻譯領(lǐng)域,主要計(jì)算生成文本與標(biāo)準(zhǔn)答案之間的一致性。由于這些指標(biāo)主要考慮文本中可以匹配的字符串,很難從意義的層面衡量文本質(zhì)量。有研究者利用以上指標(biāo)測試了大模型在英文上的句子簡化能力,指出少樣本學(xué)習(xí)場景能夠比零樣本學(xué)習(xí)產(chǎn)生更簡單的文本,與人類簡化的水平相當(dāng)(Feng et al. 2023 ;Kew et al.2023)。但有不少學(xué)者指出,現(xiàn)有評價(jià)指標(biāo)無法充分體現(xiàn)語言模型實(shí)際的簡化效果,并非評估文本簡化質(zhì)量的理想指標(biāo)(Woodsend amp; Lapata 2011 ;Wubben et al. 2012)。

簡單性是文本簡化任務(wù)的核心需求,挖掘簡單文本的本質(zhì)特征是有效評估簡化效果的努力方向。之前的研究大多借助可讀性自動評估領(lǐng)域的Flesch-Kincaid 等級(Flesch 1948)等傳統(tǒng)可讀性公式來計(jì)算簡單性(Martin et al. 2022)。這些公式的計(jì)算方式較為扁平,圍繞表層的、易于測量的語法單位開展(如句長和詞長),在篇章級的簡化評估中容易產(chǎn)生誤判。實(shí)際上,文本的可理解性特征還包括句法特征以及深層特征,如文本的銜接與連貫等文本凝聚性特征。對于篇章的閱讀難度來說,這些特征甚至起到了比表層特征更為重要的作用,需要被考慮在內(nèi)(Benjamin 2012)。

“語言特征分析”是一種全面的文本分析方法,即借助自然語言處理工具,挖掘、發(fā)現(xiàn)相似文本共同擁有的語言特征,這些特征便代表了這組相似文本區(qū)別于其他文本的主要標(biāo)志,進(jìn)而可以識別在特征表現(xiàn)上相似的文本(Montemagni 2013)。已有英文簡化研究使用該方法探究了簡化前后文本中各類語言特征的區(qū)別,發(fā)現(xiàn)簡化后的文本包含高比例的可理解性特征,如具有較高的銜接度(例如詞匯共指和語義重疊)和較低的詞匯復(fù)雜度(例如詞頻和詞義熟悉度)(Crossley et al. 2012 ;Brunato et al.2022)。現(xiàn)階段,中文文本簡化研究剛剛起步,中文的語言特征與文本可讀性評估任務(wù)的結(jié)合更加緊密,在文本簡化的評估研究中鮮有涉及,尚未有針對大模型在篇章級文本簡化能力方面的系統(tǒng)性評估。

簡單的語言表述并沒有唯一的標(biāo)準(zhǔn),僅從字面上衡量二者的相似性得出的結(jié)果未必能夠真實(shí)反映簡單與否。從簡化的需求來看,當(dāng)一篇簡化后的文本包含更多的可理解性特征時(shí),即便與標(biāo)準(zhǔn)答案的一致性不高,仍可視為達(dá)到了簡化任務(wù)的目標(biāo)。而文本特征分析作為一種有效的對比手段,可以通過對應(yīng)“繁?簡”或“難?易”文本的特征分布情況,評估模型在簡化任務(wù)上的完成度,從而對其進(jìn)行更有針對性的調(diào)整或訓(xùn)練。

三、中文新聞文本簡化數(shù)據(jù)集

目前中文尚無公開的直接用于篇章級別的簡化數(shù)據(jù)集,本研究嘗試通過廣泛調(diào)研、收集,并通過語言特征計(jì)算分析、評價(jià)平行文本對,建構(gòu)簡化數(shù)據(jù)集。

(一)數(shù)據(jù)集構(gòu)建

文本簡化廣泛應(yīng)用于第二語言基礎(chǔ)階段教學(xué)的閱讀材料中。為了適應(yīng)漢語二語學(xué)習(xí)者的閱讀水平,目前出版的一些漢語二語教材課文對原文進(jìn)行了簡化(吳成年2011)。經(jīng)過廣泛調(diào)研,我們觀察到《新編讀報(bào)紙學(xué)中文》系列的5 套教材的課文選自各大報(bào)刊的登文,部分課文對原文進(jìn)行了一定程度的簡化,為便于敘述,將其稱為專家簡化文本(簡化版)。本研究選取該套教材,根據(jù)課文標(biāo)注的原文出處,收集到50篇具有明顯簡化痕跡的課文及其對應(yīng)的原文,形成包含50 對平行文本的簡化數(shù)據(jù)集,基本信息見表1。

(二)文本特征分析

為評價(jià)上述簡化數(shù)據(jù)集中兩類文本的區(qū)分度與質(zhì)量,挖掘簡化的規(guī)律,也為評價(jià)自動簡化效果做準(zhǔn)備,本研究從分析文本特征入手,選取與文本難度和理解程度相關(guān)的30 個(gè)特征,包括與表層變量(例如字詞的數(shù)量)、語言難度(例如詞匯難度和句法復(fù)雜性)和語篇銜接(例如關(guān)聯(lián)詞、詞匯重復(fù)率)相關(guān)的語言特征,利用中文文本分析平臺(Chinese Text Analysis Platform,CTAP)對特征進(jìn)行自動提取與計(jì)算(Cui et al. 2022)。同時(shí),還使用BLCU Parsera 工具對文本進(jìn)行句式結(jié)構(gòu)自動標(biāo)注,將標(biāo)注結(jié)果中7 種主要句法成分也作為特征。分別在原文、簡化版兩類文本中計(jì)算這37 個(gè)特征值及其在50 篇文本中的平均值。

為了判定原文與簡化文本之間的統(tǒng)計(jì)數(shù)值是否存在顯著性差異,我們對兩組樣本間的各項(xiàng)指標(biāo)進(jìn)行威爾遜檢驗(yàn)(Wilcoxon)。若威爾遜檢驗(yàn)顯示組間差異顯著(p lt; 0.05),則可認(rèn)為該指標(biāo)屬于原文與簡化版的區(qū)別性特征。簡化后的差值較原文增減的幅度在“增幅”一列中呈現(xiàn)。下面討論原文與簡化版文本在語言特征上的差異。

1. 表層計(jì)量特征

表層計(jì)量特征即統(tǒng)計(jì)各種語言單位的數(shù)量,從不同層面來反映文本長度。文本長度與文本包含的命題數(shù)量相關(guān),文本的命題數(shù)量越多,給工作記憶帶來的壓力越大,則文本的理解難度越高(Kintschamp; Keenan 1973)。

簡化前后文本的表層計(jì)量特征如表2 所示(差異不顯著的以* 號在數(shù)字后方注明,下表同)。可以直觀地看到,簡化后的文本篇幅壓縮,字?jǐn)?shù)、詞數(shù)、句數(shù)及段落數(shù)均大幅減少,文本中句子的長度、段落的長度變短。雖平均詞長也變短,但兩組樣本間不存在顯著差異。

2. 與詞匯難度相關(guān)的文本特征

詞匯的難度表現(xiàn)在兩個(gè)方面。一是詞匯的熟悉度,一個(gè)詞越常見或?qū)ψx者越熟悉,就越容易理解;反之,一現(xiàn)詞(在整篇文本中僅出現(xiàn)一次的詞)使用越多,整體閱讀難度越高。二是詞匯豐富度,用詞越豐富,需要讀者掌握的詞匯量越大,則閱讀難度越高。

詞頻對數(shù)(Logarithmic Word Frequency,LF)基于二語教材語料庫與現(xiàn)代漢語語料庫計(jì)算得出,反映了常用詞的使用情況。平均詞頻對數(shù)越高,用詞越常見。詞匯豐富度一般使用型例比(typetokenratio,TTR)計(jì)算,為抵消文本長度的影響,選擇Root TTR 的計(jì)算方式。此外,由于教材課文面向漢語二語學(xué)習(xí)者,我們還參照《國際中文教育中文水平等級標(biāo)準(zhǔn)》中的“詞匯等級大綱”,計(jì)算簡單詞(1 ~ 3 級詞)占比與平均詞匯難度。

簡化前后特征對比如表3 所示。簡化過程增加了高頻詞、等級更低的漢字和詞,刪除或替換了一現(xiàn)字詞,詞匯豐富度也隨之降低。可見,簡化后文本整體的詞匯難度明顯降低。

3. 句法結(jié)構(gòu)特征

文本的短語結(jié)構(gòu)、句式結(jié)構(gòu)分布,以及依存句法樹高度可以反映文本的句法復(fù)雜度。名詞短語的連用是造成文本復(fù)雜的主要因素之一,名詞短語數(shù)越多、短語長度越長,句法復(fù)雜性越高。最大依存距離與句法樹高則反映了句法信息解碼的難度,數(shù)值越大句子越難。在中文上,句法成分也影響文本的可理解性,如長定語給閱讀帶來困難,定語的減少是簡化的典型標(biāo)志。簡化前后句法結(jié)構(gòu)特征如表4 所示。相較原文,簡化版的句均名詞短語、介詞短語與并列短語的數(shù)量減少,句法樹高、平均依存距離降低。幾種句法成分中,定語占比明顯降低,小句、主語及補(bǔ)語占比呈升高趨勢。

4. 語篇銜接特征

語篇銜接特征是用來衡量文本的連貫性。提高文本的連貫性、顯化文本的信息結(jié)構(gòu)能夠促進(jìn)邏輯推理過程,可以加快文本處理速度(Sanders amp; Noordman 2000),更好地理解文本。詞語重復(fù)率越高、關(guān)聯(lián)詞與代詞密度越高,代表語篇銜接性越好,文本越簡單。

表5 給出了原文與簡化版語篇銜接特征的統(tǒng)計(jì)結(jié)果,簡化版中全文實(shí)詞、名詞、動詞的重復(fù)率都顯著升高,名詞重復(fù)率增幅高于動詞;人稱代詞密度和關(guān)聯(lián)詞密度均升高。

總體而言,在簡化過程中,文本的長度與詞匯難度降低,語篇銜接性增強(qiáng),指標(biāo)變化整體符合易于理解的趨勢。上述特征分析同時(shí)也表明,50對平行文本可以作為大模型自動簡化能力的誘導(dǎo)數(shù)據(jù),也可以作為測評簡化效果的數(shù)據(jù)集。為敘述方便,下文稱該數(shù)據(jù)集為CNS(Chinese newssimplifi cation)。

四、大模型自動簡化能力測評方法

通用的大模型經(jīng)過誘導(dǎo),都可以具備文本簡化能力,“提示工程”是最常用的誘導(dǎo)方法。經(jīng)過提示誘導(dǎo)之后大模型的簡化能力如何?哪種提示誘導(dǎo)的策略更加有效?哪個(gè)大模型的簡化能力更好一些?這些問題需要通過實(shí)驗(yàn)測評。

(一)選擇測評的大模型

為了測評不同大模型在中文文本簡化上的性能表現(xiàn),本研究選取了多個(gè)國內(nèi)外知名的長文本大模型進(jìn)行分析,測評的大模型包括國內(nèi)阿里的通義千問(Qwen)、深度求索的DeepSeek、智譜AI的智譜清言、月之暗面的Kimi,國外OpenAI 的ChatGPT、GPT-4o。實(shí)驗(yàn)通過應(yīng)用程序編程接口(API)請求的方式發(fā)送實(shí)驗(yàn)參數(shù)和提示詞給不同的模型,其中參數(shù)設(shè)置遵循了官方推薦的默認(rèn)配置,實(shí)驗(yàn)在同一時(shí)間段內(nèi)進(jìn)行。

(二)誘導(dǎo)大模型的簡化能力

“提示工程”是一種專門針對語言模型進(jìn)行優(yōu)化的方法,它通過設(shè)計(jì)和調(diào)整輸入的提示詞,來引導(dǎo)這些模型生成更準(zhǔn)確、更有針對性的輸出文本(Zhao et al. 2024)。為了研究不同的提示詞對大模型表現(xiàn)的影響,本研究使用4 種不同類型的提示策略對大模型進(jìn)行誘導(dǎo),分別是零樣本、少樣本、少樣本+詞表和少樣本+規(guī)則。

專家知識包含了與文本簡化相關(guān)的難度信息、規(guī)范示例或者具體細(xì)節(jié),可以被視為大模型本身尚未包含的外部知識。引入專家知識作為額外的輸入,有助于彌補(bǔ)大模型因知識不足而產(chǎn)生的“幻覺”,從而提高生成的簡化文本的準(zhǔn)確性。具體而言,主要包括兩方面內(nèi)容:一方面是基于外部詞表的提示詞構(gòu)造方法,通過將《國際中文教育漢語水平等級標(biāo)準(zhǔn)》“詞匯等級大綱”中的1~3級詞作為“簡單詞表”提供給大模型,以嘗試解決大模型對語言的難度信息不敏感的問題(Rooein 2023);另一方面是基于語言特征規(guī)則的提示詞構(gòu)造方法,針對簡化后文本語言的特點(diǎn),總結(jié)上文專家簡化的文本中差異顯著的語言特征及增幅,將其作為規(guī)則引導(dǎo)大模型輸出。共包括10條規(guī)則,如表6所示。結(jié)合前人研究及多次嘗試,本實(shí)驗(yàn)根據(jù)以上4種不同提示策略撰寫了提示詞,具體內(nèi)容如表7所示。

(三)測評大模型的簡化效果

本研究利用CNS 對大模型的簡化效果進(jìn)行測評,對應(yīng)每一個(gè)大模型,生成的50 個(gè)簡化文本整體作為該模型的評價(jià)對象。采用傳統(tǒng)評價(jià)和文本語言特征分析兩種方式評估簡化效果,傳統(tǒng)評價(jià)方式包括自動指標(biāo)與人工評估,自動指標(biāo)采用SARI、BLEU,人工評估旨在區(qū)分不同大模型的表現(xiàn)。文本語言特征分析是從文本字、詞、句、段各個(gè)層面細(xì)粒度地計(jì)算簡化文本的特征分布。多角度進(jìn)行評估試圖呈現(xiàn)不同的提示策略下各個(gè)大模型在文本簡化任務(wù)上的表現(xiàn)。

五、測評結(jié)果分析

(一)傳統(tǒng)評價(jià)方式

1. 自動指標(biāo)

自動文本簡化質(zhì)量的評估往往通過SARI、BLEU 等計(jì)算對文本改動多少的指標(biāo)來衡量。雖然BLEU 被證實(shí)與簡單性沒有顯著相關(guān)(Xu et al. 2016),但為了便于與前人工作對比,我們同時(shí)計(jì)算了SARI 與BLEU 得分。在性能對比上,主要參考SARI 分?jǐn)?shù)。

如表8顯示,結(jié)果表明,在幾種大模型的縱向?qū)Ρ壬希珿PT-4o 性能總體表現(xiàn)優(yōu)于其他大模型,其次為DeepSeek。在提示語中包含少樣本與詞表時(shí),DeepSeek 的表現(xiàn)超過了GPT-4o。單獨(dú)觀察各個(gè)模型,在提示策略的橫向?qū)Ρ戎校珿PT-4o、Kimi 與智譜清言均在少樣本學(xué)習(xí)時(shí)表現(xiàn)最佳,ChatGPT 與通義千問在少樣本學(xué)習(xí)且提示語包含規(guī)則時(shí)表現(xiàn)最佳,而DeepSeek 在少樣本學(xué)習(xí)且提示語包含詞表時(shí)得分最好。

2. 人工評價(jià)

大模型在語法的正確與流暢方面的能力得到廣泛認(rèn)可。不足之處在于,觀察發(fā)現(xiàn)部分模型產(chǎn)生的文本可能刪減掉保持連貫性的背景信息,或出現(xiàn)將篇章的簡化視為“句子簡化后再拼接”的跡象,導(dǎo)致篇章的語義理解不連貫。如例(1),將(1)a 中的“反應(yīng)慢和聽力減弱直接相關(guān)”刪減,導(dǎo)致(1)b 的可理解性下降,以及隨之而來的,大模型在修改、重新組織原文本的過程中,有可能并產(chǎn)生虛假信息,造成幻覺問題。

(1) a年老了聽力減弱,他注意到老年人反應(yīng)慢和聽力減弱直接相關(guān),于是很早就開始使用助聽器,觀察他一直沒有反應(yīng)遲鈍的表現(xiàn)。(原文)

b他還很早就使用助聽器,預(yù)防反應(yīng)變慢。(智譜清言?簡化版)

因此,我們分別針對簡單性、意義保留度、連貫性和幻覺問題4 個(gè)方面,以1~5級利克特量表(Likert scale)進(jìn)行人工評估。為探究幾種大模型簡化能力的“天花板”,本研究擇其傳統(tǒng)指標(biāo)得分最高的一組輸出文本進(jìn)行橫向比較評分,由語言學(xué)專業(yè)的一名博士生、兩名碩士生共同完成評分,對最終得分計(jì)算平均數(shù)。各個(gè)維度評分結(jié)果的均值如表9所示。

結(jié)果顯示,在幾種模型中,GPT-4o 的總體表現(xiàn)較為出色。Kimi 生成的文本觀感最簡單,但對原文的信息保留較少,GPT-4o 則相反。值得注意的是,在傳統(tǒng)指標(biāo)評價(jià)中SARI 值超越GPT-4o 的DeepSeek,在簡化時(shí)更傾向于做盡可能少的修改,沿襲原文的大多數(shù)內(nèi)容,因此意義保留度與連貫性得分較高,但簡單性卻明顯不足,并未達(dá)到簡化任務(wù)的目標(biāo)。Kimi 與智譜清言在意義保留度上均得分不高,但在連貫性上Kimi 得分更好。觀察實(shí)例可發(fā)現(xiàn),智譜清言傾向于視簡化任務(wù)為文本摘要,大幅度刪改、提煉原文內(nèi)容,以分點(diǎn)或總結(jié)的形式輸出;Kimi 則盡可能保留原文的結(jié)構(gòu),刪除的大多為數(shù)字信息。

幻覺現(xiàn)象出現(xiàn)較多的是智譜清言,如例(2)所示。結(jié)合語境來看,“逃離北(京)上(海)廣(州)”中的“北上廣”作為具有指代含義的構(gòu)式,實(shí)質(zhì)上僅指“北京”一處,而大模型誤將其理解為并列成分,輸出為“離開北京、上海和廣州”。

(2) a 從北京某高校編輯出版學(xué)專業(yè)畢業(yè)后,小鄧在北京輾轉(zhuǎn)于幾家媒體工作,卻在不斷攀升的房價(jià)和各種壓力下失去了對這座城市的歸屬感。幾個(gè)月前,他最終選擇了逃離北(京)上(海)廣(州)。(原文)

b 他在北京讀完編輯出版學(xué)專業(yè),工作了一段時(shí)間,但因房價(jià)高和壓力大,他失去了歸屬感。幾個(gè)月前,他決定離開北京、上海和廣州。(智譜清言?簡化版)

(二)文本特征分析

自動指標(biāo)與人工評分顯示,GPT-4o 表現(xiàn)最優(yōu)。然而自動指標(biāo)的評分顯示,不同提示策略下GPT-4o 的表現(xiàn)相差不大。那么事實(shí)是否如此?自動指標(biāo)得分較低的提示策略是否也在某些方面具備優(yōu)勢?為進(jìn)一步探究以上問題,本研究以GPT-4o 為例,通過文本特征分析捕捉不同提示策略下大模型輸出文本的細(xì)微差別。下表中,以專家簡化文本的語言表現(xiàn)為參照,最具有簡單傾向的以加粗標(biāo)識,與人類專家簡化文本的增幅最接近的以斜體下劃線顯示。

1. 表層計(jì)量特征

表10顯示了GPT-4o在不同提示下簡化文本的表層計(jì)量特征指標(biāo)對比。可以看出,零樣本提示情況下,大模型對字?jǐn)?shù)、詞數(shù)、句數(shù)刪減嚴(yán)重;少樣本提示或加規(guī)則提示都能讓大模型學(xué)到縮減篇幅的程度,即段長變短。然而,詞表提示情況下,平均句長與平均詞長更接近人類;零樣本提示、少樣本提示和規(guī)則提示下,平均詞長較人類更長。另外,無論哪種提示策略下,大模型都存在把握不好句長、過度分段甚至“指句為段”的問題,在段落的處理上仍有明顯不足。

2. 與詞匯難度相關(guān)的文本特征

詞匯難度相關(guān)的文本特征對比結(jié)果如表11 所示。零樣本提示雖然能夠使高頻詞、簡單詞占比更高,但代價(jià)是大量刪減詞匯、詞匯豐富度驟降;少樣本提示則在降低低頻字、詞出現(xiàn)概率的情況下,維持詞匯豐富度與人類簡化版相似。而在少樣本提示的基礎(chǔ)上增加外部詞表的方式可以使模型使用更多的簡單詞,降低詞匯總體難度。

3. 語法與句式特征

表12 呈現(xiàn)了句法結(jié)構(gòu)特征指標(biāo)對比結(jié)果。零樣本學(xué)習(xí)由于刪減大量篇幅、長句變短句,導(dǎo)致最大依存距離與核心動詞前的最大詞數(shù)都明顯下降,但實(shí)際上,句均名詞短語數(shù)與介詞短語數(shù)都沒有顯著變化,名詞短語平均長度沒有變化,句均并列短語數(shù)增加,實(shí)質(zhì)上并沒有降低文本的理解難度。反之,與表層計(jì)量特征的表現(xiàn)一致,加入詞表提示的方法在句法長度上與專家表現(xiàn)最相似,同時(shí)控制了名詞短語和介詞短語的使用,使句子更容易理解。

再觀察句法成分占比可知,與專家簡化文本類似,少樣本學(xué)習(xí)下大模型也提高了小句與主語的占比,減少了定語的使用。整體來看,少樣本學(xué)習(xí)與加入詞表提示均能使大模型在句法結(jié)構(gòu)上表現(xiàn)接近人類。而加入規(guī)則的提示使大模型的輸出比專家具有更簡單的特征表現(xiàn),包含更多可理解性的語言特征。然而,在所有提示策略下,大模型都不會有意減少并列短語的使用。

4. 語篇銜接特征

語篇銜接特征指標(biāo)對比如表13 所示。零樣本學(xué)習(xí)場景下,全文詞語、名詞及動詞的重復(fù)率增幅劇烈,隨之而來的句間詞語、名詞及動詞的重復(fù)率也出現(xiàn)反向增加,說明大模型進(jìn)行了“過度簡化”。少樣本學(xué)習(xí)在詞語重復(fù)率特征的表現(xiàn)上與專家更接近,且提高了人稱代詞密度,同時(shí)包含較多的可理解性特征。而詞表提示與規(guī)則提示的全文詞語、名詞及動詞重復(fù)率均出現(xiàn)了降低趨勢,簡化后的文本連貫性可能存在問題。

此外,關(guān)聯(lián)詞密度均未出現(xiàn)銜接性增強(qiáng)的表現(xiàn),甚至有不同程度的降低使得銜接性變差。詞表提示增加了關(guān)聯(lián)詞密度,但較專家簡化文本仍有距離。

(三)討論與分析

總體而言,實(shí)驗(yàn)結(jié)果表明,由大模型簡化的文本也能顯示出與人類簡化結(jié)果相似的指標(biāo)值變化:更短的文本、使用更常見的單詞、使用更常見的語法結(jié)構(gòu),但不同的提示策略下相似程度不同。零樣本提示場景下模型會刪減大量篇幅,產(chǎn)出的大多是短句,相比于人類專家進(jìn)行了“過度簡化”,簡化過程中降低了篇章的凝聚力。少樣本提示則讓大模型學(xué)到了縮減篇幅的程度,大多數(shù)特征的表現(xiàn)與人類相似。在少樣本的基礎(chǔ)上加入詞表提示,能夠使模型簡化文本的平均詞長更接近人類,使用更多的簡單詞或高頻詞。加入規(guī)則的提示使大模型的輸出比專家具有更簡單的特征表現(xiàn),包含更多可理解性的語言特征。

但無論在哪種提示策略下,大模型都存在過度分段甚至“指句為段”的問題,對段落的處理仍有明顯不足。幾種提示下大模型的簡化均未出現(xiàn)顯化銜接的表現(xiàn),甚至有不同程度的語篇銜接性變差。加入詞表提示,雖然提升了關(guān)聯(lián)詞密度,但較專家的簡化仍有距離。

此外,值得思考的是,提示語本身的難度也會對大模型的表現(xiàn)造成影響。與句子簡化任務(wù)不同,篇章級別的簡化使得提示語本身較長,而在少樣本融合詞表提示的策略中,提示語的長度甚至達(dá)到了9369 字符。顯然,這種情況下,提示語本身的理解難度就已經(jīng)較大,同時(shí)還要求大模型記住其中的詞匯部分。這要求大模型首先具備很強(qiáng)的長文本理解能力。盡管本研究選取的均為長文本任務(wù)表現(xiàn)優(yōu)異的大模型,但提示語難度對其篇章簡化的表現(xiàn)仍會有一定的影響。

六、總結(jié)

本研究檢驗(yàn)大模型在中文文本簡化任務(wù)上的應(yīng)用潛力,以期在文本簡化任務(wù)上能夠輔助人類提高效率。

本研究聚焦兩個(gè)主題:(1)探索一種測評與應(yīng)用大模型特定能力的路徑,采用了兩種創(chuàng)新的提示方法——基于詞表的提示與融入專家簡化文本語言特征規(guī)則的提示,在零樣本和少樣本的測試場景下進(jìn)行了驗(yàn)證;(2)充分挖掘、綜合利用語篇中區(qū)別原文與簡化文本的語言特征,并利用專家簡化文本進(jìn)行了驗(yàn)證,結(jié)合傳統(tǒng)的評價(jià)方式,對大模型的文本簡化能力給出有效評估。實(shí)驗(yàn)結(jié)果表明,盡管大模型在篇章級文本簡化任務(wù)中表現(xiàn)出一定的潛力,其簡單性和可靠性仍有待提高。

本研究的局限性主要體現(xiàn)在3 個(gè)方面。(1)由于簡化數(shù)據(jù)集資源匱乏,研究中所使用的樣本尚不充分,提示中的樣例類型較為有限。(2)只在新聞簡化數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。我們嘗試分析了《簡明漢語》數(shù)據(jù),與新聞簡化數(shù)據(jù)集特點(diǎn)不同,具體的實(shí)驗(yàn)和分析還有待進(jìn)一步研究。(3)如何在語言特征上增加文本內(nèi)容方面的評價(jià)元素,還需要進(jìn)一步研究。

文本簡化的需求是不同的,對于自動文本簡化而言,這些需求將從不同類型、不同語體、不同風(fēng)格等多個(gè)維度體現(xiàn)在簡化數(shù)據(jù)集上;同時(shí),對簡化結(jié)果的評價(jià),可以考慮更多維度的語言特征、文本的內(nèi)容特征,未來的研究將多角度探索誘導(dǎo)大模型在篇章級文本簡化任務(wù)中的潛力,讓大模型更好地輔助文本簡化以滿足不同用戶群體的需求。

主站蜘蛛池模板: 黄色网址免费在线| 国产成人啪视频一区二区三区| 久久亚洲黄色视频| 欧美日韩精品在线播放| 欧美另类一区| 人妻无码一区二区视频| 色婷婷久久| 亚洲欧美日韩天堂| 波多野结衣视频一区二区| 欧美在线观看不卡| 久久免费视频播放| 99中文字幕亚洲一区二区| 九九热在线视频| 国产成人夜色91| 亚洲中文字幕在线观看| 国产午夜精品鲁丝片| 老司机精品一区在线视频| www.精品视频| 一区二区三区毛片无码| 久久a毛片| 色噜噜狠狠色综合网图区| 日本午夜影院| 91精品在线视频观看| 亚洲国产欧美国产综合久久| 日韩欧美在线观看| v天堂中文在线| 国产成人精品一区二区| 99久久国产自偷自偷免费一区| 中文字幕在线播放不卡| 国产亚洲欧美日韩在线观看一区二区| 亚洲久悠悠色悠在线播放| 男女男精品视频| 亚洲高清中文字幕| 无码中字出轨中文人妻中文中| 日本道综合一本久久久88| 亚洲国产综合精品中文第一| 亚洲国产AV无码综合原创| 日韩在线观看网站| 亚洲一级毛片在线播放| 亚洲无码视频图片| 国产成人亚洲欧美激情| 99热这里只有精品5| 综1合AV在线播放| 亚洲国产成人超福利久久精品| 91精品网站| 永久在线精品免费视频观看| 亚洲中文无码av永久伊人| 亚洲无码免费黄色网址| 亚洲欧洲国产成人综合不卡| 91精品国产情侣高潮露脸| 亚洲国产系列| 久久香蕉国产线看观看亚洲片| 久久久久国产一级毛片高清板| 91成人在线免费视频| 1769国产精品免费视频| 亚洲视频在线网| 亚洲成年人片| 欧美精品在线看| 欧美精品一二三区| 日韩在线播放中文字幕| 亚洲精品中文字幕午夜| 成色7777精品在线| 国产成人免费手机在线观看视频| 国产一区二区人大臿蕉香蕉| 亚洲国语自产一区第二页| 欧美在线网| 国产Av无码精品色午夜| 91免费片| www.狠狠| 伊人激情综合网| 亚洲精品在线91| 亚洲AⅤ永久无码精品毛片| 精品五夜婷香蕉国产线看观看| 久久视精品| 成人福利在线视频| 美女被操黄色视频网站| 午夜毛片福利| 国产视频资源在线观看| 九九热这里只有国产精品| 秘书高跟黑色丝袜国产91在线| 亚洲成人黄色网址| 久久精品国产亚洲麻豆|