999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工智能技術(shù)的智慧文本抽取算法在教育出版中的應(yīng)用路徑探析

2024-07-19 00:00:00李嘉哲王貝倫陳月瑤
中國數(shù)字出版 2024年4期
關(guān)鍵詞:人工智能

摘 要 在我國教育出版市場,語文教輔特別是語文課外讀物占有較大的比例。語文課外讀物常常分為整本型讀物(即常說的“名著”)和文選型讀物(即常說的“讀本”),而讀本編寫的重中之重就是選文。文章以近年較流行的人工智能為背景,以配套教材使用的各類初中語文讀本選文開發(fā)為示例,嘗試提出一種與傳統(tǒng)人工選文相比更加方便快捷的智慧文本抽取算法,為語文教輔的選文開發(fā)提供更加多元的方式,從而更好地服務(wù)教育出版的數(shù)字化和智能化。

關(guān)鍵詞 人工智能;智慧文本抽取算法;語文讀本;選文開發(fā)

黨的十八大以來,習(xí)近平總書記高度重視語言文字有關(guān)工作,就推廣普及國家通用語言文字、傳承弘揚(yáng)中華優(yōu)秀語言文化等作出一系列重要指示批示,致信祝賀甲骨文發(fā)現(xiàn)和研究120周年,為語言文字事業(yè)發(fā)展提供了根本遵循。

在黨中央、國務(wù)院的高度重視下,中央宣傳部、教育部等部門高度重視中小學(xué)生語文閱讀工作,近年不斷完善頂層設(shè)計(jì),引導(dǎo)學(xué)生讀好書、讀經(jīng)典,加強(qiáng)中華優(yōu)秀傳統(tǒng)文化、革命文化和社會(huì)主義先進(jìn)文化教育,提升科學(xué)素養(yǎng),打好中國底色,開闊國際視野,增強(qiáng)綜合素質(zhì),培養(yǎng)有理想、有本領(lǐng)、有擔(dān)當(dāng)?shù)臅r(shí)代新人。當(dāng)前國內(nèi)教育出版市場中,語文學(xué)科相關(guān)讀物所占的份額較大,是各出版社重點(diǎn)關(guān)注的產(chǎn)品,其中讀本是廣受師生家長歡迎的細(xì)分類別。讀本的素材選擇是產(chǎn)品開發(fā)過程中的重中之重,而選文的過程是比較耗費(fèi)時(shí)間和精力的。因?yàn)樽x本的內(nèi)容通常與學(xué)生使用的統(tǒng)編教材緊密聯(lián)系,內(nèi)分多個(gè)單元,每個(gè)單元按照一定的主題,進(jìn)行文章編選。比如作者參與編寫的人教版《義務(wù)教育教科書語文自讀課本》系列,就是與統(tǒng)編初中語文教材相配套的。這套讀本的編排順序,是按照統(tǒng)編初中語文教材的單元順序,每單元設(shè)計(jì)兩三組選文,或體裁相同,或題材相近,或是同一位作家的不同作品,力求與教材形成呼應(yīng),溝通課內(nèi)外學(xué)習(xí),使二者相得益彰。

在這樣的語境下,如何在浩如煙海的文學(xué)材料里尋找與教材中的課文主題適切、體裁相同或作者一致的文章,對(duì)于讀本編寫者而言是一個(gè)費(fèi)時(shí)費(fèi)力的差事。傳統(tǒng)的文本編選只能依靠編者本人的閱讀量和知識(shí)面,難免有所疏漏。近年來,隨著人工智能等新技術(shù)在各領(lǐng)域的應(yīng)用實(shí)踐不斷發(fā)展,基于人工智能技術(shù)的出版新模式已經(jīng)成為必然趨勢。人工智能技術(shù)的產(chǎn)生可以一定程度上彌補(bǔ)人工選文的不足,提高讀本編寫的效率,擴(kuò)展可選文本的范圍。

智慧文本抽取算法是一種基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理等技術(shù)的算法,可以自動(dòng)地分析和分類文本數(shù)據(jù),并根據(jù)特定的規(guī)則和標(biāo)準(zhǔn)進(jìn)行篩選和過濾。智慧文本抽取算法自出現(xiàn)至今,已經(jīng)歷了幾十年的研究發(fā)展。20世紀(jì)60年代提出的基于單詞和短語出現(xiàn)頻率的自動(dòng)索引技術(shù)打開了文本篩選算法的門扉[1],為自動(dòng)化文本索引和信息檢索技術(shù)的發(fā)展奠定了基礎(chǔ)。在近40年的發(fā)展時(shí)間里,文本篩選算法的研究方向主要集中在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域,比如基于樸素貝葉斯、決策樹、支持向量機(jī)的分類算法,等等[2]。當(dāng)前,隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)、自然語言處理等技術(shù)引領(lǐng)的“智慧算法”開始在各個(gè)領(lǐng)域生根發(fā)芽,文本篩選算法也是其中之一。

因此,本文錨定如下情景——給定一段對(duì)某個(gè)主題的描述文本或一段節(jié)選自某篇文章的文本,以之為線索,在文章庫中尋找主旨相似的文章——提出一種綜合了成熟的知識(shí)圖譜、語言模型及神經(jīng)網(wǎng)絡(luò)技術(shù)的智慧文本抽取算法,為教育出版行業(yè)在語文讀本選文的過程中提供人工智能的輔助方案。

1 我國中學(xué)語文讀本編寫工作的重要性

編寫語文讀本是響應(yīng)國家方針政策的重要舉措。2012年,黨的十八大報(bào)告歷史性地寫入“開展全民閱讀活動(dòng)”,《政府工作報(bào)告》連續(xù)10年出臺(tái)促進(jìn)“全民閱讀”的政策措施,國家“十四五”規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要提出,“深入推進(jìn)全民閱讀,建設(shè)‘書香中國’”。2023年全國教育工作會(huì)議上,教育部提出要把開展讀書活動(dòng)作為一件大事來抓,引導(dǎo)青少年愛讀書、讀好書、善讀書?!读x務(wù)教育語文課程標(biāo)準(zhǔn)(2022年版)》明確要求學(xué)生“廣泛閱讀各種類型的讀物,課外閱讀總量不少于260萬字”[3]。從頂層設(shè)計(jì)到具體方案,都對(duì)語文讀本這一閱讀素材提出了巨大的需求。

編寫語文讀本是拓展統(tǒng)編中學(xué)語文教材“教與學(xué)”素材的合理方式。按照中央決策部署,教育部統(tǒng)一組織編寫普通中小學(xué)語文教材。義務(wù)教育統(tǒng)編語文教材2017年秋季學(xué)期正式投入使用,2019年秋季學(xué)期實(shí)現(xiàn)所有年級(jí)“全覆蓋”。普通高中統(tǒng)編三科教材已經(jīng)于2022年實(shí)現(xiàn)所有省份“全覆蓋”。我國幅員遼闊、人口眾多,各地基礎(chǔ)教育發(fā)展水平不夠均衡。語文教材囿于體例和篇幅限制,無法完全滿足不同層次師生的閱讀拓展需求。在這種情況下,語文讀本能夠很好地彌補(bǔ)教材選文有限的缺憾,讓師生有更多的閱讀量,接觸到更多文質(zhì)兼美的文章。

編寫語文讀本是提高中小學(xué)生思想政治素質(zhì)和科學(xué)文化素養(yǎng)的有效途徑。語文讀本本質(zhì)上是一種閱讀資源,閱讀資源是學(xué)校文化建設(shè)和課程資源建設(shè)的重要載體,而閱讀內(nèi)容是開展閱讀活動(dòng)的核心。學(xué)生讀到什么樣的內(nèi)容,很大程度上能夠影響學(xué)生的思維方式,甚至對(duì)世界觀、人生觀、價(jià)值觀的塑造起到不可忽視的作用。因此,語文讀本的編寫絕不是“撿到籃子里就是菜”(葉圣陶語),而是需要下功夫、費(fèi)心思去啃的“硬骨頭”,讀本的選文就是啃好這塊“硬骨頭”的突破口。

2 中學(xué)語文讀本的選文開發(fā)困境

語文讀本開發(fā)的重點(diǎn)和難點(diǎn)都圍繞著選文展開。傳統(tǒng)上,選文依靠的都是人工篩選和互聯(lián)網(wǎng)檢索。比如統(tǒng)編初中語文教材七年級(jí)上冊第一單元的人文主題是“四時(shí)之美”,編寫這一單元配套的讀本,就需要編者憑借自己的閱讀量、查找書籍或利用搜索引擎篩選與“四時(shí)之美”相關(guān)的文章。顯然,這種開發(fā)方式存在諸多困境。

(1)傳統(tǒng)選文方式造成讀本產(chǎn)品文章同質(zhì)化。語文讀本的編者多為教材編者、大中小學(xué)語文(中文專業(yè))教師、教研員等語文教育從業(yè)者,這些從業(yè)者主要都畢業(yè)于中文及相關(guān)專業(yè),知識(shí)面和閱讀量有較大的交叉。即使將他們分成幾組,圍繞同一主題選文,也會(huì)有不少文章被“不約而同”地選入,造成選文的大量重復(fù)。

(2)傳統(tǒng)選文方式耗時(shí)長、效率低、選文標(biāo)準(zhǔn)參差不齊。在腦海中搜索自己讀過的同主題文章需要編者有豐富的閱讀積累,在各類文集中翻檢與目標(biāo)主題相近的文本需要大量的時(shí)間。在產(chǎn)品眾多的教育出版行業(yè),出版物的時(shí)效性不容忽視。在新的語文教材面世之后,誰的配套語文讀本上市更早,顯然就能獲得更多讀者的關(guān)注。因此,提高選文的效率也迫在眉睫。另外,多名編者分編不同單元,必然會(huì)產(chǎn)生選文標(biāo)準(zhǔn)不統(tǒng)一的情況。

(3)傳統(tǒng)選文方式產(chǎn)生的成本較高。由于第一和第二點(diǎn)困境造成的現(xiàn)狀,一本語文讀本的選文很難由一名編者獨(dú)立完成。諸多編者合編一本書,可能增加勞務(wù)、工作用書采購等方面的

成本。

3 基于智慧文本抽取算法的中學(xué)語文讀本選文開發(fā)

本文介紹的智慧文本抽取算法,能夠一定程度上降低讀本選文的同質(zhì)性、大幅提高文章選取的效率、降低選文和制作成本。

如圖1所示,智慧文本抽取算法包括兩個(gè)步驟:①分析文本庫,構(gòu)建知識(shí)圖譜;②針對(duì)給定主題,完成智慧搜索。具體而言:第一步,算法利用掩碼語言模型來構(gòu)建知識(shí)圖譜;第二步則分為3個(gè)子步驟,分別為“對(duì)輸入文本進(jìn)行語義分析”“關(guān)聯(lián)知識(shí)圖譜”和“量化打分,擇優(yōu)選取”。在關(guān)聯(lián)知識(shí)圖譜時(shí),算法利用計(jì)算語義向量相似度的方法完成關(guān)聯(lián)。而在量化打分的步驟,算法則使用了殘差神經(jīng)網(wǎng)絡(luò)。下文筆者對(duì)上述步驟和算法涉及的知識(shí)圖譜等技術(shù)進(jìn)行詳細(xì)介紹。

3.1 分析文本庫,構(gòu)建知識(shí)圖譜

首先,對(duì)給定的包含大量篇目文章的文本庫,智慧文本抽取算法使用掩碼語言模型對(duì)其中的文章進(jìn)行語義分析,構(gòu)建一個(gè)知識(shí)圖譜。該知識(shí)圖譜包含了所有文章中出現(xiàn)的重要人物、地點(diǎn)、時(shí)間、事件等和其中的主要關(guān)系,形成網(wǎng)狀圖數(shù)據(jù)結(jié)構(gòu),便于后續(xù)的分析搜索。

在此步驟中,智慧文本抽取算法采用的語言模型是一種計(jì)算機(jī)算法,可以根據(jù)已經(jīng)出現(xiàn)過的語言數(shù)據(jù)計(jì)算出下一個(gè)可能出現(xiàn)的單詞或語句,常用在自動(dòng)文本生成、智能問答、語音識(shí)別、機(jī)器翻譯等任務(wù)領(lǐng)域[1]。語言模型能夠幫助計(jì)算機(jī)理解語言,并生成新的語言內(nèi)容。智慧文本抽取算法采用的語言模型是掩碼語言模型(Masked Language Model,MLM)[5]。它的訓(xùn)練方法是在輸入序列中掩蓋一些單詞,然后讓模型來預(yù)測掩蓋位置上的單詞。這種方法能夠幫助模型更好地理解語言的上下文和語義,提高模型的預(yù)測

能力。

本步驟所構(gòu)建的知識(shí)圖譜,則是一種圖形化的數(shù)據(jù)模型,由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體之間的關(guān)系。知識(shí)圖譜可以用來模擬人類的知識(shí)結(jié)構(gòu),并幫助人們更好地理解和組織信息。利用語言模型進(jìn)行端到端的知識(shí)圖譜構(gòu)建的基本步驟為:首先,選擇一個(gè)語言模型,同時(shí)訓(xùn)練它使其能夠識(shí)別語言中的實(shí)體和關(guān)系;接著,使用語言模型對(duì)大量文本數(shù)據(jù)進(jìn)行預(yù)測,并通過預(yù)測結(jié)果抽取出文本中的實(shí)體和關(guān)系,構(gòu)建知識(shí)圖譜;然后,使用知識(shí)圖譜進(jìn)行查詢,以獲取答案,并進(jìn)行評(píng)估,以確定模型的質(zhì)量;最后,通過不斷優(yōu)化模型,提高模型的準(zhǔn)確率,以獲得更準(zhǔn)確和更豐富的知識(shí)圖譜[6-7]。

具體而言,本步驟首先使用語言模型對(duì)文本進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,從而提取出文本中的實(shí)體和實(shí)體間的關(guān)系。例如,在分析某篇文章時(shí),對(duì)于這樣一段文本“李白是一位詩人”,掩碼語言模型會(huì)將它分詞為“李白/是/一位/詩人”,并識(shí)別出“李白”是一個(gè)人名實(shí)體,“詩人”是一個(gè)職業(yè)實(shí)體,然后提取出“李白”和“詩人”之間的“是”關(guān)系。接著,算法利用提取出的實(shí)體和關(guān)系用來構(gòu)建知識(shí)圖譜,即,創(chuàng)建一個(gè)人名實(shí)體節(jié)點(diǎn)“李白”,一個(gè)職業(yè)實(shí)體節(jié)點(diǎn)“詩人”,并在它們之間連接一條代表“是”的關(guān)系邊。這樣,就可以通過知識(shí)圖譜來表示文本中的實(shí)體和實(shí)體間的關(guān)系,方便進(jìn)行更復(fù)雜的推理和問答。

3.2 針對(duì)給定主題,完成智慧搜索

在第一步構(gòu)建好知識(shí)圖譜的基礎(chǔ)上,智慧文本抽取算法便能夠針對(duì)給定的讀本單元主題,在知識(shí)圖譜中進(jìn)行文章搜索了。本步驟分為如下3個(gè)子步驟。

第一步,對(duì)輸入文本進(jìn)行語義分析。給定一段描述性文字,或者是一段文章節(jié)選,對(duì)該文本進(jìn)行語義分析,提取出其中的實(shí)體(或代名詞等)、屬性和關(guān)系,這個(gè)抽取流程和構(gòu)建知識(shí)圖譜的方法類似。

例如,假設(shè)在編寫讀本某單元時(shí),該單元的主題為“唐代詩人所寫的表達(dá)思鄉(xiāng)情感的古詩文”。那么,語言模型可以將其分詞為“唐代/詩人/

所/寫/的/表達(dá)/思鄉(xiāng)/情感/的/古詩文”,同時(shí)識(shí)別出關(guān)鍵詞“唐代”“詩人”“表達(dá)”“思鄉(xiāng)”“情感”“古詩文”以及語義關(guān)系“所寫”“的”,以進(jìn)行之后的操作。再舉一個(gè)現(xiàn)代文的例子。假設(shè)讀本某單元的主題為“近現(xiàn)代作家對(duì)友情的探討”,根據(jù)掩碼語言模型,可以將其分詞為“近現(xiàn)代/作家/對(duì)/友情/的/探討”,同時(shí)識(shí)別出關(guān)鍵詞“近現(xiàn)代”“作家”“友情”“探討”。

第二步,關(guān)聯(lián)知識(shí)圖譜。在上一步中,算法從輸入文本語義分析的結(jié)果中得到了一些新的實(shí)體和關(guān)系。接著,算法通過語義向量相似度的方法將這些屬于查詢的實(shí)體和關(guān)系與已有知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行關(guān)聯(lián)分析,得到相關(guān)性數(shù)據(jù)。在這里,算法所計(jì)算的語義相似度是自然語言處理中的一項(xiàng)指標(biāo),用于評(píng)估兩個(gè)語句、文本或詞匯的語義相似程度。它主要通過計(jì)算語句的語義表示向量的相似度,或比較詞匯的語義關(guān)系來實(shí)現(xiàn)[8]。

例如,對(duì)于李白《春夜洛城聞笛》中的詩句“此夜曲中聞?wù)哿?,何人不起故園情”,掩碼語言模型會(huì)將其分詞為“此夜/曲中/聞/折柳/,/何人/不/起/故園/情/?!?,并識(shí)別出關(guān)鍵詞“此夜”“曲中”“聞”“折柳”“何人”“故園”“情”等實(shí)體和關(guān)系。接著,算法對(duì)搜索文本和文章中的關(guān)鍵詞和語義關(guān)系進(jìn)行相似性分析,以上一個(gè)子步驟中的“唐代詩人所寫的表達(dá)思鄉(xiāng)情感的古詩文”主題為例,算法將計(jì)算給定主題文本中的“思鄉(xiāng)”和“情感”與文章中的“故園”和“情”之間的相似度,并得到它們的相關(guān)性數(shù)據(jù)。這個(gè)相關(guān)性數(shù)據(jù)包含了詞語本身以及它在文中的語義,同時(shí)多個(gè)詞語之間構(gòu)成了多對(duì)實(shí)體的相關(guān)性數(shù)據(jù),需要進(jìn)一步分析。

再以上文提到的“近現(xiàn)代作家對(duì)友情的探討”為例,算法在篩選文本時(shí),假如篩選到了魯迅《故鄉(xiāng)》的選段,內(nèi)容如下。

阿!閏土的心里有無窮無盡的稀奇的事,都是我往常的朋友所不知道的。他們不知道一些事,閏土在海邊時(shí),他們都和我一樣只看見院子里高墻上的四角的天空。

可惜正月過去了,閏土須回家里去,我急得大哭,他也躲到廚房里,哭著不肯出門,但終于被他父親帶走了。他后來還托他的父親帶給我一包貝殼和幾支很好看的鳥毛,我也曾送他一兩次東西,但從此沒有再見面。

算法會(huì)提取出關(guān)鍵詞句“朋友”“沒有再見面”等,將之與“友情”進(jìn)行匹配,計(jì)算匹配相似度;同時(shí)會(huì)將“魯迅”與“近現(xiàn)代”“作家”進(jìn)行匹配,計(jì)算匹配相似度。注意,算法這里其實(shí)會(huì)將提取到的“朋友”與“近現(xiàn)代”“作家”“友情”“探討”逐一匹配計(jì)算,但最后用到的可能是分?jǐn)?shù)最高的“友情”。

相比于其他作品(比如《濟(jì)南的冬天》《天上的街市》等),魯迅這篇選段可能會(huì)因?yàn)槠ヅ鋾r(shí)計(jì)算得到的分值很高,從而入選讀本。

第三步,量化打分,擇優(yōu)選取。算法使用一個(gè)殘差神經(jīng)網(wǎng)絡(luò)(Residual neural network,ResNet),將從關(guān)聯(lián)結(jié)果中得到的相關(guān)性數(shù)據(jù)進(jìn)行進(jìn)一步處理,并對(duì)該相關(guān)性結(jié)果進(jìn)行量化打分,然后依據(jù)打分結(jié)果,選擇相關(guān)度從高到低的文章。在這里,算法所使用的殘差神經(jīng)網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。它使用殘差連接,即將輸入數(shù)據(jù)與模型預(yù)測結(jié)果的差值作為輸入進(jìn)入下一層。這種方法可以解決深層網(wǎng)絡(luò)存在的梯度消失問題,使得模型更容易訓(xùn)練。此外,殘差神經(jīng)網(wǎng)絡(luò)通過增加網(wǎng)絡(luò)寬度來減小計(jì)算復(fù)雜度,進(jìn)一步提高了模型性能[9-10]。

具體而言,對(duì)于上一步得到的關(guān)聯(lián)性數(shù)據(jù),算法訓(xùn)練一個(gè)相關(guān)性打分模型,通過有選擇性地采納對(duì)于主題描述更加重要的相關(guān)實(shí)體對(duì),比如“思鄉(xiāng)”和“故園”之間的關(guān)系,對(duì)文章的匹配程度進(jìn)行量化打分。對(duì)不同的文章分別進(jìn)行打分后,選取得分最高的數(shù)篇文章作為結(jié)果,得分更高的文章出現(xiàn)在搜索結(jié)果的更前面,從而篩選出最符合讀本主題的幾篇文章。

4 提升智慧文本抽取算法使用效果的

措施

通過上文的介紹,我們很容易對(duì)智慧文本抽取算法的前景充滿了憧憬。然而,在實(shí)施這一算法進(jìn)行篩選的過程中,需要注意文本庫構(gòu)建、專業(yè)人員組成結(jié)構(gòu)等重要條件。出版單位在滿足這些必要條件后,才能比較順利地使用智慧文本抽取算法進(jìn)行生產(chǎn)工作并收獲預(yù)期的效果。此外,也有一些技術(shù)上的問題需要在實(shí)施時(shí)加以

注意。

4.1 架構(gòu)內(nèi)容充足的文本庫

本文第二部分提出通過文本庫構(gòu)建知識(shí)圖譜,其先決條件是“給定的包含大量篇目文章的文本庫”。在實(shí)際操作過程中,這樣的文本庫不是現(xiàn)成的,而是需要編寫團(tuán)隊(duì)預(yù)先架構(gòu)。以統(tǒng)編初中語文教材為例,6冊教材共有144課,包括各類課文200篇。前文提到的《義務(wù)教育教科書語文自讀課本》6冊共編選了311篇文章。市面上常見的以人文主題編選而成的初中讀本,每冊選文多者約在40~50篇,全套也有300篇左右。這些文本都是重要的文本庫架構(gòu)素材,應(yīng)該在人工打上標(biāo)簽(tag)后導(dǎo)入文本庫,供掩碼語言模型對(duì)其中的文章進(jìn)行語義分析,實(shí)現(xiàn)之后的知識(shí)圖譜構(gòu)建。除此之外,以作家為單位的各種文學(xué)作品集等,也都應(yīng)該通過合理合法的形式導(dǎo)入到文本庫中。當(dāng)然,或許也可以考慮利用爬蟲等技術(shù),在互聯(lián)網(wǎng)上抓取足夠數(shù)量的文本導(dǎo)入文本庫。另外,由文本庫生成的知識(shí)圖譜是一個(gè)包含了大量實(shí)體和它們之間關(guān)系的知識(shí)庫,其完整性需要不斷提高,尤其是一些新出現(xiàn)的實(shí)體或關(guān)系可能沒有被添加到知識(shí)圖譜中,這會(huì)影響系統(tǒng)的搜索結(jié)果準(zhǔn)確性。

值得注意的是,這些文本在進(jìn)入文本庫后,只能作為選文來源的參考。絕不能為了省事,從文本庫中選出一篇文章就直接復(fù)制粘貼放到讀本中,這對(duì)文章作者和讀者都是極不負(fù)責(zé)任的。在具體編寫過程中,應(yīng)以權(quán)威出版社出版的圖書中收錄的文本為準(zhǔn),并獲得相關(guān)作家或權(quán)利人的版權(quán)使用許可,及時(shí)支付版權(quán)使用費(fèi),以避免發(fā)生版權(quán)糾紛。

4.2 配備結(jié)構(gòu)合理的專業(yè)人員

文本庫內(nèi)容建構(gòu)的過程需要語文專家對(duì)擬導(dǎo)入的文本進(jìn)行篩選和把關(guān),數(shù)據(jù)架構(gòu)和后期訓(xùn)練需要信息技術(shù)人員的辛勤工作。而在編選篩選新一輪讀物的過程中,又需要語文專家來最終驗(yàn)證算法推薦的文本與教材(或預(yù)設(shè)人文主題、作家專題、特定體裁等)的關(guān)聯(lián)度?,F(xiàn)有的語文讀本編寫隊(duì)伍通常只有語文專家,具體包括課標(biāo)專家、大學(xué)教授、教材編者、教研員、一線教師等,這些人員通常在語文教學(xué)和文學(xué)專業(yè)領(lǐng)域有著較高的造詣。囿于現(xiàn)代大學(xué)專業(yè)劃分的局限和語文專家本人的業(yè)務(wù)專長、閱讀興趣,加上“與教材配套”“適合對(duì)應(yīng)年級(jí)閱讀”等要求,課外拓展選文事實(shí)上面臨新選文不足的問題。及時(shí)引入人工智能技術(shù)、邀請(qǐng)信息技術(shù)專家,可以一定程度上緩解這一燃眉之急,利用計(jì)算機(jī)為讀本的編寫提供更多可選擇的文章。

4.3 其他技術(shù)支持與保障

首先,這一算法基于語言模型語義理解,而語言模型語義理解在實(shí)際運(yùn)用中仍有限制。雖然語言模型可以通過自然語言處理技術(shù)進(jìn)行語義理解,但是其理解能力仍然有限,可能會(huì)出現(xiàn)一些誤解或無法理解的問題。

另外,語義文章搜索系統(tǒng)在處理多語言內(nèi)容時(shí)可能存在困難,尤其是對(duì)于一些復(fù)雜的語言結(jié)構(gòu)和多義詞匯,系統(tǒng)可能需要更多的語言知識(shí)和數(shù)據(jù)支持。

還有一個(gè)不能忽略的問題,是神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要時(shí)間和資源。神經(jīng)網(wǎng)絡(luò)是一種需要大量訓(xùn)練數(shù)據(jù)和計(jì)算資源的技術(shù),訓(xùn)練時(shí)間和資源成本都很高,因此可能會(huì)對(duì)系統(tǒng)的性能產(chǎn)生一定的

影響。

5 結(jié)語

智慧文本抽取算法在經(jīng)過充分的訓(xùn)練后,可以一定程度上解放語文讀本的編寫人員,降低由遍稽群籍帶來的人力成本,將人力資源更加集中在對(duì)文本解讀和輔文撰寫等方面。而對(duì)智慧文本抽取算法的持續(xù)訓(xùn)練,必將推動(dòng)這一技術(shù)持續(xù)迭代,為出版單位提供更加優(yōu)質(zhì)準(zhǔn)確的選文結(jié)果。盡管目前該算法還無法完全取代人工篩選,更無法取代專業(yè)人士在文本解讀、習(xí)題設(shè)計(jì)等方面的角色,但其對(duì)教輔甚至教材編寫業(yè)態(tài)的推動(dòng)和對(duì)出版模式優(yōu)化升級(jí)的促進(jìn)仍然值得期待。

(責(zé)任編輯:郭劍)

參考文獻(xiàn)

[1] MARON M E.Automatic indexing:an experimental inquiry[J].Journal of the ACM (JACM),1961,8(3):

404-417.

[2] 孫晉文,肖建國.自動(dòng)文本分類中的智能處理技術(shù)[J].計(jì)算機(jī)科學(xué),2003(8):18-20.

[3] 中華人民共和國教育部.義務(wù)教育語文課程標(biāo)準(zhǔn)(2022年版) [S].北京:北京師范大學(xué)出版社,2022:15.

[4] 王乃鈺,葉育鑫,劉露,等.基于深度學(xué)習(xí)的語言模型研究進(jìn)展[J].軟件學(xué)報(bào),2020,32(4):1082-1115.

[5] SALAZAR J,LIANG D,NGUYEN T Q,et al.Masked Language Model Scoring[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020:2699-2712.

[6] KENTON J D,TOUTANOVA L K.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL-HLT. 2019:4171-4186.

[7] GIORGI J,WANG X,SAHAR N,et al.End-to-end named entity recognition and relation extraction using pre-trained language models[J].arXiv preprint arXiv:1912.13415,2019.

[8] 李小濤,游樹娟,陳維.一種基于詞義向量模型的詞語語義相似度算法[J].自動(dòng)化學(xué)報(bào),2020,46(8):

1654-1669.

[9] XIONG C,POWER R,CALLAN J. Explicit semantic ranking for academic search via knowledge graph embedding[C]//Proceedings of the 26th international conference on world wide web. 2017:

1271-1279.

[10] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.

*基金項(xiàng)目:本文得到國家社會(huì)科學(xué)基金“十四五”規(guī)劃課題“基于國家事權(quán)的語文教材編制理論體系構(gòu)建研究”(BHA220136)項(xiàng)目、教育部高校思想政治工作專項(xiàng)精品項(xiàng)目“‘一體·兩翼二驅(qū)’新時(shí)代網(wǎng)絡(luò)育人模式的構(gòu)建與實(shí)踐”項(xiàng)目的支持。

Application Path Analysis of Intelligent Text Extraction Algorithm Based on Artificial Intelligence Technology in Educational Publishing—Taking the Development of Selected Articles in Secondary School Chinese Language Reading Books as an Example

Jiazhe Li1,2 Beilun Wang3 Yueyao Chen3

1.Department of Chinese Language and Literature,Peking University,Beijing 100871,China;2.People’s Education Press,Curriculum amp; Teaching Materials Research Institute,Beijing 100081,China;3.School of Computer Science and Engineering,Southeast University,Nanjing 211189,China

Abstract In the existing education and publishing market in China,Chinese language teaching aids,especially Chinese extracurricular reading materials,account for a large proportion. Chinese extracurricular reading materials are often divided into whole book reading materials (commonly known as \"classics\") and text selection reading materials (commonly known as \"reading books\"),and the most important aspect of reading book writing is text selection. This article takes the popular artificial intelligence in recent years as the background,and takes the development of various secondary school Chinese reading materials used in supporting textbooks as an example. It attempts to propose a more convenient and efficient intelligent text extraction algorithm compared to traditional manual text selection,providing more diverse ways for the development of Chinese teaching aids,also to serve the digitization and intelligence of educational publishing better.

Keywords Artificial intelligence; Smart text extraction algorithm; Chinese language reading books; Selected article development

猜你喜歡
人工智能
我校新增“人工智能”本科專業(yè)
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當(dāng)人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業(yè)
基于人工智能的電力系統(tǒng)自動(dòng)化控制
人工智能,來了
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
主站蜘蛛池模板: 国产精品黑色丝袜的老师| 免费无遮挡AV| 91九色视频网| 中文字幕无码av专区久久| 9啪在线视频| 国产中文一区二区苍井空| 曰AV在线无码| 国产成人无码播放| 亚洲第一色网站| 日本欧美一二三区色视频| 精品三级网站| 成人在线亚洲| 日韩天堂在线观看| 99在线视频免费| 日韩在线播放中文字幕| 久久情精品国产品免费| 国产喷水视频| 国产激爽大片在线播放| 成年女人18毛片毛片免费| 日韩久草视频| 日韩午夜福利在线观看| 91午夜福利在线观看精品| 国产精品入口麻豆| 亚洲中文字幕国产av| 亚洲天堂区| 国产在线视频自拍| 精品一区二区三区四区五区| 欧美影院久久| 亚洲欧州色色免费AV| 成年人福利视频| 丁香亚洲综合五月天婷婷| 亚洲成a人片在线观看88| 亚洲一级无毛片无码在线免费视频 | 亚洲IV视频免费在线光看| 午夜福利视频一区| 中文字幕中文字字幕码一二区| 亚洲综合国产一区二区三区| 日韩欧美国产精品| 国产成+人+综合+亚洲欧美| 色AV色 综合网站| 亚洲最大看欧美片网站地址| 亚洲手机在线| 国产微拍一区二区三区四区| 国产69精品久久久久孕妇大杂乱| 国产综合另类小说色区色噜噜| 久久永久精品免费视频| 免费看美女毛片| 中文字幕欧美日韩| 精品亚洲麻豆1区2区3区| 久久久久九九精品影院| 青青国产在线| 一级毛片视频免费| 国产亚洲欧美在线中文bt天堂| 色噜噜综合网| 国产区成人精品视频| 91综合色区亚洲熟妇p| 亚洲欧洲日韩久久狠狠爱| 91香蕉视频下载网站| 欧美午夜一区| 国产精品高清国产三级囯产AV| 成人免费黄色小视频| 尤物视频一区| 欧美国产中文| 成人av专区精品无码国产| 午夜福利无码一区二区| 不卡色老大久久综合网| 亚洲国产黄色| 亚洲国产日韩一区| 久久香蕉国产线看观| 青青草原国产一区二区| 日韩黄色大片免费看| 无码电影在线观看| 国产在线一二三区| 亚洲中文在线看视频一区| 国产美女一级毛片| 中文无码精品A∨在线观看不卡| 亚洲欧美成人综合| 欧美97欧美综合色伦图| 久久人妻xunleige无码| 久久人人妻人人爽人人卡片av| 午夜限制老子影院888| 国产精品无码制服丝袜|