王曉莉
(渭南職業技術學院,馬克思主義學院, 陜西,渭南 714026)
語料庫為通過科學取樣和處理后的電子文本庫,是一種承載語言知識的基本資源。語料庫的研究已經在各類學科教學方面被廣泛應用。文獻[1]構建的命名性失語的漢語普通話語料庫,以命名性失語癥舉例,搭建語料數據集。文獻[2]基于自動回標的地理實體關系語料庫構建方法,以地理實體的分類標準和語義關系作為參考標準,根據地理實體關系語言描述習慣構建標注體系。該方法的平均回標成功率較高,且標注速度較快,可將其應用于開放式的關系抽取任務中。文獻[3]研究了用Elan軟件構建上下文驅動的多模式語料庫的方法和過程。通過在不同語境下創造豐富而真實的語言環境,并提供潛在的用戶自定義策略,構建多模式英語學習語料庫是一種理想的數據驅動學習模式范式。文獻[4]利用數據挖掘技術和機器學習智能算法,對Internet上電力行業的信息數據進行獲取和分類,構建電力行業語料庫。
本文以思政知識作為語料庫核心要素,而上述語料庫大多數為文本型,在語境的豐富性方面存在一定程度的局限性,不符合當今多媒體時代的思政教學需求[5],因此本文創新使用多模態語料庫,為語言學習帶來新的生機。
本文提出了一種基于差分進化算法的思政多模態語料庫智能構建方案。根據思政教育的內容特征,通過差分進化算法獲得應用于語料庫的最優內容,對語料庫的各個功能模塊進行分析,完成多模態語料庫構建的全過程。實驗表明,本文方法所構建的語料庫能夠在搜索關鍵詞后給出準確的相關資料,且響應時間較短,具有一定的實際應用價值。
考慮到語料庫的針對性、規模性和代表性,根據思政教育的教學內容總結出多模態語料庫內容需要兼顧時代性、全面性以及恰當性的特點。
因此,為獲得符合要求的最優語料內容,DE(Differential Evolution,差異進化算法)對語料庫內容進行智能篩選[6-7]。
(1)

(2)

(3)

為了對群體的多樣性進行衡量,引入多樣性度量準則ρ,定義如下:

(4)
式中,|F|為每次搜索過程產生的可行解數目,|S|為生成的個體數目。同理,可通過約束違反度函數均值對群體中不同性解反約束強度進行衡量,如下:
(5)
式中,Po為集合內所含元素數量,Pc為種群內所含元素數量,P(y)為反約束強度函數。為減少算法的復雜程度,設可行集合規模為N1,不可行群體規模為N2,最大規模為N3,O為群體規模數量,多樣性群體的復雜度可以表示為
(6)
則對差分算法進行一次迭代后的復雜度可以表示為
M=O(N1)+O(N1)+O(N1)+O(N2)+

(7)
若搜索范圍N=N1+N2+N3,則有效降低了處理后的復雜度M 1.2.1 語料庫基本框架 語料庫的總體框架如圖1所示,整個體系主要分為4個模塊,分別為用戶管理模塊、框架管理模塊、思政語料管理模塊、語料統計檢索模塊4個部分。 圖1 系統基本框架結構 1.2.2 語料庫功能結構構建 在圖1基礎上,給出語料庫的功能結構如圖2所示。 圖2 語料庫的功能結構 (1) 用戶管理模塊功能 在語料庫內設置不同級別的用戶組,并且賦予不同權限。用戶權限服從最小權限原則,用戶操作過程中沒有明確的允許即視為拒絕,且拒絕權限優先。 (2) 框架管理模塊功能 該模塊具備查詢、修改、刪除思政知識等基本功能,且在使用時管理者能夠根據實際情況對框架以及詞元適當調整。 (3) 語料管理模塊功能 該模塊能夠實現基于思政的網絡語料下載。此處以“全國高校思想政治工作網”為數據源。根據關鍵字或用戶請求處理利用所提差分進化算法搜索最優結果,并將搜索獲得的視頻或文本下載至本地磁盤中。規定下載的語料信息中要包括標題、作者等相關內容。每進行一次下載則自動賦予其編號,方便使用者管理,語料下載過程如圖3所示。 圖3 語料自動下載過程 該模塊還能夠實現語料標注功能?,F階段較為常用的語料庫標注軟件有ANVIL、Elan、DRS、MCA等[9]。由于Elan可以同時對多種行為符號進行研究,還能夠以其為基礎平臺實現語料庫的構建。因此本文選擇Elan軟件完成思政多模態語料庫的標注和檢索。 Elan軟件[10]也支持音頻和視頻的多層標注,在構建語料庫的過程中,可以根據實際授課的檢索需要設定各層的標注信息,并通過對標注層屬性的設置規定層與層之間的關系。標注者也可以在Elan軟件中標注不同類型的語料單元,使語料庫可以識別出特定的符號,從而提高了標注的準確性,同時也便于相關人員對語料庫信息的管理。 針對語料庫的片段顯示與播放速度的控制,可以通過Elan軟件導出含有視頻或音頻片段的標注文件,并支持這些文件以表格、文本和字幕等方式顯示,在使用者使用時,還可以隨時回放顯示內容和控制播放速度,使語料庫更加智能化。 (4) 統計檢索模塊功能 本文提供2種語料檢索方式,分別為簡單檢索與高級檢索。簡單檢索主要通過逐詞索引的方式給出關鍵詞在語料庫中的相關信息,逐詞索引能夠記錄關鍵詞在語料庫中出現的位置,也能具備詞性選擇功能,記錄關鍵詞的不同詞性出現位置。高級檢索以簡單檢索為基礎,進一步提供更多層面的索引,如利用時間、作者、框架元素等進行檢索[11-12]。 語料庫功能結構實現的部分偽代碼如下: Time register level (void * ARG) struct multiboot_ uinfo*mb=(struct multiboot_ Uinfo *) parameter; EDF_ uregister_ ulevel(EDF_ Uenable all); / / level 0: EDF CBS_ uregister_ ulevel(CBS_ Uenable all, 0); / / level 1: CBS RR_ uegister_ ulevel(RRTICK,RR_ .MAIN_ Yes, MB); / / level 2: loop dummy_ uregister_ Ulevel(); / / Level 3: Virtual Register module (); 1 / resource access protocol CABS_ uregister_ umudule(); //Resource access protocol Warning sound; 通過差異進化算法對語料庫內容進行智能篩選,以獲得符合要求的最優語料內容,并在此基礎上,設計用戶管理模塊、框架管理模塊、思政語料管理模塊、語料統計檢索模塊4個模塊,完成差分進化算法下思政多模態語料庫的智能構建。 為驗證本文所建語料庫的可行性,對其進行實際應用分析。選用某|檢索網站中的數據作為測試數據,以關鍵詞搜索為例,在語料庫內輸入馬克思理論后,語料庫彈出的搜索結果如圖4所示。 圖4 搜索結果頁面 從圖4中可知,在語料庫內搜索關鍵詞后,系統給出的相關內容符合馬克思主義檢索要求,且未出現重復信息。這是因為本文使用差分進化算法優化了構建過程中語料篩選過程,證明了構建方法可以應用于實際工作中。 隨后對語料庫的搜索響應時間進行測試,并與文獻[1]、文獻[2]、文獻[3]、文獻[4]作對比分析,測試過程中每10次記錄1次平均值,50次后3種算法所得結果如表1所示。 表1 不同語料庫平均響應時長對比 單位:s 從表1中可以看出,相比文獻[1]、文獻[2]、文獻[3]、文獻[4],本文方法的響應時間更短,則可說明差分進化算法對語料庫內容進行智能篩選,識別出特定的符號,從而提高標注的準確性。采用2種語料檢索方式,尋求最優結果,能夠有效地提高工作效率,提升用戶的使用感。 為了提高思政教育工作效率,提出一種基于差分進化算法的思政多模態語料庫智能構建。該語料庫支持多種格式的音頻、視頻、文件的打開和播放,也能夠實現正則表達式的精確檢索與多模態語境的播放,用戶可以在使用的過程中隨時進行播放、暫停、回放等操作,實現智能化操作。 在未來的工作中,需要進一步為語義角色標注提供訓練集,并且根據不同的用戶需求,不斷更新和完善語料庫的內容。1.2 多模態語料庫設計



2 仿真實驗


3 總結