黎芬,費凡,彭琳
(云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,昆明 650000)
農(nóng)業(yè)作為第一產(chǎn)業(yè),對社會穩(wěn)定和經(jīng)濟發(fā)展起著至關(guān)重要的作用。農(nóng)業(yè)生產(chǎn)中面臨著許多挑戰(zhàn),其中農(nóng)業(yè)知識的準確發(fā)現(xiàn)、篩選與應(yīng)用場景一致的農(nóng)業(yè)知識是永恒的主題。隨著農(nóng)業(yè)信息化的發(fā)展,農(nóng)業(yè)在線問答系統(tǒng)以其可以跨越空間和溝通成本低廉的優(yōu)點得到了廣泛應(yīng)用。農(nóng)業(yè)領(lǐng)域問答數(shù)據(jù)集是實現(xiàn)農(nóng)業(yè)在線問答系統(tǒng)的重要基礎(chǔ),制作農(nóng)業(yè)問答數(shù)據(jù)集不僅需要大量的人力物力,更需要農(nóng)業(yè)專家的支持,因此農(nóng)業(yè)問答數(shù)據(jù)集的自動生成受到廣泛關(guān)注。問題生成是一種根據(jù)輸入文本自動生成問題的技術(shù),可用于問答數(shù)據(jù)擴充。因此,如何在龐大的農(nóng)業(yè)數(shù)據(jù)中就其語句形式的多樣性匹配相關(guān)的語義豐富的問句、農(nóng)業(yè)領(lǐng)域問題生成訓(xùn)練集的數(shù)據(jù)標注困難等問題,是近年來問題生成領(lǐng)域急需處理的難題。
目前,深度學(xué)習達到一個空前繁榮的時期,隨著很多蘊含語義知識的預(yù)訓(xùn)練模型的發(fā)表,預(yù)訓(xùn)練語言模型和微調(diào)在問題生成的很多領(lǐng)域中取得了一定的成果。在問答系統(tǒng)領(lǐng)域,Liu等[1]從大規(guī)模的維基百科語料庫中,使用自動化方法生成了大規(guī)模有質(zhì)量的問答對;在閱讀理解領(lǐng)域,Yang等[2]使用半監(jiān)督的方法將模型生成的問題和人工生成的問題相結(jié)合,來訓(xùn)練閱讀理解模型;在醫(yī)療領(lǐng)域,問題生成可以用于臨床上評估人類的心理健康狀態(tài)或提高心理健康水平[3];在農(nóng)業(yè)領(lǐng)域,李巖等[4]針對農(nóng)民用戶在知識和技術(shù)上沒有查詢平臺的問題,依托于自然語言處理和人工智能技術(shù)構(gòu)建了基于知識圖譜的農(nóng)業(yè)知識問答系統(tǒng)。……