999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文菜譜工藝的文本分類研究

2022-05-30 14:51:41孫惠藍(lán)雯飛
電腦知識(shí)與技術(shù) 2022年21期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

孫惠 藍(lán)雯飛

摘? 要:針對菜譜工藝標(biāo)簽標(biāo)注的需求隨著網(wǎng)絡(luò)平臺(tái)上中文菜譜數(shù)量增多而不斷增加,使用機(jī)器學(xué)習(xí)搭建了文本分類模型,實(shí)現(xiàn)了工藝標(biāo)簽的自動(dòng)標(biāo)注。該模型使用TF-IDF、TextRank兩種方法進(jìn)行特征降維,與常見的三種機(jī)器學(xué)習(xí)分類器樸素貝葉斯(NB)、邏輯回歸(LR)、支持向量機(jī)(SVM)進(jìn)行組合,組成了6種模型。獲取網(wǎng)絡(luò)上的中文菜譜整理成實(shí)驗(yàn)數(shù)據(jù)集,通過實(shí)驗(yàn)驗(yàn)證了所提模型的有效性,為菜譜工藝標(biāo)簽的自動(dòng)生成提供了可行的解決途徑。

關(guān)鍵詞:中文菜譜; 機(jī)器學(xué)習(xí);文本分類; 特征降維;分類器

中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2022)21-0079-03

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

隨著大數(shù)據(jù)和計(jì)算機(jī)性能的不斷提升,機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于數(shù)據(jù)挖掘、搜索引擎、電子商務(wù)、自動(dòng)駕駛、量化投資、自然語言處理、計(jì)算機(jī)視覺等。若要人工處理互聯(lián)網(wǎng)海量的信息文本,將會(huì)費(fèi)時(shí)費(fèi)力,且分類結(jié)果穩(wěn)定性差。應(yīng)用機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)文本內(nèi)容的自動(dòng)化標(biāo)記分類,是大數(shù)據(jù)信息時(shí)代的必然選擇。

如今文本分類已經(jīng)應(yīng)用于多個(gè)領(lǐng)域,涉及新聞、醫(yī)療、司法、林業(yè)等各個(gè)領(lǐng)域。在新聞文本的分類中,由于數(shù)據(jù)集的充分,如今的分類效果已經(jīng)高達(dá)0.93的精確率[1];在醫(yī)療文本分類中,分類效果達(dá)到0.86的精確率[2];在司法文書文本分類中,各項(xiàng)分類預(yù)測任務(wù)也高達(dá)0.77的精確率[3];在林業(yè)文本分類中,也實(shí)現(xiàn)了0.92準(zhǔn)確率[4]。

菜譜文本發(fā)源于歷史上不同時(shí)期各種方式的“菜品”記錄,早在《詩經(jīng)》《尚書》《左傳》等先秦元典中已有零散資訊,是中華飲食文化重要的承載者[5]。目前,在食譜菜譜文本領(lǐng)域的文本分類研究尚不如其他領(lǐng)域充分。近年來,隨著中國在線食譜網(wǎng)站及應(yīng)用的不斷發(fā)展,越來越多來自不同地區(qū)的用戶將他們制作的食譜分享到線上,為我們研究中文菜譜提供了豐富的數(shù)據(jù)資源。有的研究者將數(shù)據(jù)集進(jìn)行食譜成分多樣性分析、食譜特色成分分析、食譜復(fù)雜性分析、食譜相似系分析、食譜慣用輔料分析等多種數(shù)據(jù)分析研究[6]。還有研究者以中國菜品圖片作為研究對象,提出了基于雙線性模型的菜品識(shí)別方法[7]。

隨著時(shí)代的進(jìn)步,人們的不同特殊需求也開始顯露,人們不再局限于以前傳統(tǒng)思想的束縛,越來越多的新型需求開始顯現(xiàn)出來,同時(shí),這些新型需求也對當(dāng)前的文本分類技術(shù)提出了挑戰(zhàn)[8]。因此,本文針對菜譜工藝的分類需求,以中文菜譜文本為研究對象,使用機(jī)器學(xué)習(xí)的方法構(gòu)建文本分類模型,以替代人工標(biāo)注、提高標(biāo)注效率。

1? 相關(guān)理論

1.1 文本分類的過程

文本分類是用計(jì)算機(jī)對文本數(shù)據(jù)集按照一定的分類器模型進(jìn)行自動(dòng)化分類標(biāo)記。文本分類的總體過程包括預(yù)處理、特征提取、分類器、測評等。文本分類實(shí)驗(yàn)的總流程如圖1所示。

(1)預(yù)處理:將原始語料格式化為統(tǒng)一格式,便于后續(xù)的統(tǒng)一處理。

(2)特征提?。簭奈臋n中抽取出反映文檔主題的特征。

(3)分類器:將實(shí)驗(yàn)數(shù)據(jù)放入分類器中進(jìn)行訓(xùn)練。

(4)測評:分類器的測試結(jié)果分析。

1.2評測指標(biāo)

文本分類采用分類任務(wù)常用的F1(F1-score)作為評測指標(biāo),對每一個(gè)類別的分類結(jié)果,正確分入該類的樣本數(shù)量記作TP,錯(cuò)誤分入該類的樣本記作FP,本該分入該類卻錯(cuò)誤地分入其他類的樣本數(shù)量記為FN。則精確率P(Precision)、召回率R(Recall)和F1(F1-score)值的定義分別如式(1)、式(2)、式(3)所示。

[P=TPTP+FP]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

[R=TPTP+FN] ,? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

[F1=21P+1R=2×P×RP+R] ,? ? ? ? ? ? ? ? ? ? ? ? (3)

2 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

實(shí)驗(yàn)軟件環(huán)境為 Window10(64位)操作系統(tǒng),編程語言Python 3.6,機(jī)器學(xué)習(xí)框架 scikit-learn 0.21.2; 硬件環(huán)境為 Inter Core i7—7500U—2.7 GHz,8.0 GB 內(nèi)存。

本文基于數(shù)據(jù)挖掘技術(shù),采集網(wǎng)站上中文菜譜文本數(shù)據(jù),通過去重和去噪處理,篩選出 818條中文菜譜文本數(shù)據(jù)。根據(jù)烹飪工藝為分類標(biāo)簽進(jìn)行人工標(biāo)注,其中炒339、燉煮213、蒸141、拌67,烤 61,如下圖2所示。統(tǒng)計(jì)文本中字符的個(gè)數(shù),如圖3所示,可以看出家常菜制作的文本有短文本(低于50個(gè)字符),也有長文本(高于400個(gè)字符),大于3/5的文本的字符數(shù)在50~200之間。經(jīng)過文本的預(yù)處理后,將文本統(tǒng)一存儲(chǔ)在csv文件中。圖4為數(shù)據(jù)的存儲(chǔ)格式,圖5為某個(gè)中文菜譜文本的文本內(nèi)容的樣本。

使用Jieba分詞在主要食材字段數(shù)據(jù)集中分析出各種食材詞匯的出現(xiàn)頻率,使用WorldCloud庫繪制詞云如圖6所示。在圖6中,食材詞匯越大,代表頻率越高,不難看出雞蛋、胡蘿卜、土豆、豆腐等頻率很高,是家常菜中的普遍使用的食材,與現(xiàn)實(shí)生活中人們生活需要相符。

3 分類模型

本研究使用兩種特征提取方法和三種分類器進(jìn)行6種模型的分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)構(gòu)框架如圖7所示。主要包含4個(gè)步驟:文本數(shù)據(jù)的爬取采集、特征提取、分類器、測評。

(1)首先是文本數(shù)據(jù)采集及篩選,使用爬蟲技術(shù)采集網(wǎng)頁中的文本數(shù)據(jù),經(jīng)過文本的預(yù)處理后,將文本統(tǒng)一存儲(chǔ)在CSV文件中。

(2)在特征提取中,用到中文分詞技術(shù)、去停用詞及關(guān)鍵詞抽取的方法,最后將詞語轉(zhuǎn)化成數(shù)值矩陣。在分詞方法不同,與關(guān)鍵詞數(shù)不同時(shí),特征提取的結(jié)果也會(huì)不同。圖8展示的文本樣本分別用Jieba庫經(jīng)行分詞處理以及去停用詞的效果圖。在文本關(guān)鍵詞提取中,本實(shí)驗(yàn)采取了TF-IDF 和TextRank的兩種方法進(jìn)行實(shí)驗(yàn),以降低數(shù)據(jù)的緯度,以圖5所示樣本為例,圖9、圖10分別為兩種算法以關(guān)鍵詞為20,提取名詞和動(dòng)詞的效果圖。

(3)將詞語轉(zhuǎn)化為特征向量。以關(guān)鍵詞為20個(gè)名詞和動(dòng)詞為例,每一個(gè)文本轉(zhuǎn)換為一個(gè)空間向量。如圖11所示,將文本詞語轉(zhuǎn)化為空間向量。

(4)通過兩種不同的特征提取方法產(chǎn)生的數(shù)據(jù)都放入NA、LB、SVM三種中常見的機(jī)器學(xué)習(xí)分類算法中進(jìn)行訓(xùn)練,統(tǒng)計(jì)每個(gè)模型的Precision、Recall、F1-score對比觀察實(shí)驗(yàn)結(jié)果。

3 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證不同算法在文本分類方面的性能,將中文菜譜文本數(shù)據(jù)集劃分為 10 份,任意 9 份作為訓(xùn)練集,剩余任意的 1 份作為測試集。對不同算法進(jìn)行10 次訓(xùn)練與測試,以實(shí)驗(yàn)結(jié)果的均值作為參考評估的依據(jù)。TF-IDF關(guān)鍵詞處理后的各算法性能如表1所示,TextRank關(guān)鍵詞抽取后的算法性能如表2所示。

實(shí)驗(yàn)結(jié)果表明:6種模型都基本實(shí)現(xiàn)了中文菜譜文本的工藝分類的任務(wù),TextRank+NA模型的分類效果在對比試驗(yàn)中表現(xiàn)最佳。TextRank算法在關(guān)鍵詞抽取上更優(yōu)于TF-IDF算法,在3種分類器中,樸素貝葉斯分類器(NA)的分類效果最好。

4 結(jié)束語

基于機(jī)器學(xué)習(xí)的中文菜譜工藝文本分類模型,讓菜譜工藝標(biāo)簽實(shí)現(xiàn)自動(dòng)化分類標(biāo)注,提高了分類標(biāo)注的效率,適應(yīng)時(shí)代需求。在機(jī)器學(xué)習(xí)框架下,針對菜譜工藝的文本分類任務(wù),TextRank+NA組合的模型的效果相對最理想。隨著網(wǎng)絡(luò)的菜譜文本不斷增加,中國菜譜文本的價(jià)值不容忽視,以文本分類模型代替人工標(biāo)注,有效推動(dòng)了飲食領(lǐng)域的現(xiàn)代化發(fā)展。

本文僅使用了3種典型的分類器,存在一定的局限性,后續(xù)可以用其他機(jī)器學(xué)習(xí)分類器或者深度學(xué)習(xí)網(wǎng)絡(luò)分類器進(jìn)行實(shí)驗(yàn),更好的分類方法有待在未來提出。文本數(shù)據(jù)中的字符數(shù)量不同、關(guān)鍵詞之間的位置以及上下文間的語義對實(shí)驗(yàn)也有可能產(chǎn)生影響,后續(xù)可以繼續(xù)深入研究。

參考文獻(xiàn):

[1] 張昱,劉開峰,張全新,等.基于組合-卷積神經(jīng)網(wǎng)絡(luò)的中文新聞文本分類[J].電子學(xué)報(bào),2021,49(6):1059-1067.

[2] 趙旸,張智雄,劉歡,等.基于BERT模型的中文醫(yī)學(xué)文獻(xiàn)分類研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,4(8):41-49.

[3] 王文廣,陳運(yùn)文,蔡華,等.基于混合深度神經(jīng)網(wǎng)絡(luò)模型的司法文書智能化處理[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,59(7):505-511.

[4] 崔曉暉,師棟瑜,陳志泊,等.基于Spark框架XGBoost的林業(yè)文本并行分類方法研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(6):280-287.

[5] 趙榮光.“中華菜譜學(xué)”視閾下的“中國菜”——2018鄭州·向世界發(fā)布中國菜活動(dòng)主題演講[J].楚雄師范學(xué)院學(xué)報(bào),2020,35(1):1-5.

[6] 劉兆沛.基于中國在線食譜的探索式數(shù)據(jù)分析[D].天津:天津工業(yè)大學(xué),2019.

[7] 段雪梅,朱明,鮑天龍.雙線性模型在中國菜分類中的應(yīng)用[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(5):1050-1053.

[8] 徐萍.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].電腦知識(shí)與技術(shù),2021,17(30):109-110.

【通聯(lián)編輯:唐一東】

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 无码免费视频| 亚洲日韩久久综合中文字幕| 日韩欧美综合在线制服| 日本不卡在线| 91精品国产自产91精品资源| 日韩精品成人在线| 国产成人8x视频一区二区| 亚洲美女操| 亚洲乱强伦| 国产欧美日韩va另类在线播放| 一本大道无码日韩精品影视| 国产欧美在线观看精品一区污| 直接黄91麻豆网站| 中文字幕无线码一区| 在线人成精品免费视频| 国产高清在线精品一区二区三区| 看你懂的巨臀中文字幕一区二区| 国产一级裸网站| 一区二区自拍| 波多野结衣国产精品| 青青草原偷拍视频| 国产精品一线天| 国产成人a在线观看视频| 亚洲无码电影| 免费三A级毛片视频| 国内嫩模私拍精品视频| 91最新精品视频发布页| 久久精品嫩草研究院| 香蕉国产精品视频| 狠狠v日韩v欧美v| 久久久成年黄色视频| 在线看免费无码av天堂的| 午夜少妇精品视频小电影| 香蕉国产精品视频| 欧美亚洲国产日韩电影在线| 中文字幕无码av专区久久| 中文无码精品A∨在线观看不卡 | 在线免费不卡视频| 国产99视频精品免费视频7| 婷婷中文在线| 国产欧美在线观看精品一区污| 久久无码免费束人妻| 欧美三级自拍| 中文字幕2区| 欧美午夜一区| 亚洲免费成人网| 日韩成人在线一区二区| 国产在线一区二区视频| 亚洲男人天堂2020| 欧美在线一二区| 国产日韩精品欧美一区喷| 亚洲中文字幕97久久精品少妇| 久久福利片| 亚洲资源在线视频| 亚洲国产黄色| 久久国产精品波多野结衣| 91视频国产高清| 黄色网在线| 亚洲成a人片77777在线播放| 久久精品无码一区二区日韩免费| 无码丝袜人妻| 亚洲综合香蕉| 中文字幕波多野不卡一区| 国产麻豆va精品视频| 国产最爽的乱婬视频国语对白| 国产自在自线午夜精品视频| 久久久久免费看成人影片| AV天堂资源福利在线观看| 欧美亚洲国产日韩电影在线| 国产精品久久久久久久久久98| 九九热在线视频| 欧美亚洲中文精品三区| 国产区网址| 美美女高清毛片视频免费观看| 国产亚洲成AⅤ人片在线观看| 国产色爱av资源综合区| 国产高清在线观看91精品| 日韩毛片基地| 日韩在线播放中文字幕| 国产www网站| 色爽网免费视频| 色香蕉网站|