999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

航行通告中自然語言理解算法研究

2021-05-23 09:42:53鄧益鵬羅銀輝
電腦知識與技術 2021年11期

鄧益鵬 羅銀輝

摘要:航行通告機器識別,對于規范化的代碼處理相對簡單,但對于自然語言處理起來相對困難。針對航行通告中類別多,數據分布不平衡,中英文混合等問題,提出基于word2vec文本向量化技術的文本分類方法,針對小樣本數據采用smote算法對數據重采樣,經過重采樣后的數據選擇使用XGBoost繼承算法模型完成分類。由中航材導航技術公司提供的航行通告標簽原始數據,經實驗表明,能夠有效規避樣本數據分布極不平衡,分類數量過多的問題,同時模型的主要評價指標都有提高,包括模型的準確率、召回率及F1值。

關鍵詞:航行通告;數據分布不平衡;word2vec;smote;XGBoost

中圖分類號: TP31? ? ?文獻標識碼:A

文章編號:1009-3044(2021)11-0206-04

在運用傳統機器學習文本分類的領域,文本分類的模型算法整體上已經成熟,在文本分類技術從理論研究到實際應用上面臨著多方面的挑戰,與實驗室文檔比較,互聯網傳播的電子文本信息則表現出分類多樣,關系復雜,數據分布極為不平衡等特點,由中航材導航技術公司提供的通告標簽原始數據同樣標簽數據分布極為不均衡,部分原始數據如表1所示。

傳統的文檔表示方法以詞袋法BOW為主[1],詞袋法將文檔看作是單個詞的集合,每個詞被認為是相互獨立的。BOW將一篇文檔都表示成和訓練詞匯文檔一樣大小的向量,向量的每個位置代表該位置所代表的詞出現了幾次,出現新的詞匯文檔,則向量維度增加。這就意味著幾個重大缺陷:1)維度過高;2)短文本的詞匯數通常是幾個到幾百,詞向量的維度卻高達數十萬,利用率不到千分之一;3)詞袋法不能很好地表示短文本的語義,忽視掉其中的順序、語義等關鍵的信息。

深度學習發展越來越好[2],2013年Mikolov提出了word2vec模型[3]來表示詞向量。word2vec模型計算文檔中詞的上下文信息并將其轉化為一個低維向量,越相似的句子則在向量空間種越接近。word2vec模型在自然語言處理領域應用相當成功。包括中文分詞[4]、情感分類[5]等。

smote算法[6]是改善數據不平衡分布的一種重采樣算法。核心是通過對少數類樣本進行過采樣,不是直接簡單復制少數類樣本,是利用歐氏距離對少數類樣本進行分析合成新的樣本。經實驗,smote算法對數據的預處理更有效,能夠有效預防模型出現過擬合。

基于樹模型的XGBoost訓練模型是目前在傳統機器學習當中優秀的集成學習模型,主要思想是訓練多個準確率較低的弱學習器,然后通過某種機制集成為一個強學習器[7]。調整參數方便,訓練時長較短,結果較為優秀,代價函數加入了正則項防止模型出現過擬合。

1 方法

文章為了能夠有效提高文本分類的精度,使用一種基于word2vec向量化和XGBoost的文本分類方法。其流程圖如圖1所示。

1.1 數據清洗

針對本文的中文數據采用的哈工大的jieba分詞技術,停用詞庫來自哈工大數據源,經處理過后的如表2所示。

1.2 文本向量化

詞的向量化表示是將語言中的詞進行數學化表示,詞的向量化表示主要有四種方式:(1)one-hot文本表示;(2)分布式表示;(3)TF-IDF權重文本表示;(4)word2vec模型神經網絡模型表示。

本文主要采用第四種。word2vec表示主要是兩種,包括CBOW和Skip-gram模型。圖2所示,CBOW模型利用詞w(t)前后n個詞去預測當前詞;Skip-gram模型則反之利用當前詞w(t)去預測前后n個詞。圖3所示Skip-gram模型。

1.3 smote數據重采樣

smote算法[8]是過采樣中提出的新算法,分析少數類樣本的特點,模擬生成新的樣本,將新的樣本插入到數據集中,不均衡的數據集變成均衡數據集來防止模型出現過擬合。采樣原理如圖4所示。

1.4 XGBoost算法

XGBoost【9】是陳天奇在基于GBDT的基礎提出集成算法,與之相比,XGBoost對損失函數利用二階泰勒展開式增加正則項尋求最優解避免過擬合,有效構建增強樹,能在cpu上進行并行運算。樹的集成模型如下:

[yi=k=1Kfkxi fk∈F]? ? ? ? ? ? ? ? ? ? ? ? ? ?[1]

K是樹的數量,F是樹的集合空間,[yi]是模型的預測值,[xi]是第i個數據點的特征向量,[fk]是第k棵樹,與葉子節點的權重w有關。

XGBoost模型由三部分組成,包括學習模型,參數調整和優化目標函數。目標函數優化程度決定模型的準確率,提高模型的泛化能力。故要通過損失函數最小化,增加模型復雜度的懲罰項實現對目標函數的優化。XGBoost模型目標損失函數由下兩部分組成:

[L=i=1nlyi,yi+k=1KΩfk]? ? ? ? ? ? ? ? ? ? ? (2)

第一部分由真實值[yi]和預測值[yi]之間的誤差組成,第二部分[k=1KΩfk]是樹的復雜度函數,用于控制模型復雜度正則項。[Ωfk]可表示為:

[Ωf=γT+0.5λw2]? ? ? ? ? ? ? ? ? (3)

[γ]和[λ]為懲罰因子;T為樹上的葉子數。式3在最小化序列的過程當中,每一輪訓練增加增量函數[fi(xi)]。因此目標函數可以改為:

[Lt=i=1Nlyi,yit-1+fixi+Ωft]? ? ? ? ? ?(4)

t表示訓練第t輪,對于式(4),使用二階泰勒級數展開式將第j棵樹的每片葉子中的樣本集合定義為[Ij=i|q(xi=j)]。目標損失函數的一階導數是:

[gi=?yit-1lyi,yit-1]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? [5]

二階導數是:

[hi=?2yit-1lyi,yit-1]? ? ? ? ? ? ? ? ? ? ? ? ? (6)

由此可得:

[Lt?i=1ngiftxi+0.5hif2txi+Ωft?j=1Ti∈ Ijgiwj+0.5i∈ Ijhiλw2j+γT#]

(7)

定義公式[Gj=i∈ Ijgi]、[Hj=i∈Ijhi],式7簡化為:

[Lt?j=1TGjwj+0.5Hj+λw2j+γT]? ? ? ? ? ? ? ?(8)

[wj]的偏導數為:

[w`j=-GjHj+λ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)

權重向量w帶入到目標損失函數得:

[Lt?-0.5j=1TG2jHj+λ+γT]? ? ? ? ? ? ? ? ? (10)

由式10可得目標函數損失越小,模型的分類效果就越好,泛化能力越強。

2 實驗

本文實驗基于GPU圖形工作站搭建實驗環境:操作系統是windows7,內存48GB,顯卡為GTX1080Ti,編程語言為Python3.7。

2.1文本分類模型主要指標

評估模型的指標主要包括準確率Precision、召回率Recall、F1指標。準確率是指文本分類正確的樣本數與所有分類樣本數的比例:

[Precision=aa+b]? ? ? ? ? ? ? ? ? ? ? ? ? [11]

[Recall=aa+c]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(12)

a代表被正確分類的樣本數,b代表被錯誤分類的樣本數,c代表屬于該類卻沒有被分類出來的樣本數。準確率和召回率是兩個矛盾的指標,為能夠真正反映模型的好壞,引入F1召回率指標,是文章主要考慮的指標。

[F1=2Precision*RecallPrecision+Recall]? ? ? ? ? ? ? ? ? ? ? (13)

2.2 實驗結果與實驗分析

實驗選擇的數據集來自中航材導航技術公司提供的航行通告數據集,有883093條數據,類別高達1434種,類別最多的樣本數有87081個,最少的僅有1個,為保證模型質量,篩選出樣本數大于5的類別樣本,剩下871010條數據,992個類別。word2vec的計算采用的gensim開源軟件實現。主要超參數選擇為sg=1,選擇Skip-gram算法,特征向量維度為50,窗口為5,min_count為10。訓練次數為30,最后訓練出來的維度是50維稠密實數向量。經過word2vec詞向量化后的數據進行smote算法重采樣,對類別樣本數小于5000大于5的數據使用smote重采樣,將小樣本數據構造成每種類別在10000條,保證數據集的相對均衡。XGBoost選擇基于樹的模型,分類器基分類器數量為100,最大深度為5,實驗采用了5折交叉驗證,評估準確性是交叉驗證的平均值處理后的數據經模型處理其模型結果指標如圖5-圖7所示。

3 結論

本文研究了經word2vec神經網絡向量化后的原始數據在smote算法重采樣以及XGBoost集成算法處理后的模型。與沒有經歷過smote算法重采樣的原模型相比較,F1等關鍵指標有了明顯的提升。證明word2vec神經網絡向量化算法在結合smote算法,能夠很好能夠對少數類數據進行一個良好的識別處理。

但研究本身存在一定的局限,首先模型運行時長相當緩慢,僅訓練word2vec詞向量時間就達數小時,使用XGBoost算法完成分類訓練評估時間也接近半小時,模型的參數優化有著進一步優化的可能。其次本次模型沒有使用樸素貝葉斯、SVM等機器學習常見的十分成熟的模型,僅僅考慮XGBoost算法,沒有考慮全面。最后分類模型沒有使用深度學習來做,如若未來能夠使用深度學習等方法,無論是模型評價指標還是模型運行時間應該有進一步提高的空間。

參考文獻:

[1] Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval [M].New York:ACM press,1999.

[2] Gullo F,Ponti G,Tagarelli A.Clustering uncertain data via K-medoids[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2008:229-242.

[3] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[EB/OL].2013.

[4] Reynolds A P,Richards G,Rayward-Smith V J.The application of K-medoids and PAM to the clustering of rules[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2004:173-178.

[5] 周世兵,徐振源,唐旭清.新的K-均值算法最佳聚類數確定方法[J].計算機工程與應用,2010,46(16):27-31.

[6] Fernandez A,Garcia S,Herrera F,et al.SMOTE for learning from imbalanced data:progress and challenges,marking the 15-year anniversary[J].Journal of Artificial Intelligence Research,2018,61:863-905.

[7] 蘇兵杰,周亦鵬,梁勛鴿.基于XGBoost算法的電商評論文本情感識別模型[J].物聯網技術,2018,8(1):54-57.

[8] Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[9] Chen T Q,Guestrin C.XGBoost:a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco California USA.New York,NY,USA:ACM,2016:785-794.

【通聯編輯:梁書】

主站蜘蛛池模板: 精品国产欧美精品v| 免费a级毛片18以上观看精品| 一本视频精品中文字幕| 永久在线精品免费视频观看| 日韩高清在线观看不卡一区二区| 国产精品任我爽爆在线播放6080| 国产亚洲精品资源在线26u| 视频在线观看一区二区| 欧美在线视频不卡第一页| 国产精品成人第一区| 国产美女91呻吟求| 国产一区二区福利| 色综合久久88| 成人毛片免费在线观看| 一级一毛片a级毛片| 中国一级特黄大片在线观看| 在线99视频| 女人18毛片久久| 91亚洲视频下载| 任我操在线视频| 一区二区理伦视频| 欧美一级一级做性视频| 中文成人无码国产亚洲| 国产理论最新国产精品视频| 精品伊人久久久香线蕉| 国产呦精品一区二区三区下载| 91成人在线免费观看| 日韩不卡免费视频| 日韩中文字幕免费在线观看 | 91精品国产无线乱码在线| 2018日日摸夜夜添狠狠躁| 波多野结衣国产精品| 2020极品精品国产 | 在线欧美日韩国产| 在线观看91精品国产剧情免费| 四虎成人在线视频| 国产美女一级毛片| 亚洲精品你懂的| 国产熟女一级毛片| 国产一区二区三区精品久久呦| 日韩在线中文| 在线不卡免费视频| 欧美一区精品| 久久久精品国产SM调教网站| 另类综合视频| 久久婷婷国产综合尤物精品| 色婷婷电影网| 日本精品一在线观看视频| 91成人在线观看| 中文纯内无码H| 久久久久久国产精品mv| 免费毛片视频| 青青久在线视频免费观看| 国产资源免费观看| 波多野结衣一区二区三区AV| 欧美特黄一免在线观看| 亚洲成综合人影院在院播放| 亚洲无码久久久久| 国产三级成人| 伊人福利视频| 国产一区二区人大臿蕉香蕉| 久久夜色精品国产嚕嚕亚洲av| 亚洲美女一级毛片| 美女被操91视频| 成人一级黄色毛片| 欧美色视频在线| 欧美第一页在线| 成人精品视频一区二区在线 | 午夜激情福利视频| 国产精品一线天| 一级毛片免费观看不卡视频| 九九久久精品国产av片囯产区| 伊人婷婷色香五月综合缴缴情| 久久国产亚洲欧美日韩精品| 亚洲国产av无码综合原创国产| 国产亚洲视频中文字幕视频| 国产乱子伦视频在线播放| 国产免费久久精品44| 久久黄色免费电影| 无码一区二区波多野结衣播放搜索| 99久久99这里只有免费的精品| 99精品在线视频观看|