999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分詞結構特征的故障文本分類方法

2021-11-01 08:43:21褚金鵬劉昕武唐超偉曹德洪
電子樂園·下旬刊 2021年2期

褚金鵬 劉昕武 唐超偉 曹德洪

摘要:歷史故障記錄數(shù)據(jù)對產品的質量分析和提升有重大意義。現(xiàn)存大量由售后人員手動錄入的故障及維護記錄,帶有強烈的個人風格,標準化缺失。一方面提升售后數(shù)據(jù)的分析難度,另一方面也會因錯誤信息的存在而降低數(shù)據(jù)價值。為解決上述問題,此處給出一種基于文本結構和關鍵詞的售后文本分類方法。首先,采用經典分詞方法對文本進行分詞,然后基于臨近詞的條件關系,提出一種基于字詞信息熵增益的臨近詞關聯(lián)方法,針對專業(yè)售后文本提出更優(yōu)的關鍵詞提取方法;在該分詞方法的基礎上,利用TF-IDF算法篩選關鍵詞,利用關鍵詞和詞性的統(tǒng)計分布特征,建立文本的評價特征;最后以少量標記文本為訓練樣本,采用決策樹進行模型訓練,實現(xiàn)全量文本的分類算法。實驗結果表明,基于熵信息的詞關聯(lián)方法有效提升分詞準確性,提取的文本特征和訓練的模型在文本的分類篩選上表現(xiàn)良好。

關鍵詞:售后故障數(shù)據(jù);熵增益;TF-IDF;決策樹;文本分類

引言

文本數(shù)據(jù)的分析需求不僅存在于工業(yè)界,也是學術界一直都關注的熱點之一。這方面的研究工作很多。按照應用領域劃分,有互聯(lián)網的漢語術語提取研究[1],按照方法劃分則有基于中文詞語的結構定義研究[2],也有純粹按照統(tǒng)計方法的分詞研究[3].一系列研究成果表明,文本的分析和評價方法都是從字到詞再到段落再到文章的順序開展。

方法主要分三步進行,首先基于隨機分布熵對現(xiàn)有的分詞結果進行迭代關聯(lián)優(yōu)化,然后利用TF-IDF進行關鍵詞提取,最后在提出的關鍵詞和文本自身的結構之上建立故障記錄的準確性、文檔簡潔性、完備性三個維度的特征,通過少量文本數(shù)據(jù)的人工標注,建立決策樹分類模型,實現(xiàn)文本的有效分類。數(shù)據(jù)實驗表明,本方法能夠提升關鍵字的提取效果,且篩選的優(yōu)質文本描述與業(yè)務人員分類結果一致。

1 故障記錄的分類評價模型

對售后文本的分類評價可以有效從大量故障記錄中篩選出優(yōu)質的故障記錄,降低分析樣本條數(shù);基于以上字詞關聯(lián)迭代算法后的分詞進一步降低字詞的維度,通過TF-IDF方法對新的詞組對進行關鍵詞提取后,則具備按照關鍵詞的分布特征進行分類模型的構建,完成文本的評價。

1.1 分類模型特征工程

1.1.1 準確性特征

根據(jù)TF-IDF方法選出N個關鍵詞,分別為則對應這N個關鍵詞,其在文本集中的詞頻分別記為。

從統(tǒng)計的角度出發(fā),準確性高的詞語具有更大的出現(xiàn)概率,因此將詞頻作為單個詞的準確性評估,考慮到詞頻的量級問題,對單個詞的準確性進行歸一化轉換,即對關鍵詞,其準確性為:

由于本部分是探討單挑記錄的描述準確性,因此將各個字詞的準確性特征加權作為記錄的準確性。

假設記錄包含個關鍵詞,分別為其中依照設定,的準確性為:

1.1.2簡潔性特征

以下構造的簡潔性特征也是基于關鍵詞構建。考慮到關鍵詞在記錄的綱領性作用,本文采用單句的含關鍵字量進行單句的簡潔程度描述。

對記錄的單個句子,假設按照前述分詞方法分解成維詞序列:,其中的關鍵字子序列:則的簡潔性特征。記錄的整體簡潔性表征值參照前述準確性特征的方式構造如下:

其中表示記錄中的句子總數(shù)。

1.2 基于決策樹的文本分類

按1.1描述的步驟,對全量數(shù)據(jù)進行分詞和特征提取,將故障記錄被轉化為的三元數(shù)組,從全量故障記錄中抽取一定比例的故障記錄進行人工分類打標簽,利用決策樹模型,基于前述記錄長度、用詞準確性、簡潔性三維特征,訓練出對應的文本分類模型,通過分類模型對大量文本進行自動分類,實現(xiàn)低質量售后故障記錄的過濾。

2 數(shù)據(jù)實驗及結果分析

本次數(shù)據(jù)實驗的樣本來源為2009-2015年部分機車模塊故障數(shù)據(jù),初始故障條數(shù)為2308條,經過對重復記錄和刪除部分過于簡短(描述字數(shù)少于10字)的故障描述后,剩余1918條數(shù)據(jù)樣本。

2.1 基于熵的臨近詞組關聯(lián)

以下是詞組關聯(lián)的兩點結果,一是本文研究的數(shù)據(jù)集合中臨近條件熵的分布,確定文本的關聯(lián)初始閾值,二是詞組關聯(lián)前后的分詞效果比較。

圖1.將1918條數(shù)據(jù)樣本進行分詞,計算每對臨近詞的條件熵,得到。

按照臨近詞組的關聯(lián)選取方法,對出現(xiàn)次數(shù)超過5次以上的數(shù)據(jù)以上的關聯(lián)詞組。

2.2 分類模型及測試結果

將構造的數(shù)據(jù)按照80%:20%的比例,分別作為訓練集和測試集,并采用決策樹進行分類模型訓練,決策樹采用的分類度量是基尼純度,決策樹的最大分層數(shù)5。可知,模型在測試文本集上的分類準確率為90%,且對標簽為“好”的文本具有非常高的準確率,說明本文提出的文本分類方法對文本的篩選具有極佳適應性。

3 結語

本文基于計算機分詞算法,首先創(chuàng)新性地提出基于臨近二元詞組的條件分布熵的臨近詞組迭代關聯(lián)算法,顯著提升機車故障售后維護記錄文本的分詞表現(xiàn),準確有效地從故障文本中提取到專業(yè)關鍵詞;然后從關鍵詞出發(fā),利用關鍵詞在記錄中的分布規(guī)律,提出兩種表征描述的準確性和簡潔性的特征構造方式,并引入文本長度作為完備性的特征,采用決策樹分類算法,僅需通過少量文本的人工標記,就能夠實現(xiàn)優(yōu)質售后文本的準確篩選。該方法操作簡單,且需要人工干預少,就能夠方便地從海量售后文本中快速篩選出優(yōu)質的故障記錄,進一步準確開展后續(xù)的文本分析工作,節(jié)省大量的文本數(shù)據(jù)預處理工作。

參考文獻

[1]張榕, 宋柔. 基于互聯(lián)網的漢語術語定義提取研究[C]// 全國計算語言學聯(lián)合學術會議. 2005.

[2]張艷, 宗成慶, 徐波. 漢語術語定義的結構分析和提取[J]. 中文信息學報, 2003.

主站蜘蛛池模板: 免费午夜无码18禁无码影院| 91青青草视频| 久热re国产手机在线观看| 国产成人AV男人的天堂| 精品少妇人妻无码久久| 国产黑丝一区| 高潮毛片无遮挡高清视频播放| 国产国拍精品视频免费看 | 日韩第九页| 蜜臀AV在线播放| 亚洲欧洲自拍拍偷午夜色| 亚洲欧美另类中文字幕| 国产在线精品人成导航| 天堂网亚洲系列亚洲系列| 午夜精品福利影院| 蝴蝶伊人久久中文娱乐网| 亚洲无线视频| 久久精品视频一| 亚洲成av人无码综合在线观看| 久久综合国产乱子免费| 亚洲日韩第九十九页| 欧美亚洲一区二区三区导航| 日韩在线观看网站| 99久久免费精品特色大片| 秋霞国产在线| 亚洲性网站| 免费又爽又刺激高潮网址| 日韩小视频网站hq| 欧美激情福利| 一级毛片网| AV在线天堂进入| 国产特一级毛片| 精品视频在线观看你懂的一区| 人妻丰满熟妇αv无码| 久久久精品无码一区二区三区| 亚洲欧美国产五月天综合| 香蕉在线视频网站| 亚洲全网成人资源在线观看| 日本道综合一本久久久88| 在线毛片网站| 欧美中文一区| 熟妇丰满人妻av无码区| 久久一日本道色综合久久| 久久亚洲日本不卡一区二区| 2022精品国偷自产免费观看| 四虎成人在线视频| 久久精品无码一区二区国产区| 97在线视频免费观看| 91在线精品麻豆欧美在线| 一级成人a做片免费| 久久精品娱乐亚洲领先| 欧美亚洲第一页| 国产精品片在线观看手机版| 久久一色本道亚洲| 好吊色妇女免费视频免费| 91精品日韩人妻无码久久| 欧美午夜网站| 国产a在视频线精品视频下载| 欧美亚洲另类在线观看| 71pao成人国产永久免费视频| 色丁丁毛片在线观看| 天天色天天操综合网| 亚洲日本www| 国产一级α片| 亚洲欧美一区二区三区麻豆| 2021亚洲精品不卡a| 99精品国产自在现线观看| 国产91小视频在线观看| 真人免费一级毛片一区二区| 强奷白丝美女在线观看| 日本手机在线视频| 2021国产精品自产拍在线观看| 无码福利视频| 欧美午夜视频在线| 无码AV高清毛片中国一级毛片| 久久国产高清视频| 久久综合结合久久狠狠狠97色| 日本欧美一二三区色视频| 国产九九精品视频| 国产打屁股免费区网站| 日韩大乳视频中文字幕| 亚洲午夜福利在线|