999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的客服終端冗余數據迭代消除方法

2022-12-27 13:14:56丁毛毛呂靜賢王笑一
計算技術與自動化 2022年4期
關鍵詞:方法

張 莉,丁毛毛,李 瑋,王 穎,呂靜賢,王笑一

(1.天津大學,天津 300072;2.中國農業大學,北京 100193;3.索爾福德大學,英國 曼徹斯特 03101;4.華北電力大學,北京 102206;5.波爾多第一大學,法國 波爾多 33000)

為提高企業信譽,維護客戶,提高銷量,相關企業都會設立一個客服崗位,通過客戶終端與客戶聯系,提供銷前服務和銷后服務。然而,若是問題得不到及時、有效的解決,客戶會頻繁地聯系商家客服,如果客服尚未一對一服務,問題就會被重復地記錄,嚴重干擾維修人員的分配,經常造成無人處理問題或者多人同時處理一個問題的現象,不僅降低了客戶服務滿意度,還造成了資源浪費[1]。針對上述現象,如何解決客服終端重復記錄的冗余數據問題成為很多商家客戶服務領域的難點。

冗余數據是指相似度較高或者重復的數據。若是不能有效地將其消除,會直接影響客服服務質量。關于冗余數據消除的研究有很多,大部分方法的原理都是通過計算相似性來檢測重復數據并消除,即計算數據之間的距離,距離越近,代表數據之間的相似性越高,將相似度高的數據只保留一個,即完成冗余數據消除[2]。這種方法操作簡單,效率快,但是只對小規模的數據有效,一旦數據規模很大,這種方法的處理效率就會受到極大的限制。

針對基于相似度的消除方法存在的問題,研究基于決策樹算法的客服終端冗余數據迭代消除方法。通過本研究以期為客服終端冗余數據處理提供新的解決思路,提高面對大量冗余數據的處理能力。

1 基于決策樹算法的客服終端冗余數據迭代消除研究

對于企業和商家來說,客戶終端數據有利于提高服務質量,挖掘潛在客服,為銷售策略制定提供重要依據[3]??蛻舻闹貜妥稍儗е驴头K端數據中存在很多重復記錄,這些重復記錄就被稱為冗余數據。冗余使得數據利用困難。為此,有必要進行冗余數據消除處理。在這里通過引入決策樹算法尋找同類數據,計算同類數據之間的相似度計算,以解決基于相似度的消除方法在處理大規模數據能力較差的問題。

1.1 客服終端數據集成

客服終端冗余數據消除首要環節是集成各個客服終端中的記錄[4]。為此,首先就要將這些客服終端中記錄下的數據集中到一起,以進行后續的處理。在本章節采用數據倉庫法對客服終端中的數據進行抽取,完成數據集成工作。集成過程如圖1所示[5]。

圖1 數據倉庫

數據倉庫中ETL工具是關鍵,主要作用是將數據從各個客服終端中抽取出來,然后對數據進行轉換,使得數據具有一致性,最后將其裝載到數據倉庫當中,等待進一步的處理[6]。

1.2 客服終端數據預處理

為降低后續冗余數據查找和消除難度,需要對集成客服終端數據進行預處理[7]。預處理過程包括兩個環節,下面進行具體分析。

1.2.1 字符類數據處理

1)去掉停用詞

去掉停用詞,即去除文字記錄中沒有實際意義的詞,如“的”“地”“嗎”等。去除方法是對比停用詞詞典[8]。只要是出現在詞典上的詞,文字記錄中都可以直接刪除。

2)中文分詞

中文分詞是指將字符串切分成單獨的詞[9]。具體過程如下:

步驟1:構造分詞詞典。

步驟2:輸入待切分的中文字符串,將其記為D,長度記為L。

步驟3:判斷長度L是否大于1?若大于,進入下一個環節;否則,分詞結束。

步驟4:計算D中每個字開頭詞語的最大詞長,記為l1,l2,…,ln。

步驟5:比較l1,l2,…,ln,并取其中的最大值lmax。

步驟6:比較lmax與L。若lmax>L,讓最大匹配初始長度等于L;否則,則等于lmax。

步驟7:以L或者lmax為最大詞長,進行正向最大匹配。

步驟8:根據匹配結果實現分詞。

步驟9:是否所有記錄都分詞完畢?若完畢,完成所有字符類數據的分詞;否則回到步驟2。

1.2.2 數值類數據處理

1)缺失值填補

針對數據中缺失部分進行填補,以保證數據完整[10]。原理是計算缺失值所在序列的數據平均值,讓平均值填補上缺失位置,計算公式如下:

(1)

式中,n代表缺失值所在序列的長度;x1,x2,…,xn代表除缺失值外序列中所有數值;xi代表缺失數據。

2)離散值處理

離散值主要是指與正常值區別較大的數值,包括異常值、錯誤值。去除方法可以通過分箱操作直接清除[11]。

通過上述幾個部分的預處理工作,客服終端數據更加完整、規范,方便后續的運算和處理。

1.3 基于決策樹算法的客服終端數據分類

若是通過計算所有數據的相似度來消除冗余,消除工作量巨大,工作效率較慢,因此在計算相似度之前,先通過決策樹算法分類客服終端大數據,以降低后期消除工作的難度[12-13]。

選擇ID3決策樹,計算信息增益,并選擇最大信息增益對應的屬性構建分裂規則,實現數據分類[14]。信息增益計算公式如下:

G(X,A)=F(X)-F(X|A)

(2)

其中,

(3)

(4)

式中,G(X,A)代表信息增益;F(X)代表信息熵;F(X|A)代表條件熵;Sk代表集合X中屬于第k類樣本的樣本子集;Xi代表X中屬性A取第i個值的樣本子集;Xik表示Xi中屬于第k類的樣本子集。

ID3構建決策樹過程如下:

步驟1:初始化并設置信息增益的閾值,記為E。

步驟2:輸入m個訓練樣本。

步驟3:創建一個初始節點。

步驟4:判斷樣本是否為同一類輸出?若為同一類輸出,則算法終止,把節點標記為樹葉節點,并標記該類別為Pi;否則進入下一個環節。

步驟5:計算所有屬性,選擇信息增益最大的屬性作為節點的分類屬性,記為Amax。

步驟6:判斷Amax是否小于E?若小于,回到步驟3;否則,進入下一個步驟。

步驟7:分裂屬性中的每一個值都延伸出一個相應的分支,并依據屬性值劃分樣本。

步驟8:判斷分支是否還有樣本?若有樣本,重復上述過程;否則,得到一棵決策樹[15]。

通過訓練樣本,完成了決策樹的構建?;跇嫿ê玫臎Q策樹實現客服終端數據分類。

1.4 客服終端冗余數據迭代消除實現

基于上述決策樹分類結果,計算同類間數據的相似度,以此實現客服終端冗余數據迭代消除。

在整個冗余數據消除過程中,同一類的類間相似度計算和消除器設計兩個步驟最為關鍵[16]。下面針對這兩個關鍵步驟進行具體分析。

1.4.1 類間相似度計算

類間相似度計算,即計算同一類數據間的相似性。計算公式如下:

(5)

其中,

(6)

將相似度Sim(i,j)與設定的判別閾值Q作對比,判斷是否為冗余數據。判斷規則如下:

(1)當Sim(i,j)>Q時,認為數據是冗余數據;

(2)當Sim(i,j)≤Q時,認為數據不是冗余數據。

1.4.2 消除器設計

消除器的作用是根據冗余判斷結果消除冗余數據。消除器結構如圖2所示。

圖2 消除器結構圖

消除器是依據冗余判斷規則,按照時間順序逐一消除,最后留下相似數據中小于閾值Q的數據,組成消除后的客服終端數據,完成冗余數據消除。

2 仿真測試與分析

為測試研究方法在客服終端冗余數據迭代消除中的應用效果,以文獻[2]提出的基于最大時間閾值與自適應步長的數據去冗余方法作為實驗對照方法,與研究方法的實驗結果進行對比。

2.1 測試樣本

客服終端數據測試樣本共有10個,其中前6個為訓練樣本,用于構建決策樹;后4個為測試樣本,用于測試方法的消除效果。各個樣本的數據量、屬性個數以及冗余率如表1所示。

表1 樣本的數據量、屬性個數以及冗余率

2.2 決策樹構建

按照1.3節流程,首先計算屬性的信息增益,選擇最大信息增益的屬性作為分類規則,然后借助8個訓練樣本,通過ID3構建決策樹。以樣本1為例,構建的決策樹結構如圖3所示。

圖3 樣本1的決策樹結構圖

2.3 決策樹分類

利用構建的決策樹對剩余4個測試樣本進行分類,分類結果如圖4所示。

圖4 決策樹分類結果

2.4 冗余數據消除效果評價指標

選擇空間縮減比作為冗余數據消除效果評價指標。該指標計算公式如下:

(7)

式中,R代表空間縮減比;c代表刪除的冗余數據量;C代表樣本數據總量。

2.5 冗余數據消除效果

計算類間數據相似度,完成最終的冗余數據消除處理。根據消除結果計算空間縮減比,結果如表2所示。

表2 冗余數據消除結果

對比表1實際結果,與文獻[2]方法相比,研究方法的空間縮減比更接近真實的冗余率,說明消除效果更好,準確性更高。

3 結 論

客服終端的作用是記錄用戶需求,對制定銷售策略以及提供售后服務都具有十分重要的作用,因此其咨詢記錄的價值非常高。然而,目前由于冗余數據的存在使得客服終端數據的挖掘十分困難。針對上述問題,提出了基于決策樹算法的客服終端冗余數據迭代消除方法。該研究首先通過決策樹對客服終端數據分類,然后通過計算類內數據間的相似度冗余消除。通過測仿真測試,證明了所研究消除方法的有效性。受到研究時間和篇幅的限制,研究深度有待進一步提升。下一階段研究方向為如何改進決策樹算法,因為決策樹算法本身存在一定的缺陷,在一定程度上會影響冗余數據檢測準確性。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲一区二区三区国产精品 | 成人毛片免费在线观看| 欧美精品伊人久久| 亚洲第一成年免费网站| 亚洲水蜜桃久久综合网站| 丁香六月综合网| 日本AⅤ精品一区二区三区日| 高清免费毛片| 欧美福利在线播放| 中文国产成人久久精品小说| 亚洲全网成人资源在线观看| 毛片国产精品完整版| 在线色国产| 在线毛片网站| …亚洲 欧洲 另类 春色| 成人毛片免费观看| 在线播放国产99re| 久久国产乱子| 伊人久热这里只有精品视频99| 91麻豆国产精品91久久久| 成人韩免费网站| 色妞www精品视频一级下载| 日韩一区精品视频一区二区| 成人欧美在线观看| 黄色国产在线| 日本国产精品| 久久婷婷六月| 福利国产在线| 亚洲综合婷婷激情| 免费看黄片一区二区三区| 动漫精品中文字幕无码| 欧美成人综合在线| 日韩精品亚洲一区中文字幕| 激情成人综合网| 国产理论精品| 在线国产你懂的| 小13箩利洗澡无码视频免费网站| 亚洲精品中文字幕午夜| a天堂视频| 在线色综合| 一级毛片在线免费视频| 91久久偷偷做嫩草影院电| 欧美伊人色综合久久天天| 国产成人综合久久| 一级毛片在线免费看| 亚洲天堂日韩在线| 99久久精品免费看国产免费软件| 国产成人高清精品免费5388| 亚洲人成影视在线观看| 激情综合激情| 久久国语对白| 欧美亚洲一区二区三区导航| 免费激情网址| 国产欧美日韩18| 国产黄色爱视频| 亚洲αv毛片| 香蕉蕉亚亚洲aav综合| 国产乱子伦视频在线播放| 欧美日韩中文国产va另类| 国产极品美女在线| 欧美国产综合色视频| 亚洲爱婷婷色69堂| 99ri国产在线| 免费无码AV片在线观看国产 | 毛片在线区| 国产午夜精品一区二区三区软件| 国产成人亚洲精品无码电影| 亚洲精品国产精品乱码不卞| 免费在线看黄网址| 久久精品波多野结衣| 99在线视频免费| 中文字幕2区| 色偷偷综合网| 久久夜色精品国产嚕嚕亚洲av| 精品国产网| 亚洲国产精品不卡在线| 欧美日韩精品综合在线一区| 麻豆精品在线| 国产精品高清国产三级囯产AV| jizz亚洲高清在线观看| 亚洲日韩精品综合在线一区二区| 欧美三级视频网站|