999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向聊天機器人的敏感內容識別研究

2020-07-04 02:27:37朱澤圻
智能計算機與應用 2020年3期
關鍵詞:內容方法模型

朱澤圻

摘要:本文提出在聊天機器人的應用背景下敏感內容的定義,統計了各種分類標準下敏感內容的分布,并在從網絡爬取的問答語料中,分別采用敏感詞表過濾與機器學習方法進行了數據清洗,在提出的敏感內容定義下,召回率達到80%,合格數據留存率達到60%。本文還利用優化后的敏感詞表與啟發式規則,無監督地獲得敏感語料,可有效地大量獲得無關鍵詞的敏感內容,擴增數據合格率可達80%。

關鍵詞: 聊天機器人; 文本分類; 敏感內容識別

【Abstract】 In this paper, the definition of sensitive content as well as the statistical analysis of different kinds of sensitive content in the context of chat robot application are proposed. Sensitive vocabulary filtering and machine learning are used to clean the question-and-answer corpus crawled from the network. Under the proposed definition of sensitive content, the recall rate reaches 80%, and the qualified data retention rate reaches 60%. Unsupervised mining method with optimized sensitive vocabulary and heuristic rules are used to obtain sensitive corpus, which effectively obtains a large number of sensitive content without keywords. The eligibility rate of the expanded data can reach 80%.

【Key words】 ?chat robot; text classification; sensitive content recognition

0 引 言

聊天機器人是一種人機交互系統,通過自然語言模擬人類進行對話。這種系統往往運行在各種平臺上,如個人電腦、社交網絡軟件或即時通訊工具等。聊天機器人主要有2種類型:封閉域聊天機器人進行的是帶有目的的對話,以盡快獲得必要信息、完成任務為目標;開放域聊天機器人進行的則是非任務型對話,也就是所謂的閑聊,以持續推進聊天為目標[1-2]。

時至今日,聊天機器人受到了工業界的廣泛關注。聊天機器人作為人機交互問題的一種解決方案,在智能硬件等領域都陸續進入了實用,發揮了重要的作用,有著良好的商業前景。目前,各大互聯網公司都先后推出了自己的聊天機器人產品,如微軟的小冰、阿里的店小蜜、百度的度秘等,以聊天機器人為主打產品的創業公司也在陸續涌現。

聊天機器人產生回復的方式主要有3種:基于人工編寫的規則,基于從問答語料庫的檢索和基于模型的生成。其中,檢索和生成方法都對語料庫有較大的需求:在檢索過程中,直接在問答語料庫中匹配問題,獲得回答;而在生成過程中,也需要使用已有的語料庫訓練模型。目前的聊天機器人都非常依賴大規模語料庫。

由于規模較大,聊天機器人的語料庫往往是從公開網絡上爬取的。然而,互聯網上不僅有理性的討論,也有不理智的辱罵、仇視與偏見。微軟曾經把聊天機器人程序Tay上線到twitter上,通過與網友的互動學習對話,結果半天之內就學會了仇視人類和種族歧視的言論,引發了廣泛的爭論、質疑與反思[3-4]。要承擔程序研發者的社會責任,就需要從語料庫的構建過程開始,清洗敏感內容。

當前的敏感內容清洗手段主要目的是阻止不良信息在互聯網上擴散,比較重視主題上的敏感內容[5]。但對于面向商業化應用的聊天機器人而言,除了上述明顯有違國家相關法律法規的信息之外,對于可能傷害用戶的內容、可能攻擊其他廠商引發糾紛的內容也是不宜發表的敏感信息。此外,已有的敏感內容清洗系統往往構建靜態的知識庫與規則,不利于持續的擴充;然而聊天機器人系統需要持續從互聯網中爬取語料,而隨著時間的推移,也一定會有新的敏感內容出現,需要有擴展能力的捕捉方式。本文的目標是設計一個面向聊天機器人的敏感內容識別方案,涉及的工作包括研發一個敏感內容的清洗系統和一個敏感語料的擴增系統。

1 相關研究

1.1 敏感內容的定義

對于敏感內容的定義,以往的研究者也有多種看法。目前學界普遍認為,敏感內容分為2類。一類是主題上的敏感內容,另一類是態度傾向上的敏感內容[5-6]。對于主題上的敏感內容,只要識別出了主題就可以直接過濾;而對于態度傾向上的敏感內容,則需要進一步判斷態度傾向。具體來說,如果一對問答提及淫穢色情的內容,那么這對問答就可以直接過濾掉;然而,如果一對問答提及的是一個犯罪事件,則需要進一步分析發言者的情感傾向、評價的對象等,最終才能決定這是不是敏感內容。然而,在聊天機器人的背景下,上述定義方式并不能完全適應需求。

迄至目前,聊天機器人的交互能力較低,表達鮮明觀點的需求不高;但與此同時,一旦聊天機器人發表了不恰當的言論,除了給用戶造成不適,還容易造成傳播上的危機,給運營者造成不良影響。在能夠通過爬蟲技術得到大規模語料庫的背景下,相比起查準率,更重要的是查全率。研究可知,若未能全面收錄合理的對話語料不會帶來太大的損失,而錯誤地收錄了敏感語料卻可能給聊天機器人帶來災難。

此外,聊天機器人往往需要與用戶進行一對一的深入交流,聊天機器人的使用者也覆蓋了老年人、中年人、青年人、少年兒童等。一些網絡用語或許在公開網絡上很普遍,但是在與青少年交流時就會變成不良的示范;一些話題或許年輕人能夠接受,老年人卻可能會完全拒絕。因此,敏感內容的定義也需要變得更加寬泛。

1.2 敏感內容識別方法

敏感內容的識別方法可以按照多種標準劃分。其中,比較主流的是敏感詞表方法和語義過濾方法。對此可做闡釋分述如下。

敏感詞表方法,就是構建敏感詞庫,而后從語料中匹配敏感詞,如果能夠匹配成功,則說明語料為敏感語料。敏感詞表方法往往會受到敏感詞表過小、新敏感內容出現以及敏感詞的變形體等因素的制約,有很多的改進方法。余敦輝等人[7]提出了基于決策樹的敏感詞變形體識別算法,通過分析字形、讀音等信息,構建決策樹,并識別敏感詞。

語義過濾方法是指綜合語義信息進行過濾。劉梅彥等人[5]先采用主題信息過濾,判斷模型是否牽涉敏感話題,再進行傾向性過濾,去除態度敏感的內容。呂濱等人[6]根據語義關系,根據語義框架表示不同,將文本分成了4種模式。接下來,分別把已過濾的文本內容和被過濾的文本內容填充語義框架,并計算相似度,從而判斷是否需要過濾。

上述方法中,敏感詞表方法即使解決了變形體問題,詞表的覆蓋面以及新敏感詞的納入仍然高度依賴人工操作;語義過濾方法需要使用語義分析工具進行處理,存在誤差累積的問題,而且語義框架也是高度依賴人工定義的內容。在聊天機器人的應用背景下,有較大的局限性。

2 敏感內容的定義、分類與分布

2.1 敏感內容的定義與概念

經典看法認為,敏感內容分為主題上的敏感內容,與態度傾向上的敏感內容[5-6]。對于聊天機器人而言,分析敏感內容不能夠脫離其依存的客觀條件。聊天機器人是一種能夠在開放或封閉平臺中與用戶交互的程序,因此聊天機器人也要“遵紀守法”,不能發表違法、違規或不道德的內容。聊天機器人的設計目的是與用戶繼續進行持續、愉快的交流,因此聊天機器人也不應該主動發表令用戶感到不適的內容,更不能夠對用戶進行言語上的攻擊。最后,聊天機器人往往會面對廣大的用戶群體,對于一些機構、人物或事物的不恰當評價也容易引起較大的爭議乃至商業糾紛,因此也應該盡量避免負面的評價。

通過上述分析,可以發現敏感內容有3種層次:首先顯著違反法律或道德、不為社會所容忍的內容;其次是在交談過程中容易讓交談對象感到不舒適、不愉快的內容;最后則是容易引起爭議的評價內容。

聊天機器人的主要回復方式分為規則式、檢索式與生成式。其中,規則式方法需要人工編寫,因此容易控制語料質量,但是無論是檢索式、還是生成式聊天機器人,都需要規模較大的語料庫,而這樣的語料庫往往是從網絡中爬取構建的。盡管各大網絡社區都有盡量避免不友善內容的相關制度與規定,然而,詞匯的豐富性、語言表達方式的多樣性以及社會熱點的實時性使得公開網絡上大量存在著敏感內容。

因此,在語料庫構建階段就清洗掉敏感內容,是聊天機器人技術應用的重要步驟。

2.2 敏感內容的分類與分布

敏感內容的分類有2個視角。其一是內容的視角,關注敏感語料具體而言包含什么內容;其二是明顯度的視角,關注敏感語料有多容易識別。本文從新浪微博中隨機爬取了360 000條微博及其下的評論,從中隨機抽出了10 000對問答。通過人工初步標注,發現敏感內容占比約為29%。隨后,本文又抽取敏感內容中的500對問答,分別從上述兩個視角考察了敏感內容的分布。

2.2.1 敏感程度角度的分類與分布

從明顯程度上說,根據有無敏感詞可以進行初步劃分;對于前者,又可以根據敏感詞的明顯程度做進一步劃分。總體來說可分成3類,即:有明顯敏感詞的內容、只有隱晦敏感詞的內容、不包含敏感詞的內容。研究可得,敏感內容在明顯程度上的分布見表1。

分析表1可以發現,盡管帶有明顯或隱晦敏感詞的數量相當可觀,也有相當大一部分數量是沒有敏感詞的。同時,聊天機器人的語料清洗更重視敏感內容的召回率、而非準確率。因此,在這個任務上,敏感詞過濾方法不會得到理想的效果。

2.2.2 內容角度的分類與分布

從內容上說,敏感內容主要分為以下情況:

(1)犯罪、違法、違規內容:牽涉國家、社會、政府機關、政治制度、政策法規、政治人物、宗教信仰、恐怖主義等的內容。

(2)淫穢色情內容:描寫性行為,性交,性技巧,性犯罪,與性變態有關的暴力、虐待、侮辱行為以及心理感受的內容,色情淫蕩形象等的內容。

(3)不友善內容:針對個人、人群、地域與非公務組織機構的攻擊性觀點或陳述,對人輕蔑、不尊重的內容。

(4)負面評價:對公司企業、各類產品和社會名人等公共領域進行批評、指責的觀點、陳述內容。

(5)消極內容:反映不符合主流價值觀的思想傾向,傾向社會陰暗面的內容。

進行統計后發現上述內容的分布情況詳見表2。

分析表2可知,不友善的部分占了敏感內容的一半以上,居于首位,這是因為互聯網上的聊天有相當一部分是以不尊重的態度進行的;這些內容在互聯網平臺上或許因可以制造流量與熱度而得到容忍,但在聊天機器人中則一樣是不合適的內容。僅次于其后的是消極內容,這部分內容談論的是一些社會的負面信息,在公開網絡上往往也是正常的討論,但也同樣不宜出現在聊天機器人的語料庫中。

接下來,若再考察其中有明顯敏感詞的項目的比例,就會發現,消極內容、負面內容、不友善內容這三項往往都有相當數量是不帶有敏感詞的。這也決定了敏感詞過濾方法不能很好地識別這些內容。同時,即使是在犯罪違法或淫穢色情這兩個類別中,有明顯敏感詞的內容也不到總體的一半。

2.3 小結

通過統計分析,可以發現敏感內容中有很大的比例不包含敏感詞;同時,相比起人們熟悉的犯罪違法違規內容或淫穢色情內容,比例更大的卻是不友善內容和消極內容,而且其中的很大部分內容也并不包含敏感詞。

3 敏感內容的識別方法研究

本文主要使用傳統的敏感詞表方法和bert文本分類模型[8]進行了敏感內容清洗的實驗。除了傳統的在準確率P、召回率R以及F-值等,本文還引入了2個新的評價指標:清洗結果可用度(P_normal)與有效信息留存度(R_normal)。其中,清洗結果可用度是指,清洗完畢后的信息中不敏感內容的占比,可以反映清洗完成后的數據有多少可用,而有效信息留存度則是指不敏感內容在清洗完成后剩余的比例,可以反映保留了多少有效信息。

本文從新浪微博中隨機爬取了360 000條微博及其下的評論,從中隨機抽出了20 000對問答,分三次先后標注了5 000對、5 000對和10 000對數據。其中,第一次標注的數據作為測試集,后續標注的數據作為訓練集。

3.1 敏感詞表方法

本文首先從網絡收集了8個敏感詞表(總共含約7萬詞)并集成到一個敏感詞表中,同時將集成的詞表在收集到的微博全集中統計出現次數,去掉沒出現過的詞,再按頻次從高到低,人工辨別詞語的可靠性,進行人工的刪除、改寫或擴增,保留了2 714個敏感詞,得到優化后的詞表。在測試集上分別測試了2個詞表的表現,詳見表3。

顯然,無論是哪種詞表,準確率雖然相對較高,但是召回率都很低,遠遠達不到任務所需要的標準。同時還可以發現,優化后的詞表雖然準確率有所降低,卻在召回率上有顯著的提升,在后續的任務中可以起到更好的作用。

3.2 bert文本分類模型

本文采用了Google公開的bert預訓練模型,該模型在各項自然語言處理任務中都能起到很好的效果。本文借助這一預訓練模型構建文本分類器,先后采用了5 000對、10 000對以及兩者組合的數據集進行訓練,再在訓練集上測試,敏感閾值為0.5,得到結果見表4。

顯然,對標注數據的擴增可以有效提升召回率與清洗結果可用度,數據越多模型性能越好。

3.3 兩者相結合的方法

本文進一步嘗試結合bert模型與敏感詞表方法。具體來說,對每對輸入內容進行2次判斷。第一次使用bert模型辨別是否為敏感內容,第二次用敏感詞表辨別是否敏感內容,任意一次判斷為敏感內容就算是敏感內容。得到結果見表5。

因此,加入優化詞表可以在bert分類模型的基礎上進一步提升性能。

4 敏感內容的擴增方法

根據此前的實驗,可以發現,采用分類模型的情況下,擴增訓練集的大小可以提升模型性能。而參考各模型的清洗結果可用度,可以發現已有結果的清洗可用度都比較高,因此擴增不敏感內容并不困難,難點在于敏感內容的擴增。

對于敏感內容的擴增有2個思路。其一,直接通過敏感詞的檢索,獲得擴增的問答對;其二,通過借助微博文本結構化的信息,從微博中擴增問答對。以下將主要從擴增的內容數量和人工評價得到的合格率兩方面來考察敏感語料擴增效果。

4.1 敏感詞表直接識別法

本文采用此前優化后的敏感詞表,逐個識別微博及其回復構成的所有問答對,提取包含敏感詞的問答對,分別考慮只包含1個關鍵詞和包含2個關鍵詞兩種情況。得到的結果見表6。

由表6可以看到,隨著敏感詞數量的增加,敏感詞表擴增方法的合格率雖然上升,但同時收集到的敏感語料數量迅速下降。通過對具體結果進行分析,還能發現若干個敏感詞對應的敏感內容比例迅速提升。說明單純使用敏感詞表過濾難以構建起大量、穩定的敏感詞表。

4.2 結合詞表的敏感內容挖掘方法

本文采集的每條微博數據以樹狀結構保存。父節點為微博以及相關信息,同時有一個以上的子結點,為對該微博的評論;子結點也可以有子結點,為對該條評論的評論。樹的深度最大為3。

本文認為,如果同一條微博下,大多數評論都是圍繞著敏感內容,那么一定有一定數量的微博包含著敏感詞,且微博整體也都是明顯或隱晦的敏感內容。對于敏感詞又可以細分為2種,一種是語氣上的敏感詞,另一種是主題上的敏感詞。如果微博中有足夠比例的評論都包含語氣上的敏感詞,那么可以相信微博底下大多數都是語氣令人不舒服的評論;而如果微博中包含若干個主題上的敏感詞,那么可以相信微博是在圍繞著敏感的話題展開對話。

基于上述思考,控制2個變量篩選微博數據:一是微博中包含語氣敏感詞的評論比例b,二是微博中包含的主題敏感詞數目k。改變k時,把b固定在0.1;改變b時,把k固定在0,得到實驗結果見表7、表8。

顯然,在擴增的絕對數量上,結合微博結構信息可以增加擴增內容的數量,并且也能夠保證合格的敏感內容數量保持在較高的水平,顯著優于使用敏感詞表直接進行擴增。

此外,根據數據可以發現,無論是哪個篩選指標,單純提高指標并不會一直提升合格率,指標過高時合格率反而會回落。猜測可能是因為詞表中的一些敏感詞存在相關關系,把指標提升得過高會導致擴增的數據偏向這些敏感內容。

5 結束語

當前,聊天機器人系統仍然非常依賴于語料庫。構建語料庫的過程中,敏感內容清洗是一個重要的步驟,且面向聊天機器人系統的敏感內容清洗與一般的敏感內容清洗相比,要求要更嚴格,過濾失敗的風險也會更高。

本文通過分析新浪微博中獲取的問答語料數據,得到了2個結論:敏感內容多數都以隱晦的形式出現;不同類別的敏感內容占比并不均衡,且總體來說都傾向于隱晦形式。本文提出,衡量敏感內容清洗系統除了使用傳統的準確率、召回率和F-值,還可以考慮清洗內容可用度與有效內容留存度,以衡量清洗后數據的清潔程度以及有用數據的保留程度。

本文提出了一種基于在無標注數據上優化敏感詞表的方式,并實現了一個結合敏感詞表與分類模型的敏感內容清洗系統。通過實驗發現,對敏感詞表使用恰當的清洗方法可以提升其性能,擴充分類模型的訓練數據也可以提升分類模型的表現,而且結合分類模型與敏感詞表可以實現最好的性能。

本文提出了一種在微博結構語料中,借助敏感詞表,提取不包含敏感詞的敏感內容的方法,并且在內容抽取數量與質量上都超過了直接使用敏感詞表抽取的效果。同時也發現,單純增加主題敏感詞的數量要求或語氣敏感評論的比例要求并不能一直提升擴增效果。

本文中最好的擴增方法也只有80%的合格率。擴增所得內容中包含的20%普通數據的構成與性質,以及具體的去除方法,可以作為進一步研究的內容。

本文提出了清洗低質量敏感詞表的方法,而擴增敏感詞仍然需要人工介入。如何在已有的研究的基礎上,持續擴增敏感詞表,也是亟待深入研究的重要內容。

更進一步,如果有辦法利用敏感詞表持續擴增敏感語料,又可以借助敏感語料的內容持續擴增敏感詞表,將可以實現敏感數據清洗的良性循環,也是值得研究的內容。

參考文獻

[1] ?劉挺. 人機對話技術的進展[R]. 深圳:中國計算機學會,2017.

[2]張偉男,劉挺. 聊天機器人技術的研究進展[J]. 中國人工智能學會通訊,2016(6):17.

[3]陳昌鳳. 讓算法回歸人類價值觀的本質[J]. 新聞與寫作,2018,9(1):1.

[4]董青嶺. 人工智能時代的道德風險與機器倫理[J]. 云夢學刊,2018,39(5):39.

[5]劉梅彥,黃改娟. 面向信息內容安全的文本過濾模型研究[J]. 中文信息學報,2017,31(2):126.

[6]呂濱,雷國華,于燕飛,等. 基于語義分析的網絡不良信息過濾系統研究[J]. 計算機應用與軟件,2010,27(2):283.

[7]余敦輝,張笑笑,付聰,等. 基于決策樹的敏感詞變形體識別算法研究及應用[J/OL]. 計算機應用研究:1-7[2019-03-14].https://doi.org/10.19734/j.issn.1001-3695.2018.11.0792.

[8]VASWANI A , SHAZEER N , PARMAR N , et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach, California,USA:Neural Information Processing Systems Foundation, Inc., 2017:5998.

猜你喜歡
內容方法模型
一半模型
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: www.亚洲一区二区三区| 婷婷亚洲天堂| 91福利免费| 欧美成人精品高清在线下载| 亚洲视屏在线观看| 亚洲综合香蕉| 欧美人与牲动交a欧美精品| 欧美日韩资源| 久热re国产手机在线观看| 久久久久亚洲AV成人网站软件| 亚洲一区二区黄色| 久久黄色毛片| 国产欧美日韩专区发布| 日本在线欧美在线| 亚洲欧洲日韩国产综合在线二区| 992Tv视频国产精品| 久久男人资源站| 亚洲成人黄色在线观看| 人妻丰满熟妇αv无码| 国产黄色免费看| 直接黄91麻豆网站| 久久综合五月婷婷| 国产成人精品一区二区| jizz亚洲高清在线观看| 2021精品国产自在现线看| 亚洲成人精品久久| 国产精品男人的天堂| 日本一区高清| 国产成人一二三| 国产乱人视频免费观看| 久久黄色一级视频| 成人亚洲天堂| 97青青青国产在线播放| 欧美中文字幕一区| 91精品综合| 国产又粗又爽视频| 黄色在线不卡| 日本免费福利视频| 日韩123欧美字幕| 人妻丰满熟妇AV无码区| 国产尤物jk自慰制服喷水| 热思思久久免费视频| 亚洲美女操| 亚洲无码A视频在线| 日本亚洲成高清一区二区三区| 亚洲国产第一区二区香蕉| 国产精品yjizz视频网一二区| 在线亚洲精品福利网址导航| 青青青伊人色综合久久| 亚洲久悠悠色悠在线播放| 色久综合在线| 欧美国产在线一区| 99久久无色码中文字幕| 精品撒尿视频一区二区三区| 国产美女丝袜高潮| 久久黄色小视频| 久久亚洲美女精品国产精品| 片在线无码观看| 日韩中文精品亚洲第三区| 精品自拍视频在线观看| 在线免费观看a视频| 欧美精品高清| 激情影院内射美女| 91成人在线免费视频| 亚洲精品午夜天堂网页| 毛片在线区| 亚洲乱码精品久久久久..| 欧美 亚洲 日韩 国产| 成人免费一级片| 伊人久久婷婷五月综合97色| 精品国产aⅴ一区二区三区| 欧美成a人片在线观看| 91精品国产一区自在线拍| 亚洲人成人无码www| 免费一极毛片| 久久国产亚洲偷自| 男女男精品视频| 97se亚洲综合不卡| 国产精品永久在线| 亚洲a免费| 国产午夜一级毛片| 怡红院美国分院一区二区|