999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主題模型自動標記方法研究綜述

2023-12-08 11:48:32何東彬朱艷紅任延昭褚云霞
計算機與生活 2023年12期
關鍵詞:排序文本方法

何東彬,陶 莎,朱艷紅,任延昭,褚云霞+

1.石家莊學院 河北省物聯網安全與傳感器檢測工程研究中心,石家莊 050035

2.中國農業大學 農業農村部農業信息化標準化重點實驗室,北京 100083

3.石家莊郵電職業技術學院 河北省物聯網智能感知與應用技術創新中心,石家莊 050021

4.北京工商大學 計算機與信息工程學院,北京 100048

主題模型(topic model)是一種從非結構化數據中自動提取隱含語義主題的生成概率模型,常用于大規模語料庫和離散數據建模。該模型將語料庫中的文檔理解成特定隱含主題的分布,因而可以按照隱含的語義特征來發現抽象的主題,并通過詞列表的形式表示。目前最為流行的主題模型是2003年由Blei等人[1]提出的潛在狄利克雷分配模型(latent Dirichlet allocation,LDA),在文本分類、異常檢測、推薦系統、文本摘要、觀點抽取、詞義歸納、情感分析、信息檢索等諸多領域[2-3]得到廣泛應用,并快速發展。但由于主題采用詞列表形式,如表1 所示,通常會對用戶正確理解造成一定的障礙。特別是在用戶缺乏主題領域相關背景知識的情況下[4],其對主題的理解可能是破碎、片面和不準確的。

表1 APNews某主題的top-20主題詞Table 1 top-20 terms of a topic in APNews

為提高主題模型發現結果的可解釋性,通常的做法是進行主題標記[5-6]。具有特定領域知識的專家給出的主題標簽通常更容易理解,對主題的說明也更加充分和準確[7]。但面對海量的語料數據,人工標記主題工作耗時費力,甚至成為不可能完成的任務。此外,局限于個人認識,標簽的客觀性也會受到影響。因此,利用機器進行自動標記,可提高主題標記的效率并增強準確性和客觀性[8]。

本文與凌洪飛等人[9]的主題自動標記綜述文獻相比,不同于其以生成來源為線索,對現有主題標記方法進行分類比較,本文按照生成主題標簽的不同形式分類,創新性地采用文本特征表示方法與主題標記模型所使用的技術相結合,并從這兩個層面對現有研究成果進行總結,詳細描述了不同方法的建模過程和適用場景,從全局和微觀兩個不同視角對現有方法進行闡述和分析。結合具體應用和相關領域的創新性研究,指出基于預訓練語言模型以及多種深度學習技術相融合的方法應是未來突破的重點和方向。

1 主題模型介紹

對主題建模的研究,在早期通常利用空間向量模型[10-11]將相關文本聚合到同一類簇下。但該方法只對文本進行簡單分類,未深入挖掘文本所蘊含的語義信息,也未對用戶理解挖掘結果提供幫助。

為解決上述問題,Deerwester 等人[12]提出了潛在語義索引或潛在語義分析方法,利用文本語義挖掘出更深層次的聚類信息(主題)[13]。該方法利用奇異值分解,通過將數據從高維空間映射到低維語義空間,以獲得抽象的主題分布,并降低了整體開銷。缺點是時間復雜度高,通過分解矩陣發現的主題解釋性不強,不能區分一詞多義的情況[14]。

針對該問題,Hofmann[15]提出一種概率潛在語義索引(概率潛在語義分析)模型,認為一篇文檔由多個主題組成,且主題詞服從于多項式分布。由于隱含了高斯分布假設,更符合文本特性。因其利用強化期望最大化算法訓練模型參數,所以解決了同義詞和多義詞問題。由于其并非完備概率模型,會逐漸增長并出現過擬合現象[14]。

2003 年,Blei 等人[1]在概率潛在語義索引基礎上,提出一種由文檔、主題和單詞構成的三層貝葉斯概率模型,潛在狄利克雷分配(LDA)將文檔看作詞袋的集合,根據主題分布,以及詞對主題的隸屬度,生成集合中的文檔。LDA 不僅克服了模型隨語料數量增長而逐漸增大的缺點,同時也避免了過擬合問題。如圖1所示。

圖1 LDA模型表示Fig.1 Graphical representation of LDA model

LDA 本質上是一種無監督學習算法,其生成一篇文檔的過程如下:

1.文檔長度為服從泊松分布值N

2.從Dirichlet(α)分布中取出第m個文檔的主題分布θm

3.Forn=1 toN:

4.為當前第m個文檔的第n個詞從多項式分布θm中抽取出一個主題Zm,n

5.從Dirichlet(β)分布中取出第k個主題的主題詞多項式分布φk,且k=Zm,n

6.選擇一個服從φk多項式分布的詞wm,n,作為第m個文檔的第n個詞,將其寫入該文檔

α和β是先驗參數,采用近似估計算法(變分期望最大化或折疊吉布斯采樣)來估計參數θm和φk。前者推斷速度快,但模型參數估計不如后者準確;后者易于實現,缺點是較前者收斂速度慢。

LDA 模型出現后,因其擁有良好的先驗概率假設和簡單高效的抽樣推理算法,逐漸成為主題建模事實上的標準化模型[9],并廣泛應用于文本分類、檢索、摘要和主題演化等領域,開啟了主題模型研究的熱潮,相關研究成果也不斷涌現[16-21]。

2 主題標記方法

對現有主題自動標記方法,單純按照主題標簽的表現形式分類,有三種類型:基于短語、摘要和圖片的主題標簽[22]。如圖2 所示,列舉了生成這三類主題標簽所對應的所有主題自動標記方法。

使用形式簡潔的短語或概念[2-3,7-8,23-36]對主題進行標記,標簽短小凝練,具有高度概括性,適合用戶快速瀏覽主題內容。例如對基于APNews語料庫[2,4,37]進行LDA 主題建模,其中某一主題中的top-20 主題詞如表1 所示,可采用上位詞“economy”作為短語標簽來解釋主題。

雖然采用短語主題標簽可幫助用戶理解主題,但在主題含義豐富或涉及領域較為寬泛時,因長度較短,實際效果不能令人滿意。若當前短語本身具有多重含義,在缺乏前后文的情況下,無法確定其真實含義。此外,如果當前主題中的重要主題詞之間缺乏內在聯系,則很難找到一個合適的短語去準確地描述主題。對用戶來說,一個不恰當的主題標簽只會使得正確理解主題變得更加困難[4,37]。

為克服短語主題標簽的缺陷,通常需要信息豐富、描述充分的方式。因此,采用長文本來描述主題成為更佳的選擇。長文本主題標簽可單獨使用,也可作為短語標簽的補充[4]。目前,主要通過文本摘要技術來生成長文本主題標簽,以提供更豐富和多樣的信息,幫助用戶充分理解主題的內涵[4,37-41]。

此外,還有研究者采用圖片或文本配圖形式的主題標簽[22,42-44]在特定場景下對主題進行解釋。由于圖片標簽表達較為生動、直觀,且具有跨越語言鴻溝的優勢,對幫助用戶理解主題具有積極作用。三種不同主題標簽的優缺點及適用場景總結如表2所示。

表2 三種類型的主題標簽Table 2 Three types of topic labels

Sorodoc等人[43]認為不同主題應選擇不同類型的主題標簽,某些主題可能適用短語解釋,有些主題可能適合長文本描述,另外一些主題可能更適合采用圖片展示。綜合來看,三種不同形式的主題標簽各有特點,使用時需要考慮具體的應用場景。不論采用哪種形式,對主題標簽的質量要求是沒有區別的,生成的標簽應符合如下標準[2,4]:(1)相關性,生成主題標簽與主題在語義上高度相關;(2)覆蓋性,生成主題標簽包含更多主題詞,則多樣性越強,冗余度越低;(3)區分性,不同主題標簽間的區別性越大,說明所表達語義的區分度越高,標簽質量更高。

3 基于短語的主題標記方法

三種類型的主題標簽差異明顯,其適用的范圍和場景也不同。本章將按主題標簽的類型,對不同的主題標記方法分類闡述。

Aletras 等人[45]認為,短語主題標簽對用戶更友好,更容易理解和使用。在文獻檢索任務中,短語標簽可以很好地概括主題主旨,短時間內幫助用戶檢索到更多的相關文獻[45]。此外,當用戶需要快速了解語料庫內包含文檔的種類、范疇等信息時,簡短且概括性強的短語標簽就成為不二之選。目前,主題自動標記方法大多采用短語主題標簽,詳情列表如表3所示。

3.1 基于統計方法

早期的主題自動標記研究通常將主題詞的頻率視為基本特性之一[34],大部分研究利用文本的淺層特征,例如基于BOW 和N-gram[2-3,7-8,34,46]生成候選標簽,再通過主題和候選標簽間的相似度排序確定最優主題標簽。

Mei等人[2]最早提出一種使用短語或N元語法對主題進行標記的方法,將主題標記過程視為一個優化問題,即單詞分布間的KL(Kullback-Leibler)散度最小化,以及主題模型和主題標簽間的互信息最大化。其主要利用短語的淺層特征,并根據當前短語和主題模型之間的KL 散度對候選標簽排序,以選取最優短語標簽。Mao 等人[46]采用與Mei等人[2]類似方法,使用塊分析(chunking parsing)和N元語法檢驗(N-gram testing)[49]方法從文檔中抽取候選標簽。不同的是,其利用了層次主題模型的結構化信息,分別基于全局詞頻權重和Jensen-Shannon 散度對每個主題的候選標簽進行排序,以獲得最佳的主題標簽。

相對Mao 等人[46]提出的對層次主題模型主題自動標記方法,Magatti等人[8]更早提出一種利用Google Directory(谷歌目錄服務已于2011 年7 月21 日停用)構造主題樹對層次主題模型進行自動主題標記的方法ALOT(automatic labeling of topics)。該方法包含兩部分:首先通過谷歌目錄(當前已停用)構造的主題樹獲得主題層次結構,然后基于一組相似性度量(Cosine、Overlap、Mutual、Dice、Tanimoto和Jaccard),來尋找最優的主題標簽。通常,層次主題模型將主題組織為層次結構,其中每個主題都是從更通用的主題中派生而來。這種層次結構可以幫助人們更好地理解文本的主題結構,因此也能在更高的概率上生成質量更佳的主題標簽。

實踐中,主題標記任務通常需要大量的標注數據來訓練標記模型。然而,由于數據收集和標注的成本很高,很難在每個領域中都獲得足夠的標注數據。因此,遷移學習成為解決這個問題的一種有效方法。Lau等人[7]提出了一種使用無監督學習技術對候選標簽進行排序的主題標記方法。對給定主題,首先選擇top-N個主題詞在英文Wikipedia(https://www.wikipedia.org/)中進行查詢,并從得分最高文檔的標題中獲取候選標簽。Lau 認為一個良好的主題標簽應該和主題詞之間存在著某種較強的聯系,因此使用了以下幾種基于詞法的關系評估措施:點間互信息(pointwise mutual information)、T檢驗(student's t-test)、Dice 系數(Dice's coefficient)、皮爾森卡方檢驗(Pearson's χ2test)和似然比檢驗(likelihood ratio test)等。Lau使用了一個寬度為20的滑動窗口,在維基百科語料上進行分析,以獲取候選標簽和主題詞詞頻統計信息,最后計算每個主題的top-10主題詞與候選標簽間的多個關系評估得分,并將同一個候選標簽不同的評估分數進行算數平均,最終根據每個候選標簽的平均分數獲得最佳主題標簽。

采用遷移學習方法,利用從外源性語料庫中已獲得的知識,不僅可以減少目標領域的標注數據量需求,也能獲得更豐富和概括能力更強的候選主題標簽,模型的泛化能力也得到提升。但該類方法也存在一定的局限性:首先,外源語料庫與當前文本集應存在一定的共通性,否則難以實現主題標簽的遷移;此外,外源性主題標簽往往未出現在當前文本集中,對目標主題的覆蓋度和準確性可能會存在偏差。

在主題標記任務中,相對于使用傳統的BOW 和N-gram,使用稠密向量表示文本有助于提高標記模型的性能,因為其可以更好地表示文本之間的相似性和差異性,所以使模型更準確地分類文本。Kou等人[3]使用OpenNLP[50]對給定主題的全部文檔進行解析,抽取出包含top-10 關鍵詞的短語,作為候選標簽集。為評估主題與候選主題標簽之間的相關性,將該主題與候選標簽映射到同一向量空間,并基于LTV(letter trigram vectors)、CBOW(continuous bag-of-words)和Skip-gram[51]三種不同詞向量表示計算余弦相似度,以選擇得分最高的標簽。

word2vec[51]是一個包含CBOW 和Skip-gram 兩種模型的框架,只能對單個單詞進行建模,無法直接處理文檔級別的語義關系。相比之下,doc2vec[52]可以將整個文檔表示為一個向量,從而能夠更好地處理文檔級別的語義關系。基于此,為獲取COVID-19大流行期間的熱點事件,Shahriar 等人[36]提出一個基于word2vec和doc2vec的主題框架SATLabel,用于從COVID-19 相關的推文中提取主題并自動標記。該框架利用情感術語和方面術語的單字特征通過LDA輸出主題聚類,從情感詞和方面術語中各取20 個組成不同向量集,利用軟性余弦相似度找到與主題最為接近的主題標簽。

相比word2vec 和doc2vec 只能處理局部上下文,GloVe[53]是一種使用全局統計信息生成詞向量的方法,該方法不僅考慮了局部的上下文,還考慮了整個語料庫的全局統計信息,因此可以更好地處理稀有詞匯,但仍無法處理上下文信息。BERT(bidirectional encoder representations from transformers)[54]是一種預訓練語言模型,可用于處理上下文動態相關性信息,在許多自然語言處理任務中都優于其他方法。因此,針對層次主題中不同級主題詞和候選標簽之間可能不存在共同術語,以及無法通過詞匹配了解二者相關關系的問題,Tiwari等人[34]使用200維的GloVe和384 維的BERT all-Mini-LM-L6-v2(https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)詞嵌入,向量化語料庫、主題以及候選標簽,通過動態上下文語義的引入,確保層級標記的主題一致性,可有效利用主題間的并列和從屬關系來提高主題標記的有效性和準確性。

3.2 基于圖排序方法

自動主題標記算法在生成候選標簽后,通常會計算其與主題之間的距離(相關關系)并以此排序選擇最優的主題標簽。例如,Mei 等人[2]利用KL 散度,Mao 等人[46]采用一組相似性度量方法,包括Cosine、Overlap、Mutual、Dice、Tanimoto 和Jaccard 距離,Lau等人[7]使用PMI(pairwise mutual information)、t-test、χ2test 和LLR(log likelihood ratio)等方法。但上述方法僅限于直接計算候選標簽和主題間的關系,并未利用到候選標簽間的相互關系和信息。而圖排序算法可以利用結點間的關系,通過隨機游走過程發現網絡中的重要結點或路徑,相較于前述方法僅單純依賴向量空間中的距離(關系)計算方法,可以有效利用不同候選標簽間的相關關系選出更具代表性和概括性的標簽。

Hulpus 等人[55]提出一種基于數據結構化信息的主題自動標記方法,分為四個階段:(1)通過LDA模型發現主題;(2)利用DBpedia(http://wiki.dbpedia.org/)的結構化數據,將top-N主題詞與其中的具體概念聯系起來,進行詞義消歧;(3)所獲概念作為結點,不同結點的分類概念在DBpedia中的從屬關系表示為邊,構建候選標簽圖;(4)利用圖排序的隨機游走算法,迭代得到全部結點的聚焦信息中心度(focused information centrality)值,最后選擇得分最高的結點(對應DBpedia中的概念)成為主題標簽。

相比Hulpus等人的方法,Aletras等人[23]提出一種基于圖排序的無監督主題標記方法。除了利用外源性的知識庫,還引入了谷歌搜索引擎,其覆蓋了大量的互聯網信息,可以提供與特定主題相關的多樣化和廣泛的搜索結果。這些搜索結果可以作為構建主題標記的基礎,從中提取關鍵詞、短語和主題相關的內容。首先,利用Wikipedia 產生候選標簽[7]。然后,對候選標簽排序,包括三個步驟:(1)基于Bing 搜索引擎,使用top-N主題詞進行檢索。(2)利用OpenNLP(http://opennlp.apache.org/)對返回結果中的標題句子進行形式化標記,并將標記詞和搜索結果中的元數據作為結點構建無向圖,基于維基百科作為參考語料庫來計算詞的共現率,并使用歸一化逐點互信息(normalized pointwise mutual information,NPMI)[56]給圖中的兩個相鄰結點的邊賦值。為避免偶然出現的詞共現所導致的噪聲,設定只有當NPMI>0.2 時才認為兩個結點間存在鏈接。(3)通過PageRank 算法[57]進行排序,每個結點(候選標簽)的得分按照其中所包含的所有關鍵詞的權重求和,選擇分數最高的作為主題標簽。

對于生成候選標簽子集后再利用圖排序算法獲取最優解的辦法,在排序過程中未再考慮候選標簽和主題間的關系,可能會導致主題標簽的重心發生偏移。針對該問題,Sanjaya 等人[28]利用Lau 等人[7]的方法生成候選標簽子集后,構建了一個包含主題、詞、維基百科文章和候選標簽的異構圖,引入了更多維度的相關性特征,對排序結果的改善具有積極的意義。但該方法并未考慮不同類型的結點之間是否天然具有平等的關系,以及對投票結果會產生怎樣的影響。特別的,Sanjaya 認為如果能夠獲取語料庫中主題領域與候選標簽間關系的先驗知識,可能對其排序方法的最終排序結果有積極的影響。

3.3 基于本體方法

短語主題標簽通常將一或多個單詞組合成一個短語來描述主題。其存在以下問題:(1)多義性問題。同一個短語在不同的上下文中可能具有不同的含義。例如“apple pie”可以是一種美食,或是一個品牌。(2)歧義性問題。同一個短語可能被用于描述不同的主題。例如,“social media”可能被用于描述互聯網媒體領域或用于描述社交網絡。(3)連貫性問題。一些短語可能不具備連貫性,難以形成一個完整的主題。例如,“in the news”可用于描述不同的主題,但之間并不存在明顯關聯。(4)預定義問題。使用短語主題標簽需事先定義,因此無法處理一些新出現的詞匯或短語。

一些研究者[27,30,32,35]嘗試使用本體(ontology)方法來解決上述問題。先驗知識是本體方法非常重要的一部分,為本體的構建和推理提供了基礎。本體方法的核心目標之一就是將先驗知識形式化地表示為概念、關系和約束的集合,并利用這些先驗知識進行推理和語義處理。

本體可以通過手動構建或自動構建(如從現有文本中抽取概念和關系)得到。然后,對于給定的文本,本體方法可以將其表示為一個向量,該向量反映了文本與本體中各個概念之間的關系。例如,可以使用基于本體的詞嵌入技術(如word2vec)來生成文本向量。最后,可使用機器學習方法(如邏輯回歸、樸素貝葉斯、支持向量機等)來構建分類器,輸入文本向量后給出合適的主題標簽。

使用本體方法進行主題標記,通常利用本體中的語義信息對文本數據進行理解和分析,或通過推理機制發現文本中隱含的語義關系和概念;其目標是將本體中的先驗知識與文本特征結合,獲取更準確的主題標記結果。Allahyaria 等人[35]將本體概念和主題模型集成在一個框架OntoLDA(如圖3所示)中,每個主題表示為概念上的多項分布,每個概念是單詞上的多項分布。通過本體概念和主題,以及本體概念之間的關系就可以確定文檔的主題。與已有研究類似,整個過程分為兩個階段:(1)抽取并篩選出與主題密切相關的候選主題標簽。先確定本體概念集C={c1,c2,…,ci,…,cC},然后對當前第j個主題φj和第i個本體概念ci,根據OntoLDA 主題模型的邊緣概率公式p(ci|φj)選取邊緣概率最高的K個本體概念,構建主題語義圖。(2)針對每個主題,提取其主題圖作為子圖,根據語義相似度進行圖排序,以獲取最適合的主題標簽。

圖3 OntoLDA模型表示Fig.3 Graphical representation of OntoLDA model

Allahyaria 等人提出的方法將本體概念集成到LDA 中,提高了主題模型的內聚性,但該方法較為復雜,適用性不高。與其他主題模型一樣,OntoLDA 的性能受到主題數的影響。如果主題數設置得不當,可能會導致一些主題被合并或分裂成不合理的子主題,降低了本體概念和主題的匹配度,從而削弱了主題標簽的準確性。

為提高本體概念和主題的匹配度,Kim等人[27]提出一種基于社會網絡分析(social network analysis,SNA)和本體的方法來標記科研文獻中有影響力的主題。該方法利用SNA 方法選擇熱點主題,為增強主題的可解釋性,構建了一個建立在Wikipedia 上的挖掘結果集UniDM 本體,考慮到主題間的相互關系,可利用多種方法在UniDM 和主題間進行映射,例如通過決策樹和K近鄰等方法建立起對主題的映射關系,有效提高了主題和候選標簽的匹配程度,對最優的主題標簽的選擇具有積極作用。

為進一步提升對主題候選標簽和主題關系的理解,提取文本的層次特征,將深度學習技術與本體方法結合,Zosa 等人[30]針對多語言主題自動標記,提出一種本體映射方法,將主題映射到與語言無關的新聞本體中的概念。Zosa 將本體映射問題視為一個多標簽分類任務,利用一個基于Transformer 的微調預訓練語言模型SBERT(sentence-BERT)[47],將主題表示為上下文相關的嵌入形式。其中,一個主題可以被分類為屬于本體中的一個或多個概念。需要注意的是,新聞本體分類概念與具體語言無關,其目的是為了無需額外訓練就可以在多種語言上生成主題標簽。

本體方法的優點是能夠利用豐富的領域知識,提高主題標記的準確性和一致性,但建立和維護一個本體結構需要耗費大量的人力和時間。為降低構建本體的成本,Kinariwala 等人[32]使用開源軟件tool-Protégé 生成了一個涉及“體育”“犯罪”“政治”和“環境”四個領域的本體CEPS-Ontology,并將主題中的top 詞匯作為輸入,獲得最多歸屬計數的上位詞被選為該主題的標簽。該方法局限于上述四個領域的新聞語料,并且需要事先構建本體作為主題標簽池,主題標記質量與特定本體相關,其適用性受到限制,只能應用于特定領域。從上可知,本體方法對新領域或新概念的適應性較差,需要手動或自動擴展本體結構以涵蓋新的概念和關系。

3.4 基于神經網絡

主題標記是一項極具挑戰性的NLP 任務,目前仍面臨諸多困難,包括:(1)多義性和歧義性。由于主題是由主題詞集構成,同一個詞或短語可能在不同的上下文中具有不同的含義,可能導致主題標記失效。(2)數據稀疏性。對于某些主題,訓練數據中可能只包含很少的示例,使得準確地標記這些主題變得困難。(3)領域特定性。主題標記的性能可能會受到領域特定的詞匯和表達方式的影響,需要具備跨領域的泛化能力。(4)多語言問題。在多語言環境下,同一個主題可能會以不同的詞匯和表達方式出現,需要解決跨語言的主題標記問題。

針對上述問題,不同研究者將神經網絡技術應用于自動主題標記任務。Bhatia等人[25]提出了一個基于word2vec[51]和doc2vec[52]的主題自動標記模型NETL(neural embedding topic labelling)。標記過程分為兩個階段:首先,生成候選主題標簽集合;然后利用一個有監督學習的排序模型對候選標簽排序。關鍵步驟詳述如下:

第一階段,參照Lau等人[7]的方法產生候選標簽。Bhatia 利用Wikipedia[7]語料訓練doc2vec 模型,并使用文檔嵌入表示文檔的標題a。若給定主題為T,則a與T的相關性定義為reld2v(a,T),若基于word2vec,則相關性定義為relw2v(a,T),且最終相關性定義為reld2v+w2v(a,T)。上述公式定義如下所示:

第二階段,利用CrowdFlower(https://www.crowdflower.com/)獲得人工標注[7]以及候選標簽的四個特征數據,訓練基于多特征的回歸模型NETL,對候選主題標簽進行重排序。四種特征數據包括:(1)候選標簽和主題詞間的字母三元組(letter trigram)重疊統計[3];(2)令a為結點,Wikipedia 中的超鏈接為邊,構建有向圖,利用PageRank 方法[57]獲得每個結點的權重;(3)詞的個數;(4)候選標簽與top-10主題詞的重疊個數[7]。

Bhatia 等人的研究結果表明,利用神經網絡獲得詞嵌入和句嵌入,可以學習到單詞和文本的語義表示,從而更好地捕捉主題之間的語義關聯和差異。此外,神經網絡通過上下文窗口或序列模型來捕捉詞語之間的關聯,更好地理解主題在上下文中的含義和語義,最終提高主題標記任務的準確性。

對層次主題,如果使用NETL[25]直接進行主題標記,且只有主題詞作為輸入,則生成的主題標簽與子主題缺乏聯系,而且可能出現重復。針對該問題,Kozono等人[29]提出一種NETL的改進模型,將子主題獲取的主題標簽和相關的文檔作為輸入,根據Mao等人[46]的主題自動標記方法,利用主題間的兄弟及父子關系,基于doc2vec 和word2vec 獲得不同向量編碼,并計算候選標簽成績,選擇排序后的top-10 主題標簽。同理,對上一級主題依次迭代求取每個父主題的主題標簽。該方法屬于兩階段標記方法,首先生成候選標簽集,然后進行排序。問題在于,從現有的內源性語料庫或外源性的知識庫中可能找不到合適的概括性的短語標簽,此時主題標記的結果與實際相差可能會非常大。

為了獲得與主題相關性更高、覆蓋性更強的主題標簽,Alokaili 等人[33]提出一種基于seq2seq 模型的主題標記方法,可生成當前語料庫或知識庫中不存在的短語標簽。該模型的編碼器和解碼器均采用循環神經網絡(recurrent neural network,RNN),將主題詞編碼為300 維的詞嵌入輸入到雙向GRU(gated recurrent unit)中,解碼器生成一系列詞嵌入,作為前饋神經網絡的輸入,最終選擇概率值最高的詞作為主題標簽。由于產生候選主題標簽使用生成式神經網絡,實時性可能會差一些,但生成的主題標簽相關性和概括性可能會更好。

相比GRU、LSTM(long short-term memory)等傳統RNN,Transformer 在并行計算、長期依賴建模、全局信息獲取、編碼器-解碼器結構、模塊化和可擴展性等方面具有明顯的優勢,因此在自然語言處理任務中取得了顯著的性能提升。為進一步提升自動主題標記模型的效果,Popa 等人[31]提出了一個基于BART(bidirectional and auto-regressive transformers)[48]的NETL的改進模型,該模型也采用了經典的兩階段主題標簽生成方法。第一階段,構建了NETL 標記器,生成用于微調BART 的數據集(標簽候選子集)。為避免過擬合,NETL labeler 采用了top-5 主題詞,通過嵌入相似度,并參考主題詞概率分布增大在評分中的權重。除此之外,還利用N-gram 從語料庫中抽取名詞性短語作為候選標簽。第二階段,利用seq2seq 模型構建了一個從主題到候選標簽的一個一對多序列映射,其中主題表示為由空格分隔的前20 個主題詞的串聯字符串。預訓練模型BART 在生成的數據集上進行微調訓練后,最終的預測模型BART-TL 可以為任意單個主題輸出主題標簽。

Popa等人構建的主題標記模型基于BART,一種大規模預訓練語言模型,由FAIR 團隊于2019 年推出。BART基于Transformer架構,并使用海量的無標注數據訓練。大規模的預訓練模型可以學習主題和候選標簽的文本表示,提取深層特征,優化標記過程,增強泛化性,在不同的領域中都能獲得較好的標記結果。還能通過共享嵌入空間或聯合學習多語言表示來解決跨語言的主題標記問題。

3.5 討論

在表3 中,根據數據來源,主題標記所依賴的語料庫可分為內源性和外源性兩種。前者僅限于語料庫自身,后者需要依靠外部擴展知識,或借助外部數據以更廣泛(或具象)的表現形式(例如圖片)來描述主題以及主題間的關系,以提高生成主題標簽的準確性和多樣性[7,22-23,25,42,58]。

內源性主題標記方法[4,38]基于自身語料庫來抽取或生成主題標簽,在語義相關性上更接近原始語料庫。但該方法對語料庫要求較高,只有規模足夠大,語料足夠豐富時,生成的主題標簽才能夠反映主題的本質。而那些規模較小、文本較短、表達欠規范語料庫,很難抽取出高質量的候選標簽。但信息足夠豐富的大規模語料庫,進行文本解析和抽取候選標簽所消耗的資源也十分可觀。

外源性主題標記方法[7,23-25]通常會利用外部知識庫中已有的先驗知識來抽取和選擇主題標簽。外源性語料庫的內容更全面,范圍更廣闊,提供的方法或服務更新穎,得到高質量主題標簽的可能性也更高。但也存在一定缺陷,例如:(1)外源性內容或服務通常來自互聯網,產生和消亡的速度都很快,例如Google Directory 分類目錄服務已在2011 年停止;(2)主題可能不存在于外部源中;(3)其他一些不可控因素,對依賴外源語料或服務的主題自動標記模型的穩定性,可能會造成一定的影響。

當前主題標記的研究重點在于候選標簽的生成,以及標簽排序算法的選擇上。通常基于外源性方法生成的主題標簽概括性更好,但實現復雜度也更高。如果主題在外部語料庫中不存在,則標記工作會比較困難,此時結合內源性語料生成候選標簽可能會是更好的選擇。此外,基于稠密向量建模方法的局限性在于主題標簽生成的質量依賴于詞向量的質量,其質量又受到語料庫的影響[3]。因此,利用外源性語料庫中所蘊涵的更為豐富的語義表示和先驗知識,引入預訓練語言模型,并基于其建構主題自動標記模型可能是一個更好的選擇。

4 基于摘要的主題標記方法

對于內涵較為豐富的主題,短語標簽的表達能力受限于其長度,通常無法對主題給予全面和充分的描述。面對短語主題標簽解釋能力不足的問題,基于摘要的方法對主題進行標記逐漸受到研究者的重視,該類研究多采用抽取式摘要方法對主題進行標記,表4概述如下。

4.1 基于詞法特征

Basave 等人[38]認為外源性的主題自動標記方法并非總是適用的,這是因為主題詞有時并不存在于外部源中。因此提出一種內源性多文本摘要算法框架[38],利用四種不同方法評估所有候選句與主題的相關性:(1)SB(sum basic),對給定主題,利用句子所包含主題詞的邊緣分布概率均值評分;(2)混合詞頻逆文檔頻率(Hybrid Tf-idf),選取對主題具有較高隸屬度文檔中的句子,采用Tf-idf 均值進行評分;(3)最大邊界相關(maximal marginal relevance,MMR)[59],在計算句子與主題的相關性時,避免與已有句子產生疊加冗余,以均衡評分;(4)根據句間相似度,利用TextRank[60]對句子評分。

根據實驗結果發現,基于詞頻的方法優于SB、TextRank 和MMR。通常新聞事件很難在外源語料中找到相關內容,因此只能依賴內源性語料生成主題標簽。Basave等人[38]提出的方法基于詞法特征,關注單個詞匯的統計信息,無法利用詞間的語義關系和上下文信息,難以充分理解主題和候選標簽的真實含義,導致生成的摘要缺乏準確性和表達力。

使用多維特征可以從不同角度對文本進行建模,包括語義、句法、結構、情感等。通過綜合考慮不同特征之間的關系和權衡,可以更好地理解文本的含義、結構和上下文關系,從而生成更優質的摘要主題標簽。

Barawi 等人[39]認為,對情感主題建模,如果只基于詞法特征的相關性,將導致模型趨于選擇信息量有限的短句,難以捕捉有效的情感信息,無法生成適合的情感類主題標簽。Barawi 提出一種對情感主題進行自動標記的模型,建模過程中引入情感維度特征的處理,選擇與主題一致且情感耦合的句子構成候選主題標簽集;排序算法主要考慮了句子與主題的相關性Rel(s|tl,z)和句子對情感的覆蓋度Cov(s|tl,z)兩方面內容,候選標簽成績的計算公式定義如下:

其中,s為候選句,l為情感標簽,z為給定主題。實驗證明,該方法對情感主題進行自動標記優于其他基線方法,屬于一種通用方法,無任何特定的依賴關系,可直接應用于任何情感多項式分布主題模型的改進。

4.2 基于子模優化方法

摘要生成方式通常有生成式(Abstractive)和抽取式(Extractive)兩種。前者對生成文本的文法和語法要求嚴格,實現較為困難;后者從原文檔中抽取句子組成摘要文本,實現簡單且無生成文本的文法和語法問題。因此現有研究大多采用抽取式方法生成摘要主題標簽[4,37,61],通常分為兩個階段:首先對語料庫中的句子進行評分,然后選擇合適的句子生成摘要(主題標簽)[4,62]。通常來說,抽取式方法存在一個算法的下界,由于在句子評分過程中未考慮生成摘要時所產生的冗余,會導致句子排序的準確性被削弱[63]。因此,如何抑制由于句子重疊所導致的冗余成為抽取式摘要方法研究的難點和重點。

子模性在組合優化中具有重要作用,當目標函數具有子模性時,組合優化問題通常能夠在多項式時間內得到最優或近似解[64]。Lin 等人[65]首次將子模函數應用于多文檔自動摘要,并將其定義為預算約束下的子模函數最大化問題。由于利用MMR 構建的目標函數仍然是子模且非單調,采用一種新的貪心算法來優化目標函數[66]以保持單調不減,最終解決摘要中出現冗余的問題。根據已有研究,Wan 等人[4]利用預算約束下最大化具有子模性的評分函數,提出一種子模優化(submodular)的兩階段主題自動標記方法:

第一階段,濾除大部分與主題相關性低的句子,句子s與主題θ間的KL散度[4]計算如下所示:

根據KL(θ,s)對句子集合排序,分別選取與每個主題最相關的top-500句子作為候選句集合V。

第二階段,對每個主題θ,利用子模最大化方法從V中尋找構成主題標簽的真子集E,該方法通常是一個NP-hard 的問題,采用貪心算法[65]獲得近似最優解[4],公式如下:

實驗結果表明,該方法有效抑制標記過程中的冗余產生,生成的主題標簽在相關性、覆蓋性和可區分性三個維度上獲得較大提升。該子模函數優化模型基于貪心算法實現,雖然對設計NP-hard 問題的有效逼近算法有效,但對貪心算法進行優化較為困難,通常計算代價較大,且得到的是近似最優解。

4.3 基于圖排序方法

圖排序是生成抽取式摘要的另一種較為重要的方法,其特點是算法收斂速度快、易于得到全局最優解[67]。其中PageRank[68]是最具代表性的圖排序算法,基于圖定義隨機游走過程(一階馬爾可夫鏈),根據轉移矩陣隨機訪問各個結點進行投票,收斂到平穩狀態后,結點的最終得票率為其評分。

LexRank[69]和TextRank[60]為PageRank 的改進方法,可直接用于生成主題標簽,雖然句子評分可獲得全局最優解,但由于圖排序過程中未考慮句間冗余控制的問題,導致生成的主題標簽效果不佳。

針對上述問題,He 等人[37]對次模函數優化模型[4]和圖排序模型[60,69]進行研究,提出一種冗余感知的、基于圖排序的三階段主題自動標記模型TLRank[37],標記過程如圖4所示。

第一階段,抽取候選句[4],為每個主題θ生成相應的候選句集合CSSet。

第二階段,借鑒子模函數優化模型中的獎勵函數,從相關性、覆蓋性和區分性三方面獲得句子的綜合中心性評分,公式分別定義如下:

為使用一個統一尺度來衡量句子的整體質量,定義整體中心性(OverAllCen),公式如下:

式中,OverAllCeny為候選句y的整體中心性,sy代表候選句y,并有α>0,β>0,α+β<1。

第三階段,根據句子的綜合中心性評分和句間相似度,提出一種抑制和擴張策略:通過構建一個正定的轉移矩陣實現馬爾可夫過程,使模型在圖排序過程中能夠感知冗余并改變投票比率,從而生成冗余度更低、更具多樣性的主題標簽。過程概述如下:

以CSSet中句子為結點構建有向完全圖,圖中結點y計算公式[57,60,68-69]如下:

式中,edgexy為x指向y的邊。當x的整體中心性值大于y時,edgexy受到抑制,公式如下:

反之,擴張edgexy的值公式如下:

式中,Degreex和Degreey為結點x和結點y的度值[69],edge·y為任何指向結點y的邊。擴張和抑制策略的目標是改變結點的投票比率,加權重要結點并抑制非重要結點。

實驗結果表明,TLRank 與對照算法相比更優。但圖排序模型屬于無監督學習,很難獲取候選句的深層特征,也無法捕捉詞語、句子和文本之間的復雜關系,不能準確地理解文本的語義信息,進行更復雜和層次更深的句間關系建模,難以進一步提高生成主題標簽的多樣性和有效抑制標簽中的冗余。

4.4 基于神經網絡方法

神經網絡能夠學習豐富的語義表示,通過隱層的非線性變換和特征提取,可以捕捉詞語、句子和文本之間的復雜關系。這使得神經網絡能夠更好地理解文本的語義信息,從而提高主題標記的準確性和語義一致性。

Kozbagarov 等人[41]認為,句子與單詞不同,具有完整的語法和語義結構且信息量更大,更適合用來解釋主題,因此未采用通用標準方法中的詞法特征,而是使用了預訓練語言模型BERT 對主題和語料庫文本進行向量化,并在此基礎上進行自動主題標記,整個過程分為六個步驟:(1)首先將語料庫中的句子依次輸入BERT 模型,獲得的句嵌入為輸出頂端4 個隱層的均值;(2)如果數據規模較大,為了提高計算效率,可從語料庫中隨機抽取一個子集;(3)根據主題數K值,基于句子的嵌入表示,利用最小平方和聚類(min-sum-of-square clustering,MSSC)和k-means等方法進行聚類;(4)根據前述步驟獲得的所有句嵌入和聚類質心,重新計算句子的概率分布值;(5)在已獲聚類的基礎上,計算句子的聚類分布矩陣Fn×m;(6)最后應用EM(expectation maximization)算法完成指定次數的迭代計算,獲得模型參數的估計量,得到句子的主題概率分布和主題在文本中的概率分布,并選擇一個嵌入最接近給定聚類質心的代表性句子作為主題標簽。

相比傳統的詞法特征方法,神經網絡能夠更準確地獲取主題和句子的含義和上下文,以提高主題標記的精度。但主題標簽使用單個句子也有不足,因為單個句子受限于長度和結構,不能充分揭示主題的意義和背景。一個主題往往涉及多個相關的概念、事實或論點,需要更廣泛的語境才能被準確地理解和描述。因此,利用神經網絡生成的長文本主題標簽,采用多個句子的摘要形式更為常見。

在生成抽取式摘要時,無監督學習很難獲取候選句的深層特征,進行更復雜和層次更深的句間關系建模。因此,He 等人[40]提出一種基于注意力機制的三層神經網絡主題標記模型TLPA(topic labeling model with a paired-attention),其結構如圖5所示。

TLPA 模型底層“BERT 編碼層”運行于句子級別,將N個候選句[s1,s2,…,sk,…,si,…,sN]動態編碼為前后文連續特征向量[C1,C2,…,Ck,…,Ci,…,CN];相對于BertSum[70]采用兩層神經網絡結構,為增進對主題的理解,增加了一個“主題特征提取層”,運行于句子級別,從[C1,C2,…,Ck,…,Ci,…,CN]中抽取出深層特征[f1,f2,…,fk,…,fi,…,fN];主題標記層位于模型頂層,運行于文檔級別,采用成對注意力對句間關系編碼,模仿人類決策過程。最終通過線性分類器選取適合的句子,生成主題標簽。

以Transformer 的正向(Positive)注意力編碼為例,公式定義如下:

其中,PosAttTran為基于Transformer 的正向注意力實現。將候選句集視為輸入文檔D,則標記任務轉化為二分類優化問題,預測句子si是否屬于主題標簽的概率值,公式如下所示:

為準確而全面地評估TLPA 主題標記模型的有效性,選用公開數據集SIGMOD 和AP[4]。實驗表明,TLPA 生成的主題標簽在與主題的相關性、覆蓋性和區分性上顯著優于圖排序及其他對比方法。雖然采用基于成對注意力的句間關系編碼器來模仿人類決策過程,為分類器提供高質量的句間關系編碼,有效提升了模型的冗余控制水平和求解精度,但當前尚不能通過單詞級和句子級的語義表示來發現潛在語義主題模式,并基于神經網絡實現對文本深層特征的提取,以克服傳統主題模型的局限性。

4.5 討論

文本摘要方法通常分為單文檔和多文檔兩種不同類型。由于發現主題結果來源于多個文檔,借鑒多文檔摘要方式來對主題建模結果進行標記。此外,文本摘要根據生成文本的過程又分為生成式和抽取式兩種。前者生成全新的摘要文本,多樣性高、冗余度小,但由于生成文本對文法和語法要求較為嚴格,實現困難;后者使用原文檔中抽取出的句子組成摘要主題標簽,實現簡單,也無需擔心生成文法和語法問題。但是該方法缺點也很明顯,抽取句子組成的摘要通常存在句子重疊所導致的冗余。因此,結合二者的優點,使用抽取式方法生成候選句集合,并在此基礎上采用生成式摘要方法生成主題標簽可能是一種更加可行的策略。

當前使用文本摘要對主題進行標記的研究主要基于抽取式方法,標記任務通常分為三個過程:(1)從語料庫中抽取出句子;(2)提取句子特征并排序;(3)根據排序結果選擇合適的句子,以最小冗余代價生成主題標簽。也有研究為優化整體效果,將第二和第三個過程合為一個整體[4,37]。

對于生成短語和摘要主題標簽,一些研究采用了圖排序方法。這是因為其優勢在于結合圖的全局信息來計算結點權重,充分利用句間關系,以抑制生成主題摘要過程中出現的冗余。例如TLRank[37]就是通過控制轉移矩陣對圖中結點的投票率進行增強或抑制,從而達到整體排序結果最優。但該方法中一些超參數的設置源于經驗,針對不同語料庫還需人工調整。因此,利用圖排序進行主題標記的下一階段的研究重點應該放在增強模型的泛化性上,對圖排序過程中冗余控制的作用機理進行研究,實現模型參數的自動學習。

為進一步抑制主題標簽中的冗余,解決一詞多義和手工調參的問題,一種基于注意力機制的神經網絡模型TLPA[40]被用于主題標記。該模型采用動態詞嵌入解決了一詞多義問題;利用Transformer 編碼器提取深層特征,有效減少了噪聲信息的干擾,并增強了模型對主題的理解;采用基于成對注意力的句間關系編碼器來模仿人類決策過程,為分類器提供高質量的句間關系編碼,有效提升了模型的冗余控制水平和求解精度。

5 基于圖片的主題標記方法

圖片主題標簽在特定場景下,具有更加直觀的闡釋能力,但不足以解釋含義復雜的主題。Sorodoc等人[43]認為不同類型的主題選用不同的主題標記方式可能是更好的選擇。目前采用的方法大多是基于對圖片相關文本信息的解讀,通過對圖片進行評分的方式來選擇最相關的圖片主題標簽,方法總結如表5所示。

表5 基于圖片的主題標記方法Table 5 Topic labeling method based on image

與基于文本的主題標記研究不同,Aletras等人首次提出一種利用圖像進行主題標記的三階段方法[42]:首先,使用top-5主題詞通過谷歌搜索英文維基百科,并將top-20 搜索結果作為候選圖片集;其次,候選圖片具有搜索得到的元數據文本和利用尺度不變特征變換算法[71-72]低階圖像關鍵特征算子抽取的視覺信息兩種模態形式;最后,將候選圖片作為結點構建無向圖,并排序[57]。實驗證明,該方法通常可以找到適合的圖片標簽,其中視覺信息起到重要的作用。

使用圖片對主題進行標記,最難以逾越的語義鴻溝,就是從圖像的低層特征到高層語義間建立有效的關聯。由于圖像本身是一種多語義對象,Nguyen等人[44]在多示例多標記學習框架(multi-instance multilabel learning,MIML)[73]的基礎上,提出了一種多模態、多示例和多標簽的潛在狄利克雷分配模型(M3LDA),實現對LDA 主題的圖片標記。模型由三部分組成:可視標記、文本標記和標記主題。其中,可視標記和文本標記的主要任務都是從視覺空間或文本空間到主題標簽空間的映射。而標記主題的目標在于發現和維護主題標簽之間的聯系,即根據不同主題將高度相關的主題標簽分組,以形成圖片、文本標記和主題之間一對一的客觀對應關系。

Aletras和Mittal[22]在其后續研究中提出一種利用深度神經網絡預測任意主題和圖像間的關聯程度方法。主題T中包含10 個具有最高概率分布的主題詞T={t1,t2,…,t10},圖片的可視化信息表示為V,C={c1,c2,…,cn}為對應的文本信息表示。使用詞嵌入[74]方法計算T和C中所有向量均值,分別表示為xt和xc;同時將可視化信息V轉換為稠密向量表示xv;使用ImageNet 數據集[75],利用牛津大學和谷歌共同研發的深度卷積神經網絡(16 層VGG-net)[76]進行訓練。輸入X=[xt||xc||xv],輸出為VGG-net 所能提供最大的1 000維分類輸出向量。基于公開數據集(NYT&WIKI)[42]上的實驗結果證明該模型具有廣泛的通用性,能準確預測主題和圖像間的相關系數,給出合理的圖片主題標簽。

6 結論與展望

生成式概率主題模型近年來在文本分類、異常檢測、推薦系統、文本摘要、觀點抽取、詞義歸納、情感分析和信息檢索等領域[2-3]得到廣泛的應用。但主題模型的發現結果通常由一組詞匯的概率分布表示,會對用戶理解主題造成一定的困擾,也成為主題模型進一步應用與發展的障礙,成為亟需解決的問題。

針對主題模型的自動標注問題,本文綜述回顧了現有研究所采用的不同主題標簽形式(短語、摘要、圖片)和具體方法,從多個維度對標記方法的具體實現和使用場景進行了分析、討論。并認為主題標記仍存在諸如準確性、擴展性、適用性和理解問題:(1)在處理復雜文本時,容易受到語言表述、噪聲等因素的影響,需要進一步提高標記算法的準確性和魯棒性;(2)目前在處理大規模文本數據時很難保證高效和實時,適用性有限,因此如何解決主題標記算法的擴展性是研究重點之一;(3)不同語言、領域的文本有不同的表達習慣、文化特征和主題偏好,需要研究如何處理不同場景下的主題標記,提高標記方法的普適性和場景適應性;(4)主題標記算法需要更好地理解文本內容和上下文關系,抽取更深層次的語義特征,以提高標記結果的語義表現和精度。

通過對現有研究的梳理、總結和分析,未來主題標記的研究將聚焦于以下方面:

(1)基于深度學習的主題標記。隨著深度學習技術在NLP 領域研究的不斷深入,特別是三個里程碑研究成果:詞嵌入[77]的文本特征向量化、word2vec[78]引入大規模預訓練語言模型以及Transformer[79]的并行化處理的出現,使得很多NLP 中較為困難的任務獲得了創新性的解決和突破,如閱讀理解、情感分析、推薦系統、信息檢索、文本生成等。一些構建在預訓練模型上的系統在很多下游任務中已經超越了人類的表現。因此,利用深度學習技術進行主題標記有著廣闊的市場潛力和應用場景。特別是在相關性排序過程中對冗余的控制[61],例如利用注意力機制對候選句與主題間的相關性,以及候選句與摘要主題標簽冗余度聯合建模[40]。此外,基于龐大的外源性語料庫的預訓練語言模型應用于主題標記,以及多種深度學習方法的融合,應該是未來突破的重點和方向。基于上下文的語義理解[30,36],能更加準確地對相關性和冗余性建模,從而得到與主題更加相關、覆蓋性更好、區分性更強和更具解釋性的主題標簽。

(2)主題標記與情感分析技術的結合。主題標記和情感分析技術相互結合,可獲得更準確的文本處理結果,例如可以分析用戶對某個主題的情感傾向或從文本中提取情感總結等。Barawi 等人[39]首先提出一個與主題一致且情感耦合的摘要標記模型,對情感主題的解釋和理解更加有效,可擴展用于從文字語料中提取基于情感分析的不同觀點總結。Shahriar等人[36]提出一個基于情感術語和方面術語的單字特征增強分類效果的數據驅動挖掘框架,通過LDA 模型輸出主題聚類標簽,用以揭示與COVID-19大流行相關的各種問題。作者認為結合深度學習技術用于從海量的社交媒體語料中提取情感主題,并生成重要的主題標簽,可有效應對社交媒體語料快速增長所導致的數據過載問題。

(3)主題標記應用場景的拓展。在未來,主題標記技術將應用于更多的場景,如智能客服、智能設備等。互聯網+時代,對主題發現結果進行自動標記,通常可以用于分類和提取用戶描述問題的主題,幫助虛擬助手或人工客服快速了解文本的主要內容和關鍵特征,將用戶問題和數據庫中已有的問題進行自動匹配,為用戶提供更為精準的幫助,并及時響應。例如,隨著消費者對金融服務投訴數量的快速攀升,CFPB(consumer financial protection bureau)[80]意識到由人類專家對這些意見進行人工審查是不可行的,因此構建了一個基于潛在狄利克雷分配的智能分析模型來對投訴意見進行智能分析。通過用戶調研和在線調查發現,對客戶負面情緒的安撫是提升客戶服務的一個非常重要的關鍵因素[81]。綜上可知,主題標記在智能客服中的應用,能夠為用戶提供更高效便捷的服務,也能為企業提供更精準的數據支持,對于提升客戶滿意度和企業的服務質量都具有非常重要的意義。

猜你喜歡
排序文本方法
排序不等式
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲日本在线免费观看| 美女免费精品高清毛片在线视| 日本久久久久久免费网络| 色欲色欲久久综合网| 国产毛片不卡| 国产成人一级| 日韩123欧美字幕| 激情网址在线观看| 久久男人视频| 人妻丰满熟妇αv无码| 极品国产一区二区三区| 久久久久九九精品影院| 激情无码视频在线看| 国产视频你懂得| 国产欧美精品一区二区| 日韩人妻精品一区| 国产成人免费手机在线观看视频| 国产欧美日韩精品综合在线| 9久久伊人精品综合| 亚洲性影院| 国产老女人精品免费视频| 五月婷婷中文字幕| 亚洲欧洲一区二区三区| 天堂在线亚洲| 亚洲VA中文字幕| 午夜视频在线观看免费网站| 日本一本正道综合久久dvd| 97se综合| 成人韩免费网站| 五月婷婷丁香色| 日韩色图区| 国产精品毛片一区| 色噜噜久久| 亚洲无限乱码一二三四区| 欧美性天天| 99久久精品国产自免费| 91欧美亚洲国产五月天| 国产免费网址| 亚洲一区二区三区国产精品| 国产色婷婷| 1级黄色毛片| 午夜老司机永久免费看片| 中文国产成人精品久久| 国产精品jizz在线观看软件| 日韩天堂网| 日韩成人在线网站| 中国成人在线视频| 色窝窝免费一区二区三区 | 国产精品欧美激情| 中文字幕在线一区二区在线| 国产乱子伦手机在线| 久久精品亚洲专区| 久久免费看片| 欧美不卡二区| 免费国产一级 片内射老| 国产福利小视频高清在线观看| 99999久久久久久亚洲| 欧美福利在线播放| 国产成人午夜福利免费无码r| 国产午夜一级淫片| 国产在线视频自拍| 国产噜噜在线视频观看| 一区二区自拍| 成人在线欧美| 欧美黄色a| 日韩毛片视频| 久久精品日日躁夜夜躁欧美| 久久国产精品电影| 天堂成人在线| 在线观看无码av五月花| 国产成人a在线观看视频| 天天综合网色中文字幕| 色悠久久久| 久久精品国产亚洲麻豆| 欧美成人影院亚洲综合图| 欧洲亚洲欧美国产日本高清| 亚洲a级毛片| 国产一区自拍视频| 成人一区专区在线观看| 国产亚洲精品va在线| 男女精品视频| 久久国产乱子伦视频无卡顿|