微博截圖中的用戶觀點定位方法研究

2022-09-05 03:04:08王桂江黃潤才馬詩語黃小剛王承茂

信息安全研究 2022年9期

王桂江黃潤才馬詩語黃小剛王承茂

(上海工程技術大學電子電氣工程學院上海 201620)

(guijiang_wang@163.com)

隨著互聯網的迅速發展與廣泛應用，人們溝通交流、獲取信息愈加方便.互聯網在帶來便捷和巨量信息的同時，也為有害思想的滋生傳播提供了溫床.2019年12月，武漢爆發新型冠狀病毒肺炎疫情，圍繞該話題，大多數網友表達了“武漢加油”“中國加油”的支持，但也有人趁機傳播一些否定社會主義價值觀的觀點，對抗疫大局造成干擾.

信息傳播載體的多樣性和內容的巨量給了解和分析用戶觀點帶來巨大困難，尤其是在謠言方面，部分用戶通過截圖傳播來降低被監管的可能.通常，分析圖像中的用戶觀點需要將所有文本進行提取，然后運用自然語言處理方式進行文本預處理.例如，使用中文分詞工具NLPIR對數據集進行分詞和詞性標注，并過濾掉其中的標點符號和特殊字符等[1].在預處理過程中，部分用戶觀點與截圖中的其他信息沖突，導致數據清洗后的結果失真，從而出現觀點丟失或數據被干擾的情況.因此，針對互聯網復雜的網絡截圖，運用圖像處理手段，實現在文本圖像中獲取特定文本區域具有較強的實際意義.

1 相關工作

文本檢測在近年來取得了較大的發展[2-5].Ma等人[6]運用圖神經網絡提出了可檢測任意形狀的檢測模型；Liu等人[7]利用CNN解決了冗余背景噪聲、不必要的重疊甚至信息丟失等問題.MSER模型[8]、SWT模型[9]及其改進模型等傳統方法的優點是執行速度快，但當背景復雜、紋理特征不明顯時，檢測效果較差.

隨著機器學習的發展，出現了基于回歸和分割的識別方法.基于回歸的方法需要對數據集進行單詞級的標注，然后使用Faster R-CNN[10]方法進行特征提取.比較典型的基于回歸的方法有YOLO[11]，CTPN[12]等，這類方法對于水平文本檢測效果較好，對于不規則文本的檢測效果較差.然而，文本通常以不規則形狀出現，為了解決這個問題，TextBoxes模型[13]通過修改神經網絡的卷積核大小提取更多的特征信息，并增加滑動窗口掃描神經網絡的特征圖，以有效捕捉文本形狀.PSENet模型[14]利用漸進式擴張的方法，從中心線向周邊延伸，實現了任意形狀文本的檢測，但在稠密文本中表現不佳.基于分割的方法是在像素級尋找目標文本區域[15-16]，這類方法通過評估字符的外接邊界區域的位置，實現字符與背景的分割，以此檢測文本.SSTD模型[17]使用注意力機制減少背景干擾以增強文本區域，基于注意力機制的Transformer結構[18]也運用到文本檢測中.

以上方法是在圖像中尋找文本區域，并不能定位文本圖像中的特定文本.自然場景下文本比較稀疏，以上方法表現不錯.有別于自然場景文本，微博截圖文本組合多樣，文本稠密，想要實現在圖像中尋找特定文本并不容易.例如，在圖1所示的微博截圖中，框中內容為用戶觀點，其他內容都是無效信息，單純使用基于回歸或分割的方法無法直接定位用戶觀點位置.為此，本文提出一種兩階段的微博截圖用戶觀點定位方法.首先運用字符區域感知模型對圖像中的文本進行定位；然后運用邏輯推理對定位到的每個字符進行處理和分析；最后將由邏輯推理得到的定位結果與字符區域感知模型的定位結果進行融合，實現在文本圖像中尋找特定文本區域.

2 兩階段的微博截圖用戶觀點定位方法

2.1 文本檢測

鑒于微博截圖內容的稠密分布，使用連通域等方法進行觀點定位無法有效提取其中各個字符的形態信息.因此使用具有字符區域感知能力的CRAFT(character region awareness for text detection)模型[19]作為基礎模型檢測文本區域，充分獲取圖像中每個字符的形態信息.

如圖2所示，CRAFT模型使用VGG-16_bn[20]作為基礎結構，VGG-16網絡結構由13個卷積層和3個全連接層組成，因其簡潔性和實用性，被廣泛運用在圖像分類和目標檢測任務中.對于每個訓練圖像，使用多次卷積提取其中的特征信息，在解碼部分跳過全連接層，并在每次上采樣時融入卷積提取到的低級特征進行聚合，形成一個淺層加深層的卷積特征提取結構，類似于U-net[21]，從而有效保留了淺層和深層的語義特征.在模型最后，通過4層卷積將輸出變為2個通道：區域分數(region score)和親和度分數(affinity score)，區域分數為像素是字符中心的概率，親和度分數為相鄰字符間可以連接的概率.

對于每個訓練圖像，需要生成字符區域分數真值標簽和帶有邊緣、形狀、輪廓和局部特征等特征級邊界框的親和度分數真值標簽.對于區域分數真值標簽的生成，CRAFT模型采用高斯熱圖的方式，這種方式可以很好地處理沒有嚴格包圍的邊界區域.區域分數真值標簽生成過程如圖3中的分數生成模塊所示,首先準備1個二維各向同性的高斯映射，然后計算高斯映射區域與每個文本框之間的透視變換，最后將高斯熱圖映射變換到文本框區域.對于親和度分數真值標簽的生成，使用相鄰的字符框(character box)定義親和度.親和度分數真值標簽生成過程如圖3中的親和框(affinity box)生成部分所示.在此部分中，綠色框為單字符的4個頂點構成的字符框，把4個頂點連接起來，找到上下三角形的中心點，即圖中的藍色十字點，對于每個相鄰的字符框對，將上下三角形的中心設置為框的角進行連接，生成親和框.

2.2 邏輯推理

邏輯推理是對模型輸出的區域分數和親和度分數分別進行二值化處理，相加后得到包含字符分數(區域分數二值化結果)和字符關系分數(親和度分數二值化結果)的值text_score_comb.將text_score_comb還原成文本圖像，稱為score_text.對score_text進行處理，運用opencv提供的工具對圖像中的單個字符進行標記，獲取圖像中每個字符的坐標信息和高度信息.對由每張圖像得到的數據信息進行邏輯處理，將處理結果作為定位結果返回.邏輯推理可以視為對定位得到的文本區域根據文本形態進行分類，通過分析字符之間的關系，將檢測到的文本分為用戶觀點區域和非用戶觀點區域.

設置數組loc_arr保存每個字符的高度信息，loc_arr[x][y]是當前位置上的字符高度，其中x,y是當前字符坐標.在每張圖像處理之前需要對該數組進行初始化，以便存儲下一張圖像信息.

文本行中含有大量的文本和符號，為區分當前字符是文本還是符號，使用字符最大可信度(character maximum reliability, CMR)進行判別.CMR由當前字符高度與當前行最大字符高度的比較而來，如式(1)所示.根據數據分析，當CMR>0.8時，認定該字符為文本.

(1)

其中，max_h為當前行最大字符高度.

為評估當前處理的文本行是否為用戶觀點信息，提出了行最大可信度(line maximum reliability, LMR).LMR由當前行中CMR>0.8的有效字符個數與當前行能夠檢測到的所有字符個數比較而來，如式(2)所示:

(2)

其中，count_vaild為當前行中CMR>0.8的有效字符個數，count_total為當前行能夠檢測到的所有字符個數.根據數據分析，當LMR>0.7且lth

通過使用CMR將文本與符號進行了區分，使用LMR將用戶觀點文本行與非用戶觀點文本行進行了區分.區分之后，將用戶觀點文本行的縱坐標使用數組Isvaild進行記錄.實際操作過程中，使用score_text得到的用戶觀點文本行的縱坐標與使用text_score_comb得到的用戶觀點文本行的縱坐標有所偏差，這是因為text_score_comb是基于字符中心點的一個包含輪廓信息的列表，score_text是基于字符外界邊框得到的包含位置和高度的列表.為了避免這個偏差對定位結果融合造成的影響，對由score_text得到的用戶觀點文本行的縱坐標y進行修正，即y增加或減少1～2個值，稱為vaild_y，使由score_text得到的用戶觀點文本行的縱坐標與由text_score_comb得到的用戶觀點文本行的縱坐標保持一致.將修正后的縱坐標vaild_y在Isvaild中賦值為1，表示當前縱坐標對應的是用戶觀點文本行，其他位置標記為0，如式(3)所示：

(3)

2.3 定位結果融合

圖4給出了定位結果融合流程.其中，A是輸入的原始圖像；B是CRAFT模型輸出的處理后的text_score_comb，白線標記的地方為能夠檢測到字符的位置；C是邏輯處理圖像，白色標記的區域為用戶文本行區域，是基于邏輯推理得到的；D是最終定位到的用戶觀點區域；X代表定位結果融合.

定位結果融合的具體過程如算法1所示.其中，上邊界閾值和下邊界閾值由先驗經驗獲取，字符高度閾值經數據分析得到，text_score_comb由CRAFT模型得到，Isvaild由邏輯推理得到.連通域是由圖像中具有相同像素值且位置相鄰的像素點組成的圖像區域，連通域閾值是連通域內像素點值的下限.文本行外接框通過使用圖像處理工具OpenCV的CCL(連接組件標簽)和MinAreaRect(最小外接矩形)函數對text_score_comb進行區域連接得到.

算法1.定位結果融合算法.

輸入：text_score_comb，IsVaild，上邊界閾值，下邊界閾值，字符高度閾值;

輸出：用戶文本行的外接框.

① 獲取text_score_comb的連通域個數n；

② fori=1;i

③ 獲取第i個連通域的大小(size)，坐標值(x,y)，寬高值(w,h)；

④ ifsize<連通域閾值 then

⑤ 過濾；

⑥ end if

⑦ ify>下邊界閾值或y<上邊界閾值 then

⑧ 這是非用戶觀點文本行；

⑨ else

⑩ ifIsVaild[y]==1 then

3 實驗

本文實驗在Ubuntu18.04上進行，使用語言為Python 3.7，GPU為華碩1070TI，顯存8 GB，系統內存16 GB，Pytorch版本為1.7.0GPU.

3.1 數據集

實驗數據集為400張微博截圖，以用戶觀點和其他媒體內容為主，用于對CRAFT模型進行測試.

3.2 模型訓練及參數

CRAFT模型首先使用具有字符級注釋的SynthText[22]數據集迭代5萬次，生成字符區域分數真值標簽和親和度分數真值標簽，并使用Adam優化器尋找CRAFT模型的最小損失值，損失值越小越接近真實結果；然后使用數據集ICDAR13,ICDAR15,ICDAR17[23-25]進行弱監督訓練，由于這些數據集沒有字符級注釋，因此從每個單詞級注釋生成字符框，從而得到并不準確的字符區域分數真值標簽和親和度分數真值標簽.當使用帶有單詞級注釋的真實圖像時，訓練過程中得到的中間模型預測使用分水嶺算法裁剪后的字符區域分數，不斷學習得到相對合理的權重值，使真值標簽更接近真實.增強使用SynthText訓練得到的模型在ICDAR上的效果時，ICRAR與SynthText的數據比例為5∶1，迭代2.5萬次.

在預訓練CRAFT模型的基礎上，本文采用層遷移的方法對CRAFT模型進行遷移學習.為了防止CRAFT模型的參數發生抖動，將學習率設置為1e-4，只對CRAFT模型的最后一層權重進行訓練.在保持CRAFT模型的單字符檢測能力的前提下，使用標記的單字符微博數據進行遷移學習，增強CRAFT模型在當前任務上的單字符檢測能力.訓練一共迭代500次，每次訓練2批數據，使用Adam優化器尋找與目標接近的最小損失值.

3.3 實驗結果與分析

1) 遷移學習檢測效果

遷移學習的目的是提高在目標數據集上的檢測效果.為了檢驗遷移學習是否在數據集上發生作用，從數據集中隨機選擇一張圖像進行測試，測試內容為用戶發表的觀點.圖5展示了遷移學習對模型的增強，圖中左側為使用遷移學習之前，右側為使用遷移學習之后.可以看出，使用遷移學習后，字符的高斯熱點圖更加明顯，部分之前檢測不到的單字符被檢測到，如圖5中白框位置.

2) 邏輯推理的有效性

為驗證邏輯推理的有效性，將本文方法與不使用邏輯推理的CRAFT模型進行對比.圖6展示了使用邏輯推理前后用戶觀點數和非用戶觀點數的柱狀圖.使用邏輯推理之前，用戶觀點數為9 299個，非用戶觀點數為7 957個.使用邏輯推理后，得到用戶觀點9 187個、非用戶觀點2 720個，非用戶觀點數約為使用邏輯推理前的1/3，非用戶觀點的干擾大大降低.可見，使用邏輯推理后的效果比較明顯，用戶觀點的精確度進一步增強，部分不必統計的信息被過濾.

3) 不同方法用戶觀點定位效果對比

圖7展示了PSENet，CRAFT模型和本文方法在數據集上的用戶觀點定位效果對比.如圖7(a)～(c)所示，PSENet是基于漸進式擴張的方法，當字符比較稠密時，盡管可以定位到文本行位置，但文本行外接框較為錯亂，定位效果有所損失；如圖7(d)～(f)所示，CRAFT模型沒有引入邏輯推理，雖將圖像中的所有文本都進行了檢測，整體檢測效果強于PSENet，但無法對文本進行篩選；如圖7(g)～(i)所示，本文方法引入邏輯推理，既過濾了無效信息，也對文本行中的“…”等標點內容作了剔除，較完整地保留了用戶的主體信息，定位效果最佳.

4 結束語

本文針對當前微博截圖信息傳播方式提出一種基于字符區域感知和邏輯推理的微博截圖用戶觀點定位方法.首先采用CRAFT模型對當前任務進行遷移學習，提升其在當前數據集上的泛化能力；然后對字符外接框生成引入邏輯推理，實現有效篩選候選區域，獲取用戶觀點區域.實驗數據表明，本文方法對微博截圖用戶觀點具有較好的定位能力，能夠實現在圖像中尋找特定文本區域，對于檢測互聯網截圖中的用戶觀點、維護信息輿論安全具有積極意義.下一步工作將研究如何對定位內容進行提取并進行情感分析.