999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP技術的“標題黨”識別方法研究

2020-05-18 13:31:58楊小峰
現代信息科技 2020年20期
關鍵詞:自動化

摘? 要:移動互聯時代資訊泛濫,導致違規采編發布互聯網新聞信息、散播虛假信息等“標題黨”網絡傳播亂象,識別“標題黨”已成為當前互聯網整治的重要任務。文章分析了當前互聯網“標題黨”的核心特征。對其中5類“標題黨”進行詳細分析。對比了當前流行的多種識別算法的表現,給出了對應的查全率和查準率。提出一種基于規則匹配的“標題黨”識別算法,在綜合類型“標題黨”語料集中表現較好,彌補當前“標題黨”識別算法的局限性。

關鍵詞:規則匹配;自動化;“標題黨”識別;自然語言處理

中圖分類號:TP391.1? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)20-0124-04

Research on the Recognition Method of“sensational headline writer”

Based on NLP Technology

YANG Xiaofeng

(Zhongyuan Converging Media Technology Research Center,Zhengzhou? 450007,China)

Abstract:In the era of mobile internet,information is overload,leading to illegal editing and publishing of internet news information,dissemination of false information and other “sensational headline writer” network dissemination chaos,identification of “sensational headline writer” has become an important task of the current internet rectification. This paper analyzes the core characteristics of the current internet “sensational headline writer”. Five categories of “sensational headline writer” are analyzed in detail. Compared with the performance of many popular recognition algorithms,the corresponding recall rate and precision rate are given. This paper proposes a “sensational headline writer” recognition algorithm based on rule matching,which performs well in the comprehensive type of “sensational headline writer” corpus,and makes up for the limitations of the current “sensational headline writer” recognition algorithm.

Keywords:rule matching;automation;“sensational headline writer” recognition;natural language processing

0? 引? 言

隨著互聯網的發展,終端設備資源的不斷完善,人們對新聞的關注度、和需求也不斷地提高,而網絡新聞則成為現階段互聯網應用的新寵。在互聯網據CNNIC中國互聯網絡信息中心發布的第44次《中國互聯網絡發展狀況統計報告》顯示,截至2019年6月,我國網絡新聞用戶規模達6.86億,較2018年底增長1 114萬,占網民整體的80.3%,手機網絡新聞用戶規模達6.60億,較2018年底增長734萬,占手機網民78.0%。2019年上半年,手機網民各類APP應用使用時長占比調查結果中,網絡新聞的使用時長占比4.1%。

在我國網絡媒體快速發展的時代背景下,網絡媒體已迎來平臺、技術、內容、資本和人才競相迸發的新高峰,但依然面臨著內容真實性不足、可信度與嚴肅性缺失等新的矛盾。2020年國家網信辦召開專項部署會議,決定自7月24日起,針對社會反映強烈的商業網站平臺和“自媒體”擾亂網絡傳播秩序突出問題,在全國范圍內開展集中整治。

2018年中原工學院中原融媒體技術研究中心與河南廣播電視臺進行科研合作,主要針對新聞內容質量與新聞傳播路徑進行跟蹤分析,本課題為該研究方向的子課題。本課題目標為解決“自媒體”片面追逐商業利益,為吸引“眼球”炒作熱點話題、違規采編發布互聯網新聞信息、散播虛假信息、搞“標題黨”等網絡傳播亂象,提高廣播電視臺自媒體頻道新聞質量。

1? “標題黨”特征分析

互聯網內容傳播不單純以“新聞”平臺為媒介,還包括各類博客、公眾號等平臺發布的“技術類”文章、“科普類”文章、“教育類”文章等,本文“標題黨”研究對象包括“新聞”在內的所有“超媒體”。將通過發布不實標題,吸引網友點擊查看的行為的“超媒體”統稱為“標題黨”。在當前互聯網中“標題黨”文章以不同的文案形態,不同的目標而存在,例如,吸引點擊量,軟文廣告等。本文對當下互聯網文章進行歸納整理,將文章根據不同的展現形態分為以下類別:

(1)圖片類文章:文章內容由新聞標題、圖片構成。

(2)視頻類文章:文章內容由新聞標題、正文文本、視頻資源、音頻資源構成。

(3)文字類文章:文章內容由新聞標題、正文文本構成。

(4)圖文類文章:文章內容由新聞標題、正文文本、圖片構成。

不同的用戶在對文章表現出關注的第一印象都是來自文章標題,本文通過對文章內容是否符合用戶期待為分析目標,確認文章是否屬于“標題黨”內容。因此本文將“標題黨”文章歸納為以下類別:

(1)營銷類“標題黨”:該類文章的特點是標題內容豐富吸引人,并且與文章內容符合度較高。但文章最后以廣告、營銷為目標,降低內容的可信度,降低用戶期待。該類“標題黨”文章主要集中于技術類文章中,以圖片類、圖文類文章為主要表現形態。

(2)熱點新聞“標題黨”:該類文章的特點是將文章標題設定為當下最火最熱的標題內容,或作為熱點標題后續,吸引用戶。而文章內容多以已發布內容掐頭去尾的形式展現,用戶期待落差較大。該類“標題黨”可能出現上述4種表現形態。

(3)誘導類描述“標題黨”:該類文章的特點是多以情欲類、違背價值觀類、極致類內容作為標題,文章內容為廣告、小說,該類“標題黨”以圖片類、圖文類文章為主要表現形態。例如,在某些娛樂類消息中,對明星進行贊美類的文字,卻多數以負面消息標題展示進行吸睛,一些小說文字,會被冠以夸張修飾的辭藻,如標題為“聰慧兒童嚴守家門,兇殘犯人偽裝其母聲欲進屋慘被識破”的文章,實際是經典童話故事《小紅帽》。

(4)多媒體歧義“標題黨”:該類文章的特點是文章內容以純圖片或視頻為主,幾乎不含有任何相關文字介紹,被標以歧義標題吸睛,給用戶帶來誤導。

(5)時間、地點誤導式“標題黨”:該類文章的特點是介紹的新聞、事件,對于時間、地點故意不進行說明,將其他國家發生的事件,或者發生在很早之前的事情換一中描述標題,誤導用戶是最近在國內發生的事件。該類“標題黨”多表現為純多媒體形態,如圖1所示,媒資為“視頻”,被冠以“女子確診感染新冠,被丈夫狠心推下五樓!”的標題吸睛,不表明消息來源地,從而誤導用戶。

在移動互聯時代資訊泛濫的背景下,無論是自媒體,還是專業媒體人都會廣泛使用“標題黨”方法吸引眼球,從而增加流量與點擊量。然而,媒體制作的標題只要不違反法律與職業道德,當然可以依靠提升標題的“吸引力”的方式來吸引廣大讀者,這無可厚非。但是,違背公序良俗,或者文題不符、刻意“嘩眾取寵”似的“標題黨”行為是不可取的。

2? “標題黨”識別算法

2.1? 相關識別算法分析

近年來在“標題黨”新聞識別相關研究中,以羅佳[1]的《基于潛在語義分析的標題黨新聞識別技術研究》,梅鐘宵[2]的《基于文本挖掘的新聞標題與內容契合度評價研究》為代表的一類識別算法,是以研究文章標題與文章內容的契合度為切入點,通過提取文章的主題詞為核心,進行“標題黨”文章的評判。以王志超等[3]的《基于主題句相似度的標題黨新聞鑒別技術研究》,趙帥[4]的《基于改進型VSM-HowNet融合相似度算法在“標題黨”新聞識別中的研究》為代表的另一類識別算法,以研究文本語義相似度為切入點,通過主題句提取算法,對標題和主題句的相似度進行分析,從而來判別“標題黨”文章。

無論是基于主題詞分布的“標題黨”判別方法,還是基于主題句相似度的“標題黨”識別方法,兩者都僅僅在“純文本”類型的“標題黨”文章識別中具有一定的表現效果。但是,對于以圖片、視頻為主的“標題黨”識別表現較差。

2.2? 基于規則匹配的“標題黨”識別算法

“標題黨”識別算法的核心,是分析標題與文章內容之間的匹配程度。通過第1節的分析可知,文章內容的表現形態有多種,本文通過研究目前已發表的多種“標題黨”識別算法的表現發現,不同的算法,在不同類型的“標題黨”類型文章中的表現不同。因此,對“標題黨”的識別,首先需要采集全面的“標題黨”類型,在識別過程中,應根據“標題黨”類別匹配不同的識別算法。

本文提出一種基于規則匹配的“標題黨”識別算法,通過提取“標題黨”新聞的語法結構特征,構建“標題黨”新聞結構模板規則庫,結合主題詞分布和主題句相似度計算方法,提高“標題黨”識別準確率。

如圖2所示,首先對訓練語料庫中的新聞數據進行基本特征提取,完成以新聞稿件為單位的文檔分詞、詞性標注以及句法分析。然后抽取文檔對應的主題句,在基于主題詞分布和主題句相似度匹配之前,先通過規則庫進行“標題黨”過濾識別,將具有明顯“標題黨”特征的文章直接篩選出來。最后,通過主題詞相似度計算模型進行標題黨識別評分,通過評分結果識別規則庫外的“標題黨”新聞。

其中,根據“標題黨”常見標題結構,本文構建規則庫內容為:

(1)標題長度限制,標題內含有字符長度短,標題沒有具體含義,無法讓用戶辨識出新聞內容的概要,此類新聞具有明顯的“標題黨”嫌疑,在新聞中應處于較為劣質的文章。

(2)標題中使用“極致”修辭手法的,例如:類似于“史上最……”“最強……”“超越想象的……”的虛假宣傳類的劣質文章。

(3)標題中含有誘導類信息,例如:“某貧困女博士面試名企,竟被要求量三圍”“某外國美女不要求中國男方有房有車,但竟然提出這個要求”“美少婦買彩票中頭彩,竟是因為”等。

(4)內容為“眾所周知”的“標題黨”,例如《小紅帽》等經典故事作為文章內容,標題與原著不匹配的劣質文章。

(5)標題中含有違背價值體系的標題,這類“標題黨”容易煽動人內心的負面情緒,比如:“某名牌大學生勤工儉學,卻檢查得了某癌癥,人生最后時刻說出一句話震驚世人”。

(6)標題中內含有敏感詞類的標題,例如含有色情類敏感詞。

(7)標題屬于專業類領域,例如物理、數學、天文等學科,內容包含已知知識內容,例如“你知道宇宙有多大嗎”“宇宙的邊緣竟然在這里”“最接近神的科學家”“人類竟然起源于這里”等,實際內容為隨意拼接的劣質文章。

3? “標題黨”識別算法對比實驗

3.1? 語料集構建

本文構建“標題黨”語料庫共包含1 156篇文章,其中被標注為“標題黨”的文章共371篇。“非標題黨”文章來自河南廣播電視臺2019年1月至2020年6月發布至其內容管理平臺下的通過審核的文章,“標題黨”文章來自網絡資源及自創。具體數據分布如表1所示。

3.2? 實驗結果

本文將被正確識別為“標題黨”的數量記錄為“TP”,被正確識別為“非標題黨”的數量記錄為“TN”,被錯誤識別為“標題黨”的數量記錄為“FP”,被錯誤識別為“非標題黨”的記錄為“FN”。并通過查全率和查準率兩個度量值來比較三種“標題黨”識別算法的優劣。

其中,查全率(Recall)是指從數據庫內檢出的相關信息量與總量的比率。查準率(Precision)是檢出的相關文章與檢出的全部文章的比率。查全率與查準率計算公式如下。

Recall=TP/(TP+FN)

Precision=TP/(TP+FP)

在3.1節描述的語料庫下,基于主題詞分布的“標題黨”識別算法、基于主題句相似度的“標題黨”識別算法以及基于規則匹配的“標題黨”識別算法在不同類別語料集中具體表現如表2、表3、表4所示。

通過對3.2小節的算法的實驗結果可以看出,基于規則匹配的“標題黨”識別算法在整體語料庫上表現較好,因熱點新聞“標題黨”主要以歷史新聞“掐頭去尾”展現,無法建立規則庫,算法表現較差。而基于主題詞分布和基于主題句相似度的“標題黨”識別算法在圖片、視頻類文章上表現最差,無法識別,因為此類文章不含有任何文字類描述,對于主題內容抽取帶來了較大的影響。

4? 結? 論

“標題黨”識別過程中,應根據“標題黨”類別匹配不同的識別算法進行識別,才能讓算法更準確,建立完善的“標題黨”類別庫和“標題黨”規則庫將有效提高“標題黨”識別準確率。

雖然本文論述的基于規則匹配的“標題黨”識別算法在實驗語料中表現良好,但是因為規則庫有限,依然存在一定的識別局限性,需要構建靈活、動態、完善的規則庫,才能讓算法在實際應用中具有更好的表現。

參考文獻:

[1] 羅佳.基于潛在語義分析的標題黨新聞識別技術研究 [D].湖北:湖北工業大學,2015.

[2] 梅鐘霄.基于文本挖掘的新聞標題與內容契合度評價研究 [D].北京:首都經濟貿易大學,2018.

[3] 王志超,翁楠,王宇.基于主題句相似度的標題黨新聞鑒別技術研究 [J].現代圖書情報技術,2011(11):48-53.

[4] 趙帥.基于改進型VSM-HowNet融合相似度算法在“標題黨”新聞識別中的研究 [D].吉林:吉林大學,2018.

作者簡介:楊小峰(1987—),男,漢族,江西吉安人,助教,碩士,研究方向:軟件工程。

猜你喜歡
自動化
國內焊接設備市場現狀及發展趨勢研究
經營者(2016年12期)2016-10-21 07:39:01
供電企業電力自動化主站系統研究
錦界煤礦連采膠帶機集控系統的介紹
供熱站自動控制系統中PLC的應用
AGV小車在白酒行業自動化立體倉庫中的應用
中國市場(2016年36期)2016-10-19 03:40:15
電氣工程及其自動化問題與對策
我國機械設計制造及其自動化的現狀及發展趨勢
淺論節能設計理念在機械制造與自動化中的應用
簡析火力發電廠熱工自動化儀表應用及故障排除方法
配網自動化實用化模式建設及系統運行
主站蜘蛛池模板: 在线99视频| 国产人成在线观看| 国产精品私拍99pans大尺度| 欧美日韩久久综合| 日韩最新中文字幕| 婷婷激情五月网| 国产99视频精品免费观看9e| 青草91视频免费观看| 成人毛片免费观看| 久久无码av一区二区三区| 97视频在线观看免费视频| www.日韩三级| 色屁屁一区二区三区视频国产| 亚洲无码37.| 美女被操黄色视频网站| 国产高清在线丝袜精品一区| 日韩午夜片| 国产亚洲精品自在久久不卡| 国产成人啪视频一区二区三区| 免费人成在线观看成人片| 无码精品一区二区久久久| 日韩乱码免费一区二区三区| 久久永久精品免费视频| 久久精品国产一区二区小说| 国产成人无码久久久久毛片| 99人妻碰碰碰久久久久禁片| 亚洲无线观看| 国产97视频在线观看| 欧美色视频网站| 女人18毛片久久| 国产欧美在线观看精品一区污| 亚洲精品无码在线播放网站| 2021最新国产精品网站| 97在线免费| 天天做天天爱天天爽综合区| 一本久道久综合久久鬼色| 亚洲视频一区| 91色国产在线| 亚洲an第二区国产精品| 国产欧美日韩资源在线观看| 欧美日韩国产高清一区二区三区| 国产白浆在线| 亚洲精品欧美日本中文字幕| 茄子视频毛片免费观看| 欧美精品v欧洲精品| 亚洲av日韩av制服丝袜| 久久人人爽人人爽人人片aV东京热| 欧美性天天| 91福利在线观看视频| 美女高潮全身流白浆福利区| 欧美成人影院亚洲综合图| 国产剧情一区二区| 97视频在线精品国自产拍| 爱做久久久久久| 青青草91视频| 亚洲国产亚综合在线区| 五月综合色婷婷| 乱人伦中文视频在线观看免费| 精品一区二区三区波多野结衣| 亚洲成在人线av品善网好看| 久久永久精品免费视频| 精品福利视频导航| 日本亚洲成高清一区二区三区| 久久美女精品国产精品亚洲| 国产精品性| 国产精品yjizz视频网一二区| 超碰精品无码一区二区| 国产在线一区视频| 九色视频一区| 精品伊人久久久香线蕉| 国产女主播一区| 性激烈欧美三级在线播放| 亚洲国产看片基地久久1024| 伊人成人在线视频| 国产jizz| 免费中文字幕一级毛片| 成人在线第一页| 91无码人妻精品一区| 久久鸭综合久久国产| 欧美成人精品一级在线观看| 人妻中文字幕无码久久一区| 国产chinese男男gay视频网|