999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新聞節目導語中關鍵詞自動提取方法研究

2014-07-02 00:29:33何曉華朱津津
電視技術 2014年20期
關鍵詞:文本方法

何曉華,朱津津,凌 堅

(浙江傳媒學院 電子信息學院,浙江 杭州 310018)

新聞節目導語中關鍵詞自動提取方法研究

何曉華,朱津津,凌 堅

(浙江傳媒學院 電子信息學院,浙江 杭州 310018)

利用詞語在文本中的特征信息衡量詞語與文本主題相關程度,提出了一種在新聞節目導語中提取關鍵詞的方法,該方法綜合了詞頻、位置分布等特征,組合詞方案,并在詞頻、位置分布特征時考慮了同義詞的影響,在實際使用中取得較好效果。

提取;節目導語;同義詞;詞語特征;組合詞

隨著新媒體和網絡技術的發展,視頻新聞節目從無差別的廣播方式逐步向個性化、自主化的點播方式轉變。為了讓受眾從海量視頻新聞節目中檢索到感興趣的節目,系統必須提供有效的檢索方式。直接視頻檢索存在著諸多的問題,關鍵詞檢索是目前廣泛采用的有效方法。為了實現利用關鍵詞檢索新聞節目,首先要為每個節目提取合適的關鍵詞,人工方法是通過觀看整個節目或閱讀節目文稿,根據個人理解提取節目的關鍵詞,需要耗費大量的人力。因此,研究采用計算機從新聞節目中自動提取關鍵詞的方法具有重要的實際意義。

國內外對關鍵詞提取方法做了大量的研究,直接通過分析文本語義確定關鍵詞目前還有著諸多困難,基本方法主要分為兩大類:基于統計信息和機器學習?;诮y計信息的方法選取單詞或詞組在文中的某些特征作為統計依據,常用的特征包括詞頻、TF-IDF、N-Gram、詞長、出現位置等[1-2],此類方法簡單易行,在單主題短文中有比較好的效果。在機器學習方法中,借助大量已標注的語料庫作為訓練集,通過訓練特征參數構造分類模型,將關鍵詞抽取問題轉化為分類問題,或者將關鍵詞視為一篇文章中重要且語義聚集的詞語的代表,將關鍵詞抽取問題轉化為聚類問題。例如基于支持向量機、最大熵模型、相對熵算法、基于聚類的文本摘要等[3]。此類算法不需要訓練集,通用性較好,但此類方法對輸入樣本的類別及聚類的類別數具有較高要求,很難完全覆蓋整個樣本空間,影響關鍵詞提取質量。

此外,針對中文的語言特點提出了一些關鍵詞提取方法,如條件隨機場抽取、中文關鍵詞Text Rank模型和同義詞鏈等方法[4-5],已取得了較好的結果。目前,度量詞語和內容關聯程度、劃分和組合詞語等是關鍵詞抽取方法的研究重點。本文針對新聞內容的特點,提出了一種在新聞視頻節目導語中提取關鍵詞的方法。該方法利用新聞視頻中內容文本的特點,以詞頻、詞性和詞語位置為詞語特征,計算詞語和文本主題的相關程度,給出了組合詞處理方法。

1 整體框架

關鍵詞分析的對象是文本,因此,首先要從視頻新聞節目中獲取內容相關的文本,其主體是播音員播報的語言,稱為導語。利用新聞節目制作時的文稿或通過語音識別、人工編目等方式獲得新聞節目的導語。獲取節目導語文本后,先對文本進行分詞、確定詞性,并過濾掉文本中與主題無關的詞語,這些詞語只用于語法結構,如“的”、“但是”等,稱為停用詞,剩下的詞語作為關鍵詞的候選詞;然后通過對候選詞的詞頻、詞性和位置等信息的統計分析,確定各詞匯與文本內容的相關程度。視頻新聞節目的關鍵詞提取的主體框架如圖1所示。

圖1 關鍵詞提取的過程

2 詞語特征選取和權重設置

基于統計信息提取關鍵詞是利用詞語某些統計特性與文本主題之間的相關性,把相關程度最高的詞語作為文本的關鍵詞。通過對新聞節目的分析統計,一個新聞單元一般只包含一個主題,導語文本經過分詞和停用詞過濾后的候選詞不超過100個,相對比較短小。選用詞頻、詞性位置作為統計特性,綜合確定詞語的權重。

2.1 詞頻權重

如果某個詞語在文本中出現的次數越多,即詞頻越高,就越有可能成為關鍵詞,但實際上因為中文表達中同義詞的存在,比如“電腦”、“計算機”等詞表示的是同一個或是十分相近的意思。有些詞雖然在文中只出現了一次,但卻也表達了比較重要的概念,根據常規的詞頻統計的方法,這個詞很可能不會出現在關鍵詞表中,但同時文中又出現了其同義詞,因此,考慮把文中某個詞的同義詞一起統計計算該詞的詞頻。這樣就可以把一部分低頻詞語通過語義關系整理形成一些新的高頻項。

本文中同義詞依據《同義詞詞林擴展版》,《同義詞詞林》原版是梅家駒等人編寫構造的,哈工大信息檢索研究室在《同義詞詞林》的基礎上對其進行了擴展。對經過分詞并去除停用詞等以后的文本進行處理,對處理后文本中的詞,查找文中是否存在同義詞,把第一個出現的同義詞作為候選關鍵詞并統計詞頻。本文采用一個歸一化的詞頻計算方法,公式如下

式中:ni為候選詞i的在文中出現的次數(含i的同義詞出現的次數);freqi為候選詞i的歸一化詞頻。顯然,詞頻權重和詞頻成正比是合理的。

2.2 詞性

詞語的詞性對一個詞能否成為關鍵詞的影響很大。一般情況下,名詞和動詞成為關鍵詞的可能性最大,地點和人物姓名也是非常重要的詞語。基于這樣的判斷,設置詞性權重計算公式為

式中:location和people指表示地點或人物,具體權重值可以按實際結果做相應調整。

2.3 詞語出現位置

詞語首次出現的位置和分布也能在一定程度上反映該詞語與文本主題的關聯程度,越靠前、分布范圍大的詞語則越是重要。由于詞語在文本中的分布比較復雜,為簡化計算,用該詞在文中首次出現和末次出現的跨度來表示詞語的分布,定義詞語位置特征的權重為

式中:f_loci為詞i在正文中首次出現的位置;N為文本中的詞數總數;l_loci為詞i末次出現位置。該公式考慮了詞語或其同義詞在文中首次位置和跨度。顯然,首次出現越靠前、在文字中分布跨度越大,則該詞與新聞主題關聯越強,權重就越大。

2.4 組合詞生成

關鍵詞并不局限于單個詞語,也可以是詞語組合,事實上,詞組往往更能反映文本主題。如果在文本中詞相鄰出現多次,很有可能是具有完整語義的詞組的拆分。提取關鍵詞是應該考慮把這樣的詞組合起來,得到一個意義表達更為豐富完整的組合詞。例如,“索契冬奧會”一詞在文本中同時出現多次,而分詞系統將其拆分為“索契”和“冬奧會”。很明顯,組合詞表達了更為豐富的含義。組合詞中的各個詞語具有相似的權重,如果有多個相鄰的詞語具有相似的權重,應該將這些詞語組合成一個關鍵詞,并且以這些詞語中最大權重為該詞組的權重,參與關鍵詞的選擇。

3 關鍵詞選擇算法

綜合以上各個特征和權重的分析,得到最終的權重計算公式如下

式中:α,β,γ為各個特征權重的比例因子,用以調整不同特征權重在最終權重的貢獻度大小,一般可以通過實際效果決定,比如α=1.5,β=0.8,γ=0.6。

至此,本文設計了關鍵詞提取的算法,該算法在為多家電視臺存檔的新聞視頻節目進行編目處理中得到了應用,進行自動關鍵詞提取,取得較好效果。算法過程如下:

1)輸入視頻,如果視頻有對應的文稿,取文稿數據中的導語,轉步驟3)。

2)分離伴音數據,調用語音識別模塊,將語音識別內容作為導語。

3)利用分詞模塊,對導語文本進行分詞,并對照停用詞表,過濾停用詞,確定詞匯詞性,生成候選詞集。

4)按式(4)計算各個詞匯的權重。

5)分析可能存在的組合詞。

6)按權重大小排序,取最大的N個作為該新聞節目的關鍵詞。

算法在計算詞匯統計特征時考慮了同義詞對關鍵詞提取的影響,避免了遺漏合適的關鍵詞或同義詞同時選入的情況,對關鍵詞選取的合理性有提高。

4 結束語

本文在分析視頻新聞節目特點的基礎上,提出了一種基于詞語特征信息統計的關鍵詞提取算法。首先通過綜合詞頻、詞性和詞語的位置等典型的詞語特征,計算詞語和文本主題的相關程度,在分析詞頻和詞語位置時考慮了同義詞的影響,并提出了組合詞的處理方法。算法在為多家電視臺存檔的新聞視頻節目進行編目處理中得到應用,進行自動關鍵詞提取,有效地減輕了人工勞動強度,降低了視頻資源再利用的成本。

[1]李靜月,李培峰,朱巧明.一種改進的TFIDF網頁關鍵詞提取方法[J].計算機應用與軟件,2011,28(5):25-27.

[2]馬穎華,王永成,蘇貴洋,等.一種基于字同現頻率的漢語文本主題抽取方法[J].計算機研究與發展,2003,40(6):874-878.

[3] 蔣昌金,彭宏,陳建超,等.基于組合詞和同義詞集的關鍵詞提取算法[J].計算機應用研究,2010,27(8):2853-2856.

[4] 張穎穎,謝強,丁秋林.基于同義詞鏈的中文關鍵詞提取算法[J].計算機工程,2010,36(19):93-95.

[5]索紅光,劉玉樹,曾淑英.一種基于詞匯鏈的關鍵詞抽取方法[J].中文信息學報,2006,20(6):25-30.

Research on Automatic Keywords Extraction M ethod in News Programs Leads

HE Xiaohua,ZHU Jinjin,LING Jian
(School of Electronics and Information,Zhejiang University of Media and Communications,Hangzhou 310018,China)

A method of extracting keywords in news leads is proposed in this paper using multi-feature information of the words in the text as a measure of the relationship between the text topic and the words,and these features inclus statistical feature,position feature which considering the influence of synonyms and POS(Part of Speech)feature.In practice use,the method achieves better results.

extraction;news leads;synonym;words characteristic;compound words

TN948

A

何曉華(1975—),女,副教授,主要從事數字通信、視頻處理的研究;

??健男

2014-04-06

【本文獻信息】何曉華,朱津津,凌堅.新聞節目導語中關鍵詞自動提取方法研究[J].電視技術,2014,38(20).

浙江廣播電視技術研究所2013年科研項目

朱津津(1980—),女,實驗師,主要從事電視技術的研究和應用;

凌 堅(1968—),副教授,主要從事智能多媒體、視頻處理的研究。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 人妻熟妇日韩AV在线播放| 久久人人97超碰人人澡爱香蕉 | 亚洲视频欧美不卡| 无码啪啪精品天堂浪潮av| 色天堂无毒不卡| 欧美精品成人| 欧美日本视频在线观看| 国产美女在线免费观看| 一本大道香蕉久中文在线播放| 亚洲美女高潮久久久久久久| 亚洲综合在线网| 一级一毛片a级毛片| 国产乱人伦精品一区二区| 蜜桃视频一区| 国产人成在线视频| 美臀人妻中出中文字幕在线| 99热国产在线精品99| 国产99视频精品免费观看9e| 日韩一二三区视频精品| 久热中文字幕在线观看| 色综合久久88色综合天天提莫| 亚洲国产黄色| 国产96在线 | 亚洲欧美成人影院| 国产原创第一页在线观看| 欧美性天天| 日本精品αv中文字幕| 爱做久久久久久| 大陆精大陆国产国语精品1024| 国产又粗又爽视频| 国产99精品久久| 亚洲成人黄色在线观看| 亚洲永久色| 国产女人水多毛片18| 国产伦精品一区二区三区视频优播| 国产成人亚洲精品色欲AV| 91香蕉视频下载网站| 最新国产麻豆aⅴ精品无| 国产一区二区网站| …亚洲 欧洲 另类 春色| 2021天堂在线亚洲精品专区| 欧美日韩激情在线| 国产视频大全| 22sihu国产精品视频影视资讯| 午夜毛片福利| a级毛片一区二区免费视频| 日韩av无码精品专区| 国产91精品久久| 日韩欧美国产三级| 婷婷午夜天| 一级高清毛片免费a级高清毛片| 国产免费羞羞视频| 亚洲最大福利视频网| 国产第三区| 久青草免费在线视频| 日本影院一区| 久久综合婷婷| 亚洲av无码片一区二区三区| 国产欧美视频综合二区| 国产微拍一区| 天堂成人在线视频| 国产成人精品三级| 国产在线一区二区视频| 日韩AV无码免费一二三区| 最新痴汉在线无码AV| 一级毛片在线免费看| 欧美亚洲激情| 亚洲国产欧洲精品路线久久| 国产真实二区一区在线亚洲| 欧美在线视频a| 伊在人亞洲香蕉精品區| 日韩毛片在线视频| 日本精品αv中文字幕| 五月激激激综合网色播免费| 国产精品亚洲αv天堂无码| 国产精品观看视频免费完整版| 一区二区三区高清视频国产女人| 午夜影院a级片| 青青青国产视频手机| 欧美精品亚洲日韩a| 日韩av电影一区二区三区四区 | 91久久偷偷做嫩草影院|