999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

政策解讀大數(shù)據(jù)分析應用的實踐探究

2019-04-29 06:06:18譚辛
中國傳媒科技 2019年3期
關鍵詞:多維度分類文本

文/譚辛

引言

每年國家各級政府部門都有大量的政策發(fā)布,政策內容涉及到社會發(fā)展和民生的方方面面,因此每項新政發(fā)布都備受關注。政策發(fā)布的目的是什么,如何詳細解讀政策,政策發(fā)布后哪些行業(yè)領域受到怎樣的影響,在政策以及解讀已成為媒體界、企業(yè)界、學術界,以及普通百姓等社會各方關注的焦點。如何快速和全面地收集和分析政策及解讀數(shù)據(jù)具有現(xiàn)實的意義。

本文介紹通過自動化的網(wǎng)絡信息抓取技術、大數(shù)據(jù)技術和文本智能挖掘技術,快速高效地匯聚最新政策和政策解讀信息,并在此基礎上進行政策關鍵要素信息提取、數(shù)據(jù)多維度分類、數(shù)據(jù)關聯(lián)等加工處理,從而形成一套政策解讀的數(shù)據(jù)產品,為媒體從業(yè)者、行業(yè)研究人員、企業(yè)界提供多場景和多角色的信息服務,提升信息獲取和數(shù)據(jù)研究的工作效率。

1.政策信息獲取難點

各行業(yè)對最新政策信息獲取具有較高的需求和要求。對于媒體行業(yè),需要第一時間獲取到政策發(fā)布信息,并針對新政撰寫宣傳報道或解讀性文章,稿件發(fā)布的時效性體現(xiàn)并影響著媒體的傳播力和影響力;對于企業(yè)而言,需要及時研究新政對企業(yè)發(fā)展、研發(fā)投入、市場變化、決策分析等方面帶來的影響而制定企業(yè)內部策略,很多政策的發(fā)布對企業(yè)發(fā)展方向有著至關重要的影響。但政策信息來源廣泛、發(fā)布時間不集中、信息有待關聯(lián)整合等制約了政策信息的獲取。

1.1 政策數(shù)據(jù)來源廣泛

政策發(fā)布均來自各級政府部門,對于個人查詢政策信息的難度在于來源廣泛的問題。首先,權威的政策查詢源頭為政府部門的官方網(wǎng)站、官方新聞客戶端、官方微信公眾號和官方認證微博,發(fā)布源頭類型較多;其次,政府部門按級別、按部門類型,數(shù)量較為龐大,即便僅關注單一領域的政策,也需要關注多個政府官方信息發(fā)布源頭;再次,對于政策發(fā)布后的政策解讀文章,除了政府官方網(wǎng)站的官方解讀文章外,政府部門官員、領域內專家學者、研究機構的研究人員、媒體業(yè)專家等撰寫的解讀文章也具有非常高的閱讀價值,但是這些來源更為廣泛,可能來自比如新聞門戶網(wǎng)站、新聞客戶端、報紙或紙媒電子報、機構的微信公眾號或微博、領域內專家學者個人的博客、公眾號或微博等。總之,想要快速瀏覽到各方發(fā)表的政策解讀信息存在一定困難。

1.2 發(fā)布時間不一

每年發(fā)布的政策中,只有很少一部分是在固定時間段內發(fā)布,另外的大部分都是根據(jù)社會發(fā)展需要而實時推出的,無法提前準備政策信息獲取工作。

綜上所述,在信息過載的當下,如何快速高效獲取政策和解讀信息,如何精準獲取各行業(yè)研究人員需要的數(shù)據(jù),如何借助人工智能和機器分析能力匯聚分析信息為研究人員服務,成為政策解讀應用需要解決的關鍵問題。

2.政策解讀大數(shù)據(jù)分析的應用實踐

政策解讀應用借助大數(shù)據(jù)和人工智能技術,實現(xiàn)了自動化的信息采集、多維度的自動標引、文本挖掘和關聯(lián)分析,通過可視化的展示提升了政策及政策解讀信息的使用效率。

2.1 自動化監(jiān)測采集

通過借助成熟的自動化網(wǎng)絡信息抓取軟件,實現(xiàn)對政策和解讀信息發(fā)布源頭目標網(wǎng)站做實時監(jiān)控,把最新的網(wǎng)頁及時采集到本地,進行內容分析和信息過濾等流程,完成政策解讀信息本地存儲。

數(shù)據(jù)采集過程中,應用不僅將網(wǎng)頁的非結構化數(shù)據(jù)轉變成半結構化數(shù)據(jù),同時自動提取政策名稱、發(fā)布時間、政策文本內容,以及發(fā)文單位名稱、發(fā)布網(wǎng)站名稱、頻道名稱、發(fā)文鏈接地址等政策相關數(shù)據(jù)。后續(xù)進行的文本挖掘和加工處理,構建了政策元數(shù)據(jù)數(shù)據(jù)庫,為政策解讀應用提供基礎數(shù)據(jù)服務。

采集源頭主要面向一手發(fā)布數(shù)據(jù)源,而非經(jīng)過轉載后的二手數(shù)據(jù),以保證信息獲取的及時性、準確性和可靠性。

2.2 政策和解讀信息加工處理

數(shù)據(jù)采集技術,對最新網(wǎng)絡數(shù)據(jù)實時監(jiān)控采集,解放個人瀏覽和搜索時間。文本挖掘技術,提供信息自動化分類、自動聚類、智能化信息提取、數(shù)據(jù)關聯(lián)分析和數(shù)據(jù)自動標引等一系列數(shù)據(jù)加工處理,解決政策數(shù)據(jù)孤島問題,讓政策數(shù)據(jù)應用更加有效。圖1為政策及解讀數(shù)據(jù)加工處理流程圖。

圖1 數(shù)據(jù)加工處理流程圖

2.3 多維度分類標引

采用自動分類和規(guī)則分類技術,對政策做多維度分類標引,用以幫助不同身份用戶在不同需求場景下更加快速、有針對性地查找到所需類目和對應的政策信息。包括政策所屬行業(yè)領域、所屬地域名稱、發(fā)布單位名稱、所屬主題名稱、發(fā)文形式、所屬年份等分類標簽。分類類別舉例如表1所示。

表1 政策分類名稱和分類值舉例

在前端應用功能中,利用這些政策標簽,采用細分導航的方式,進行政策列表展示。通過組合式的檢索功能對政策和解讀文章進行搜索,讓用戶可以通過自定義關鍵詞的方式獲取個性化的檢索結果,達到快速、全面了解信息的目的。對政策和解讀文章的標題、正文和主題提供全文檢索功能。對政策的發(fā)布單位名稱、發(fā)文形式、所屬行業(yè)領域、所屬地域、發(fā)布年份等字段,提供篩選功能。多維度分類標簽,也讓頁面篩選更為靈活,為個性化訂閱提供基礎選項。

2.4 政策文本挖掘

對政策文本做數(shù)據(jù)挖掘和關鍵信息提取,是政策索引和檢索、信息關聯(lián)分析、多維度分類標引等數(shù)據(jù)加工的基礎。采用文本自動分詞和詞性標注等自然語言處理技術,基于規(guī)則與統(tǒng)計相結合的方式,將政策文本進行中文分詞以及政策信息提取,包括政策主題關鍵詞、相關人物、機構、地區(qū)名稱等信息的結構化提取,完成政策的關鍵詞和實體標引。

在政策信息展示功能中,通過多維度的智能分析與關聯(lián),幫助用戶快速地發(fā)現(xiàn)該政策中的關鍵信息以及關聯(lián)文章。以圖表化形式,展示政策主題詞、政策主體挖掘結果(相關人物、相關機構、相關地區(qū))、政策解讀文章時間發(fā)布趨勢和數(shù)量;以文章標題列表方式,展示相關政策、相關解讀文章、相關媒體報道文章。展現(xiàn)結果示意圖如圖2所示。

圖2 政策挖掘結果展示圖

快速挖掘多方觀點,對多方觀點進行對比展示,可以使用戶更全面地把握政策內容。利用語義分析技術,把多文章之間的相關度超過一定閾值的文章關聯(lián)到一起,實現(xiàn)復雜語義關系的深度挖掘,從而完成政策與官方解讀文章、媒體解讀文章、相關報道文章、往年政策等進行相互關聯(lián)分析。通過數(shù)據(jù)挖掘工具對政策和解讀文章加以處理,抽取各方觀點句與觀點評價對象,再對抽取結果進行綜合性分析,得到觀點分析的結果。

2.5 可視化展示

良好的數(shù)據(jù)呈現(xiàn)方式,對于用戶體驗至關重要。政策解讀數(shù)據(jù)產品終端服務界面,采用多種瀏覽方式實現(xiàn)功能和數(shù)據(jù)的展示,來提升用戶的閱讀興趣和數(shù)據(jù)可讀性。

采用分類導航和文章列表相結合的方式,幫助用戶直觀、快速和全面地獲取信息,提升工作效率。政策畫像功能,采用統(tǒng)計圖形化方式,對個性化制定時間段內的政策進行多種圖形展示,掌握政策在主題、行業(yè)領域、地區(qū)、發(fā)布機構等全貌。數(shù)據(jù)新聞是一種用圖形化的方式來解讀新聞的創(chuàng)新形式,應用在政策的解讀上面也有非常好的效果,可以大大提升用戶瀏覽的興趣度和理解度。圖解政策尤其對難以理解的政策內容,或者篇幅較長的政策,更能顯示其優(yōu)勢。

對于需要長期關注的政策類型,用戶可以設置個性化政策專題,可以訂閱所關注的行業(yè)、區(qū)域和主題的政策,對于沒加入訂閱的政策內容不做展示,做到簡化界面和數(shù)據(jù)篩選。

3.展望

目前,政策解讀大數(shù)據(jù)分析應用已經(jīng)上線為編輯記者提供服務,通過大數(shù)據(jù)聚類和分析、組合檢索、政策畫像、統(tǒng)計比對的功能,讓用戶快速、全面和高效地獲取所關注的政策和解讀信息。通過HTML5、統(tǒng)計圖表、圖解等方式,提升用戶閱讀效率。通過政策專題、個性化訂閱等方式,將用戶關注的要點進行固化,提升效率。政策信息獲取和基礎分析部分工作提效明顯,使用戶擺脫了繁瑣的篩選工作,拓寬記者報道的維度和視野,以便有更多精力和時間投入到內容品質提升上面。

下一步,該服務將在融媒體技術和平臺基礎上結合媒體的優(yōu)勢,在信息精選和數(shù)據(jù)加工上下功夫,在內容生產與用戶個性化需求之間實現(xiàn)智能匹配,探索數(shù)據(jù)增值和基于大數(shù)據(jù)技術提供數(shù)據(jù)增值服務的運營產品。

猜你喜歡
多維度分類文本
分類算一算
“多維度評改”方法初探
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
多維度市南
商周刊(2017年7期)2017-08-22 03:36:22
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲人成影视在线观看| 国产午夜人做人免费视频| 米奇精品一区二区三区| 亚洲va视频| 亚洲国产黄色| 亚洲小视频网站| 国产免费高清无需播放器| 日韩精品亚洲精品第一页| 国产精品亚洲va在线观看| 亚洲精品第五页| 一级看片免费视频| 欧美一区二区福利视频| 91精品网站| 伊人无码视屏| 亚洲综合九九| 精品欧美视频| 不卡网亚洲无码| 99国产精品免费观看视频| 激情无码视频在线看| 亚洲一级毛片在线观播放| 免费看黄片一区二区三区| 国产精品成人免费综合| 国产久草视频| 亚洲精品第一在线观看视频| 18禁不卡免费网站| 欧美午夜一区| 成人精品视频一区二区在线| 无码一区18禁| 狠狠做深爱婷婷综合一区| 97人妻精品专区久久久久| 日韩欧美中文字幕在线精品| 3344在线观看无码| 天天躁狠狠躁| 亚洲国产高清精品线久久| 毛片网站观看| 國產尤物AV尤物在線觀看| 啪啪免费视频一区二区| 亚洲毛片网站| 久久久久人妻一区精品色奶水 | 在线精品自拍| 91九色视频网| 欧美精品1区| 国产欧美网站| 国产色伊人| 亚洲妓女综合网995久久| 久久超级碰| 中文字幕亚洲乱码熟女1区2区| 97人人模人人爽人人喊小说| 亚洲精品男人天堂| 免费看黄片一区二区三区| 好久久免费视频高清| 国产精品性| 一区二区三区精品视频在线观看| 在线免费a视频| 澳门av无码| 国产成人精品一区二区秒拍1o| 波多野结衣一级毛片| 激情六月丁香婷婷| 国产黄色片在线看| 成人免费黄色小视频| 丁香五月婷婷激情基地| 中文字幕精品一区二区三区视频| 黄色a一级视频| 免费人成黄页在线观看国产| 日韩无码一二三区| 亚洲国产成人自拍| 青草国产在线视频| 国产在线无码一区二区三区| 免费在线一区| 亚洲va在线∨a天堂va欧美va| 伊在人亞洲香蕉精品區| 国产精品中文免费福利| 久久精品无码一区二区日韩免费| 国产AV无码专区亚洲A∨毛片| 宅男噜噜噜66国产在线观看| 国产95在线 | 亚洲性网站| 久草国产在线观看| 国产午夜福利亚洲第一| 婷婷午夜天| 一级成人a毛片免费播放| 国产精品一区二区不卡的视频|