999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的檢察院新媒體平臺稿件優(yōu)化方法

2018-11-17 01:31:40陳立華劉盼盼
軟件 2018年10期
關鍵詞:微信

季 芳,陳立華,孫 浩,劉盼盼

?

基于大數(shù)據(jù)的檢察院新媒體平臺稿件優(yōu)化方法

季 芳1,陳立華2,孫 浩2,劉盼盼2

(1. 最高人民檢察院檢察技術信息研究中心,北京;2. 山東大眾信息產(chǎn)業(yè)有限公司,山東 濟南)

本文提出一種基于大數(shù)據(jù)與語義分析技術的稿件優(yōu)化系統(tǒng)實現(xiàn)方法,該方法依據(jù)各級檢察院以往文章的傳播數(shù)據(jù),對原創(chuàng)稿件和網(wǎng)絡采集稿件進行評級和傳播效果預測,篩選出符合檢察機關官方新媒體賬號屬性的優(yōu)秀稿件。以信息技術手段輔助創(chuàng)作,為提升檢察院新媒體平臺的內(nèi)容質(zhì)量和傳播效果提供了技術支撐。統(tǒng)計數(shù)據(jù)表明,該方法可有效的提升檢察機關新媒體平臺的輿論影響力和宣傳力度。

大數(shù)據(jù);機器學習;自然語言處理;新媒體創(chuàng)作

0 引言

隨著移動通訊網(wǎng)絡環(huán)境的不斷完善以及智能手機的進一步普及,移動互聯(lián)網(wǎng)應用向用戶各類生活場景深入滲透,促進手機上網(wǎng)使用率增長。互聯(lián)網(wǎng)及移動化的普及,也使得新媒體以互聯(lián)網(wǎng)為依托得到了迅速發(fā)展。國務院辦公廳發(fā)布的《2017年政務公開工作要點》中對信息公開、政策解讀、回應關切、制度機制建設、公眾參與等方面提出了新思路,新要求。檢察院積極貫徹黨中央的重要戰(zhàn)略部署,主動順應“互聯(lián)網(wǎng)+”的發(fā)展趨勢,在職能范圍內(nèi)靈活運用互聯(lián)網(wǎng)思維,充分利用大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等現(xiàn)代信息技術,激發(fā)創(chuàng)新智慧與創(chuàng)造活力,推動檢察工作創(chuàng)新發(fā)展,成為“互聯(lián)網(wǎng)十檢察工作”的主要內(nèi)容。如何充分利用官方微博、微信等自媒體平臺聚攏人氣,擴大影響力,如何提高內(nèi)容質(zhì)量提出了更高的要求。

曹建明檢察長在全國檢察機關新聞宣傳工作會議上要求統(tǒng)籌運用傳統(tǒng)媒體和新興媒體,著力提升新媒體時代社會溝通能力,弘揚檢察“主旋律”,唱響檢察“好聲音”,傳播檢察“正能量”,為促進人民檢察事業(yè)創(chuàng)新發(fā)展、全面推進依法治國作出更大貢獻。

1 研究概述

本研究以檢察院微信公眾號歷史文章的相關數(shù)據(jù)為基礎,結(jié)合大數(shù)據(jù)與自然語言(NLP)分析技術,根據(jù)自媒體平臺歷史文章的傳播情況為參照,采用機器學習的方式,建立文章傳播預測模型,對網(wǎng)絡上采集的內(nèi)容及原創(chuàng)內(nèi)容進行評級和預測,篩選出符合檢察機關官方新媒體賬號性質(zhì)的文章,從而達到輔助運營人員進行文章創(chuàng)作的目的。本研究主要從數(shù)據(jù)抓取、自然語言處理、公眾號畫像和傳播預測模型四個方面進行了探索。

數(shù)據(jù)抓取:對檢察院微信公眾號歷史文章的相關數(shù)據(jù)進行抓取,包含文章標題、正文、發(fā)布時間、閱讀量、點贊量等數(shù)據(jù),考慮該研究的主要內(nèi)容與數(shù)據(jù)獲取方式的優(yōu)缺點,本研究選用從數(shù)據(jù)公司購買數(shù)據(jù)進行研究,在本文中不再贅述。

自然語言處理:對檢察院微信公眾號歷史文章進行處理,分析文章關鍵詞及其詞頻。

公眾號畫像:公眾號畫像數(shù)據(jù)包括公眾號粉絲數(shù)據(jù),包括粉絲數(shù)、粉絲分布、性別、時長、來源等,還有公眾號文章數(shù)據(jù),包括推送頻率、推送順序、標題長度、主題情況等。本研究從已授權的微信公眾號接口獲取公眾號畫像數(shù)據(jù),在本文中不再贅述。

傳播預測模型:針對前面步驟獲取的數(shù)據(jù),利用機器學習算法,建立文章預測模型對準備發(fā)表文章的傳播情況進行預測。

2 自然語言處理

自然語言處理是研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論方法,目標是使用機器能夠理解和產(chǎn)生自然語言,而自然語言理解和產(chǎn)生的前提是對語言能夠做出全面的解析。

漢語詞匯是語言中能夠獨立運用的最小的語言單位,是語言中的原子結(jié)構(gòu)。漢語的研究可分為語法層面和語義層面的研究。語法層面包括中文分詞、詞性標注以及句法解析;語義層面包括命名實體識別、語義組塊以及語義角色標注[9]。基于自然語言處理,可以進行關鍵詞提取、情感分析以及自動問答等。

因此對中文進行分析就顯得至關重要。

本文基于自然語言處理的基本技術,實現(xiàn)了對歷史文章關的鍵詞提取,首先采用分詞技術處理文章,過濾停用詞,保留有效的詞;然后采用tf-idf(term frequency–inverse document frequency)算法計算出每個詞語的權重;最后結(jié)合詞語出現(xiàn)在標題中的重要性實現(xiàn)了關鍵詞的提取[9]。在上述基礎之上,根據(jù)每篇公眾號文章的閱讀數(shù)綜合考慮得到公眾號的關鍵詞云。

串補技術最早應用在中國的輸電線路中[10-12],該技術能顯著提高大容量、遠距離輸電線路的利用效率,促進電網(wǎng)的穩(wěn)定運行水平,降低輸電損耗。將串補技術引用到配電線路中,同樣可以解決配電網(wǎng)電壓問題[11-12],不僅可以調(diào)節(jié)過電壓或低電壓至合格電壓水平內(nèi),同時可以提高線路的功率因素降低線路損耗。

首先根據(jù)tf-idf(term frequency-inverse document frequency)計算公式并結(jié)合公眾號文章標題的重要性,得到每篇文章中的關鍵詞。然后根據(jù)每篇文章的閱讀數(shù)綜合考慮得到公眾號的關鍵詞云。

每篇文章中詞語權重的計算公式如下:

每篇文章中關鍵詞最終權重的計算公式:

多篇文章中同時出現(xiàn)該關鍵詞時,取權重最大的作為該關鍵詞的最終權重。計算出權重后,排序,顯示,得到最終的關鍵詞云。

3 預測模型

3.1 數(shù)據(jù)劃分

將微信號文章數(shù)據(jù)隨機取三分之二作為訓練語料,取三分之一作為測試語料。

3.2 算法選取

公眾號下文章的傳播效果可以用文章的閱讀數(shù)或者點贊數(shù)表示,暫時以閱讀數(shù)代表文章的傳播效果。可以采用機器學習中的分類或者回歸模型實現(xiàn)閱讀數(shù)的預測。基于分類模型的方法通常是將文章按閱讀數(shù)劃分為幾個等級,然后進行多元分類,目前沒有統(tǒng)一的分類標準。基于回歸模型的方法試圖找到影響因素與閱讀數(shù)之間的相關關系,進而使用線性回歸或非線性回歸模型進行[1]。研究目的是預測出文章閱讀數(shù)的具體值,屬于連續(xù)型數(shù)據(jù)的預測,因此應采用機器學習算法中的回歸分析算法實現(xiàn)。具體可采用多元線性回歸的方法實現(xiàn)。該方法通過已有的大量歷史數(shù)據(jù),找到一條最佳擬合直線,作為自變量和因變量的函數(shù)直線,最終實現(xiàn)預測。[7]

3.3 影響因素(自變量)的選取

公眾號推送新文章時,該文章未來的閱讀數(shù),受多方因素影響,主要從兩個角度考慮。一是從公眾號特性的角度,包括公眾號的粉絲數(shù)量、公眾號男女粉絲比例、公眾號推送文章的頻率以及公眾號粉絲的地域分布等;二是從文章的角度,包括文章推送的時間段、文章推送的順序、文章標題的長度、文章的情感傾向以及文章的主題等。

3.4 線性回歸算法

線性回歸(Linear Regression),數(shù)理統(tǒng)計中回歸分析,用來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,其表達形式為y = w'x+e,e為誤差服從均值為0的正態(tài)分布,其中只有一個自變量的情況稱為簡單回歸,多個自變量的情況叫多元回歸[11]。

n組觀測值時,

其矩陣形式為

最終計算出線性方程的所有參數(shù)的值。當有新的數(shù)據(jù)需要預測時,只需要將新數(shù)據(jù)的各個影響因素的值輸入即可得到相應的預測閱讀數(shù)。

按照該方法建立模型后輸入文章標題、發(fā)布時間和正文內(nèi)容后即可對文章的閱讀量和傳播效果進行預測,如下圖所示。

圖1 文章預測示例

4 結(jié)語

選取“最高人民檢察院”微信公眾號發(fā)布的歷史文章,對預測模型的預測數(shù)據(jù)和實際的傳播數(shù)據(jù)進行比對,結(jié)果如下。

由以上對比圖可看出,該研究對文章的傳播預測與實際情況相差不大,該項研究已經(jīng)應用到最高人民檢察院的微信管理系統(tǒng)中,有效提升了檢察院新媒體文章的閱讀量和傳播,得到了檢察院新媒體工作人員的一致肯定。

表1 文章閱讀數(shù)預測值與實際值對比

Tab.1 Comparison of predicted and actual values of article readings

表2 文章點贊數(shù)預測值與實際值對比

Tab.2 The article compares the predicted value with the actual value

[1] 范淼, 李超. Python 機器學習及實踐-從零開始通往Kaggle競賽之路. 清華大學出版社. 2016: 64-81.

[2] 周志華. 機器學習. 清華大學出版社. 2016.

[3] Pedro Domingos. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World[M]. Basic Books, 2015.

[4] Daniel T. Larose, Chantal D. Larose. 王念濱, 宋敏, 裴大茗, 譯. 數(shù)據(jù)挖掘與預測分析(第2版). 清華大學出版社. 2017.

[5] Maja R. Rudolph, Francisco J. R. Ruiz, Stephan Mandt, David M. Blei. Exponential Family Embeddings. 2016.

[6] Alexander Ratner, Christopher De Sa, Sen Wu, Daniel Selsam, Christopher Ré.Data Programming: Creating Large Training Sets, Quickly. 2017.

[7] Jake VanderPlas著陶俊杰, 陳小莉, 譯Python. 人民郵電出版社. 2018.

[8] Lapedriza, à., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. NIPS. Learning deep features for scene recognition using places database. 2014.

[9] 鄭捷. NLP漢語自然語言處理原理與實踐. 電子工業(yè)出版社. 2017: 16-21.

[10] Zhang, M., & Zhou, Z. A Review on Multi-Label Learning Algorithms. 2014.

[11] Styart J. Russell, Peter Norvig 著殷建平, 祝恩, 劉越, 陳躍新, 王挺, 譯. 清華大學出版社. 2013.

[12] Chang Liu, Jun Zhu.Riemannian Stein Variational Gradient Descent for Bayesian Inference. 2017.

Research on Content Creation Optimization of New Media Platform of Procuratorate Based on Big Data

JI Fang1, CHEN Li-hua2, SUN Hao2, LIU Pan-pan2

(1. Supreme People's Procuratorate Inspection Technology Information Research Center, Beijing, China; 2. Shandong Dazhong Infomation Industry Co., Ltd, Jinan City, Shandong Province, China)

By big data and Chinese semantic analysis, according to the dissemination of previous articles of the procuratorate at all levels, the content and original manuscripts collected on the network are predicted and disseminated, and the characteristics of the official new media account of the procuratorate are selected. Excellent manuscripts were published, and information technology was used to assist in the creation. Data support was provided to improve the quality of content and communication effects, and the public opinion of the new media of the procuratorate was enhanced and the publicity was enhanced

Big data; Machine learning; Natural language processing; New eedia creation

TP391.1

A

10.3969/j.issn.1003-6970.2018.10.048

季芳(1981-),女,高級工程師,研究方向為檢察信息化、電子政務;陳立華(1980-),男,高級工程師,研究方向為自然語言分析、大數(shù)據(jù)、人工智能;孫浩(1983-),男,開發(fā)工程師,輿情與大數(shù)據(jù)系統(tǒng)研究;劉盼盼(1990-),女,研究生,研究方向為自然語言處理。

季芳,陳立華,孫浩,等. 基于大數(shù)據(jù)的檢察院新媒體平臺稿件優(yōu)化方法[J]. 軟件,2018,39(10):250-253

猜你喜歡
微信
微信
微信
微信
微信
微信
微信
微信
微信
微信
微信
主站蜘蛛池模板: 1024国产在线| 国产91透明丝袜美腿在线| 国产交换配偶在线视频| 午夜人性色福利无码视频在线观看| 国产成人91精品| 午夜高清国产拍精品| 国产精品久久久久无码网站| 国产亚洲精品97在线观看| 这里只有精品在线| 2021精品国产自在现线看| 亚洲成人精品久久| 亚洲国产AV无码综合原创| 国产成人一区免费观看| 国产美女自慰在线观看| 国产福利小视频在线播放观看| 国模私拍一区二区| 视频二区国产精品职场同事| 国内精品免费| 欧美成人亚洲综合精品欧美激情| 国产成人一级| 国产尤物jk自慰制服喷水| 91成人在线免费视频| 久久公开视频| 热思思久久免费视频| 国产网站免费看| 99精品视频在线观看免费播放| 夜色爽爽影院18禁妓女影院| 小13箩利洗澡无码视频免费网站| 亚洲永久色| 免费一级毛片在线播放傲雪网| 中文字幕调教一区二区视频| 亚洲欧美不卡| 中文字幕调教一区二区视频| 91无码人妻精品一区| 国内熟女少妇一线天| 成人午夜免费观看| 国内熟女少妇一线天| 一本色道久久88| 在线欧美a| 日本a级免费| 亚洲日本在线免费观看| 亚洲国产成人麻豆精品| 欧美日在线观看| 亚洲精品国产成人7777| 成人国产一区二区三区| 欧美日韩午夜| 免费看的一级毛片| 亚洲人成影院在线观看| 免费黄色国产视频| 在线永久免费观看的毛片| 无码中文字幕加勒比高清| 亚洲国模精品一区| 色婷婷亚洲综合五月| 99热国产这里只有精品无卡顿" | 六月婷婷激情综合| 色婷婷亚洲十月十月色天| 在线观看亚洲人成网站| 在线免费无码视频| 免费欧美一级| 免费国产黄线在线观看| 区国产精品搜索视频| 国产精品亚洲а∨天堂免下载| 亚洲中文字幕手机在线第一页| 色亚洲成人| 在线亚洲小视频| 国产精品自拍合集| 18禁黄无遮挡免费动漫网站| 国产在线观看91精品亚瑟| 欧美影院久久| 538精品在线观看| 久久精品这里只有精99品| 18禁黄无遮挡免费动漫网站| 日本伊人色综合网| 国产va视频| 国产成人喷潮在线观看| 国产视频 第一页| 色国产视频| 在线观看免费黄色网址| 啪啪免费视频一区二区| 精品视频一区二区三区在线播| 欧美精品aⅴ在线视频| 免费日韩在线视频|