999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微信公眾號(hào)文本自動(dòng)摘要研究

2022-02-06 15:07:20程子軒顏成偉李鋮碩
產(chǎn)業(yè)與科技論壇 2022年17期
關(guān)鍵詞:微信文本內(nèi)容

□程子軒 顏成偉 李鋮碩

移動(dòng)互聯(lián)網(wǎng)時(shí)代下,新媒體與大數(shù)據(jù)技術(shù)飛速發(fā)展,以微博、微信、短視頻等形式為代表的新媒體已然成為人們交流、休閑、學(xué)習(xí)、生活的一部分。微信相繼推出微信公眾平臺(tái)、朋友圈、消息推送等功能服務(wù)進(jìn)一步擴(kuò)大用戶(hù)群體規(guī)模,至今全球已有超過(guò)13億微信注冊(cè)賬戶(hù)。微信公眾平臺(tái)憑借龐大的微信用戶(hù)群體迅速成為最具影響力的信息傳播媒體平臺(tái)之一。然而龐大紛雜的賬號(hào)主體直接導(dǎo)致了微信公眾平臺(tái)信息質(zhì)量參差不齊、信息過(guò)載現(xiàn)象嚴(yán)重。因此,如何在海量、雷同的信息海洋中篩選出真正需要和感興趣的內(nèi)容是廣大微信用戶(hù)面臨的困擾,更是微信公眾平臺(tái)需要關(guān)注并有待解決的問(wèn)題[1]。

一、微信公眾號(hào)文本摘要的意義

微信公眾平臺(tái)的使用場(chǎng)景主要是移動(dòng)網(wǎng)絡(luò)環(huán)境和智能終端,用戶(hù)受到手機(jī)、平板電腦等智能終端設(shè)備屏幕較小和閱讀時(shí)間碎片化的限制,很難在短時(shí)間內(nèi)瀏覽和閱讀幾千字的文章,知識(shí)過(guò)載和冗余給用戶(hù)帶來(lái)較差的閱讀體驗(yàn)和較多的精力投入。因此,微信公眾平臺(tái)文本知識(shí)摘要生成具有重要作用和意義。

(一)微信公眾平臺(tái)文本知識(shí)摘要生成能夠提高用戶(hù)知識(shí)獲取效率。依靠自動(dòng)化技術(shù)抽取生成概括性知識(shí)摘要,一方面能夠?qū)⑽恼聝?nèi)容大幅度縮短,可以給用戶(hù)提供判斷是否繼續(xù)閱讀的依據(jù),極大地節(jié)省了用戶(hù)的時(shí)間和精力,給用戶(hù)帶來(lái)較好的閱讀體驗(yàn)。

(二)知識(shí)摘要自動(dòng)化生成能夠提高微信公眾平臺(tái)知識(shí)重用效率,實(shí)現(xiàn)知識(shí)整合和序化組織。知識(shí)摘要的生成能夠減少和過(guò)濾冗余信息,提取文檔中的主要知識(shí)和思想觀點(diǎn),整合多篇文檔中知識(shí)資源內(nèi)容,得到完整的高質(zhì)量知識(shí)資源,實(shí)現(xiàn)知識(shí)的重新整合和序化組織。

(三)微信公眾號(hào)摘要自動(dòng)化生成能夠?yàn)樾屡d的智能服務(wù)與市場(chǎng)分析方向提供強(qiáng)有力的支撐。微信公眾號(hào)摘要自動(dòng)化生成能夠?yàn)槲⑿殴娖脚_(tái)知識(shí)組織與服務(wù)、智能檢索與問(wèn)答、領(lǐng)域熱點(diǎn)追蹤和分析、行業(yè)咨詢(xún)等新興的智能服務(wù)與市場(chǎng)分析方向提供強(qiáng)有力的支撐,具有較高的商業(yè)價(jià)值。尤其對(duì)于微信公眾平臺(tái)推送類(lèi)的學(xué)術(shù)類(lèi)公眾號(hào)媒體,自動(dòng)化知識(shí)摘要生成能夠在很大程度上減少平臺(tái)編輯的人力和財(cái)務(wù)成本,提升用戶(hù)體驗(yàn)度。目前市場(chǎng)上能夠提供自動(dòng)化知識(shí)摘要的服務(wù)平臺(tái)較少,所以從商業(yè)應(yīng)用角度具有一定的研究意義和價(jià)值。

二、微信公眾號(hào)文本數(shù)據(jù)特征

(一)微信公眾平臺(tái)數(shù)據(jù)形式。微信公眾平臺(tái)支持推送消息的形式包括文字、語(yǔ)音、圖片、錄音、圖文消息、名片、視頻等,多種內(nèi)容形式可以同時(shí)存在于一條群發(fā)消息中。微信公眾平臺(tái)發(fā)布的文章中采用單一媒體形式的較少,以文字為主的圖文消息最為普遍。部分公眾號(hào)在文章中插入背景音樂(lè)或同步朗讀語(yǔ)音,使內(nèi)容表現(xiàn)形式更加豐富。隨著2020年1月微信視頻號(hào)系統(tǒng)內(nèi)測(cè),微信公眾號(hào)內(nèi)的視頻發(fā)布逐漸向微信視頻號(hào)賬號(hào)轉(zhuǎn)移。因此,微信公眾號(hào)知識(shí)資源的形式主要是以文字配圖片的形式為主,同時(shí)包括音頻、視頻等多種媒體形式。

(二)微信公眾號(hào)知識(shí)類(lèi)型。按照知識(shí)的專(zhuān)業(yè)深度不同,微信公眾號(hào)知識(shí)資源可分為科普型知識(shí)、專(zhuān)業(yè)科普型知識(shí)、專(zhuān)業(yè)發(fā)展前沿、專(zhuān)業(yè)知識(shí)以及學(xué)術(shù)專(zhuān)題型知識(shí)等。科普型知識(shí)的受眾最為廣泛,大部分公眾號(hào)會(huì)不定期發(fā)布科普型知識(shí)內(nèi)容,對(duì)知識(shí)普及起到積極宣傳的作用。專(zhuān)業(yè)科普型知識(shí)的受眾也十分廣泛,普通微信用戶(hù)對(duì)此類(lèi)知識(shí)的關(guān)注度根據(jù)專(zhuān)業(yè)所在領(lǐng)域的熱度不同有所差異,如健康、科技、金融等領(lǐng)域?qū)I(yè)科普型知識(shí)受關(guān)注較多。相關(guān)領(lǐng)域的垂直類(lèi)微信公眾號(hào)會(huì)不定期發(fā)布專(zhuān)業(yè)科普型知識(shí),使微信用戶(hù)對(duì)感興趣的領(lǐng)域知識(shí)有進(jìn)一步的了解和掌握。專(zhuān)業(yè)發(fā)展前沿、專(zhuān)業(yè)知識(shí)和學(xué)術(shù)專(zhuān)題等類(lèi)型的知識(shí)由于對(duì)微信用戶(hù)專(zhuān)業(yè)基礎(chǔ)知識(shí)有一定要求,因而受眾相對(duì)較少,受眾群體以研究生、高校教師和科研工作者為主。專(zhuān)業(yè)發(fā)展前沿、專(zhuān)業(yè)知識(shí)和學(xué)術(shù)專(zhuān)題等類(lèi)型的知識(shí)主要由學(xué)術(shù)類(lèi)微信公眾號(hào)發(fā)布,這類(lèi)公眾號(hào)的運(yùn)營(yíng)主體主要為科研機(jī)構(gòu)、學(xué)術(shù)期刊、高校圖書(shū)館等,一些垂直類(lèi)公眾號(hào)也會(huì)少量發(fā)布專(zhuān)業(yè)發(fā)展前沿類(lèi)知識(shí)內(nèi)容。學(xué)術(shù)微信用戶(hù)通過(guò)公眾號(hào)能夠掌握前沿的專(zhuān)業(yè)知識(shí)內(nèi)容,并通過(guò)平臺(tái)與其他學(xué)者對(duì)感興趣的知識(shí)內(nèi)容進(jìn)行交流碰撞。

(三)微信公眾平臺(tái)數(shù)據(jù)資源特征。一是微信公眾號(hào)知識(shí)資源呈現(xiàn)出碎片化特點(diǎn),適合碎片化閱讀。當(dāng)前,由于生活節(jié)奏加快,碎片化閱讀已成為移動(dòng)互聯(lián)網(wǎng)環(huán)境下的主流閱讀模式,而微信公眾號(hào)上的知識(shí)類(lèi)型和傳播形式正符合現(xiàn)代人需求和時(shí)代發(fā)展趨勢(shì)。二是在將專(zhuān)業(yè)的知識(shí)內(nèi)容提煉、分解、重組、并深入淺出圖文并茂地演繹出來(lái),對(duì)知識(shí)資源的質(zhì)量也提出了更高要求。例如,一些學(xué)術(shù)期刊公眾號(hào)如果單一復(fù)制母刊文章進(jìn)行發(fā)布,則很難收獲較好的傳播效果,若能將原文基礎(chǔ)上進(jìn)行二次加工,可以使用戶(hù)在短時(shí)間內(nèi)掌握論文精華,有效提高閱讀量及微信傳播指數(shù)(WCI)[2]。三是微信公眾號(hào)知識(shí)資源存在大量信息冗余。微信公眾號(hào)數(shù)量眾多,各公眾號(hào)專(zhuān)業(yè)水準(zhǔn)參差不齊,部分文章原創(chuàng)性不足,內(nèi)容相似的熱點(diǎn)話(huà)題文章被不同公眾號(hào)頻頻推送的現(xiàn)象隨處可見(jiàn)。大量引用或轉(zhuǎn)載都造成了信息資源的浪費(fèi),給用戶(hù)閱讀和使用造成了一定的困擾。因此,如何從繁多的消息推送中甄別出有效信息、提高閱讀效率成為微信用戶(hù)的迫切需求。

三、文本自動(dòng)摘要技術(shù)概述

摘要是以提供文獻(xiàn)內(nèi)容梗概為目的,不加評(píng)論和補(bǔ)充解釋?zhuān)?jiǎn)明、確切地記述文獻(xiàn)重要內(nèi)容的短文,能夠概括和總結(jié)文檔的中心思想和核心內(nèi)容。早在20世紀(jì)50年代,自動(dòng)文本摘要已經(jīng)吸引了人們的關(guān)注。在20世紀(jì)50年代后期,Hans Peter Luhn利用詞頻和詞組頻率等特征從文本中提取重要句子,用于總結(jié)內(nèi)容[3]。文本摘要自動(dòng)化生成是指運(yùn)用現(xiàn)代計(jì)算機(jī)的自動(dòng)化技術(shù)從原始文章中抽取或重新組織生成包含中心內(nèi)容、概要信息或者作者的情感態(tài)度的主題或語(yǔ)義內(nèi)容的句子,并將這些句子按照一定順序形成文章摘要的過(guò)程。

自動(dòng)化摘要生成有多種分類(lèi)方式。按照研究對(duì)象的文檔數(shù)量多少可以分為單文檔自動(dòng)摘要和多文檔自動(dòng)摘要。對(duì)于微信公眾平臺(tái)的知識(shí)摘要生成,提取單篇文檔中知識(shí)摘要即是單文檔知識(shí)摘要生成,提取某一領(lǐng)域知識(shí)相關(guān)的多篇文檔中內(nèi)容即是多文檔知識(shí)摘要生成。按照生成摘要的用途,可以將自動(dòng)文檔摘要分為面向信息瀏覽和基于情感態(tài)度分析兩類(lèi)。有些摘要是為了方便用戶(hù)瀏覽文檔的概要信息,有些而是為了分析出文檔中作者的情感態(tài)度。微信公眾平臺(tái)自動(dòng)化摘要生成主要是為了便于用戶(hù)查找知識(shí)內(nèi)容和概括性瀏覽,因此需要進(jìn)行面向知識(shí)瀏覽的自動(dòng)化摘要生成。此外,按照自動(dòng)文檔摘要中是否含有原文中句子可以分為兩類(lèi):一類(lèi)是直接從文章中抽取權(quán)重排序較高的原文句子,不對(duì)原文檔中句子進(jìn)行修改,按照一定順序組織形成文檔摘要,即抽取式方法;另一類(lèi)是通過(guò)對(duì)原文的“理解”,組織生成新的語(yǔ)言句子對(duì)文檔的主題、概要信息進(jìn)行融合表達(dá)概括,即生成式方法。由于生成式方法形成摘要過(guò)程中需要解決語(yǔ)義表示、推理和信息融合等問(wèn)題,比抽取式方法復(fù)雜、難度大,且抽取式自動(dòng)文檔摘要生成是從原文中選取關(guān)鍵句組成摘要,在語(yǔ)法、句法上錯(cuò)誤率低,整體效果優(yōu)于生成式自動(dòng)文檔摘要。因此,本文采用抽取式方法對(duì)微信公眾平臺(tái)知識(shí)自動(dòng)化摘要生成開(kāi)展研究。

四、微信公眾號(hào)文本自動(dòng)摘要過(guò)程

采用抽取式方法進(jìn)行微信公眾號(hào)文本自動(dòng)摘要生成具體分為語(yǔ)料獲取、預(yù)處理、文本特征化、摘要抽取和效果評(píng)價(jià)五個(gè)步驟。

在語(yǔ)料獲取階段是采集微信公眾號(hào)發(fā)布的文本數(shù)據(jù),平臺(tái)內(nèi)部人員可以直接通過(guò)平臺(tái)數(shù)據(jù)庫(kù)調(diào)取,外部人員可以利用搜狗微信平臺(tái)進(jìn)行數(shù)據(jù)爬取。預(yù)處理階段是將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化信息,常用操作包括去除標(biāo)記、分詞、詞性標(biāo)注、去停用詞等,可以減少噪聲、提升文本質(zhì)量。文本特征化是將自然語(yǔ)言表示為計(jì)算機(jī)能夠識(shí)別處理的特征項(xiàng),然后再對(duì)這些特征進(jìn)行降維處理。Word2vec模型的出現(xiàn)為文本向量化提供了便利,Word2vec可以根據(jù)給定的語(yǔ)料庫(kù),利用訓(xùn)練好的模型快速有效地將一個(gè)詞語(yǔ)轉(zhuǎn)換成向量表達(dá)的形式,為后續(xù)的文本挖掘準(zhǔn)備。摘要抽取是核心階段,目前基于圖模型的自動(dòng)摘要方法比較常用,這種方法是將詞、句子等文本單元以及他們之間的相互關(guān)系作為頂點(diǎn)和邊,建立相應(yīng)的語(yǔ)言網(wǎng)絡(luò)圖模型,并從中識(shí)別出重要的句子,相關(guān)算法包括PageRank、LexRank和TextRank等。摘要抽取完成之后是效果檢驗(yàn),對(duì)于較小的樣本量可以采用Edmundson方法進(jìn)行文本摘要效果評(píng)價(jià)方,即計(jì)算自動(dòng)文本摘要與人工摘要的句子平均重合率,對(duì)于樣本量較大的可以采用ROUGE方法,包括基于N-gram共現(xiàn)統(tǒng)計(jì)的ROUGE-N方法,基于最長(zhǎng)公共子序列的ROUGE-L方法,基于對(duì)順序詞對(duì)統(tǒng)計(jì)的ROUGE-S方法等。

自動(dòng)化摘要技術(shù)作為知識(shí)集成組織的重要形式,可以協(xié)助用戶(hù)在較短時(shí)間內(nèi)快速了解文章內(nèi)容,解決知識(shí)過(guò)載和知識(shí)冗余等帶來(lái)的問(wèn)題,極大地提高用戶(hù)閱讀及獲取知識(shí)的效率。引入自動(dòng)生成摘要技術(shù)實(shí)現(xiàn)微信公眾平臺(tái)知識(shí)資源序化組織,能夠有效解決文本知識(shí)冗余與人工閱讀能力有限之間的矛盾。

猜你喜歡
微信文本內(nèi)容
內(nèi)容回顧溫故知新
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
微信
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
微信
微信
微信
如何快速走進(jìn)文本
主站蜘蛛池模板: a级毛片在线免费观看| 在线精品亚洲国产| 91精品人妻互换| 99精品影院| 国产日韩欧美在线播放| 亚洲欧美日韩中文字幕在线一区| 国产亚洲欧美在线人成aaaa| 中国一级特黄视频| 少妇极品熟妇人妻专区视频| 国产微拍精品| 看av免费毛片手机播放| 欧美国产日本高清不卡| 亚洲无线国产观看| 日韩成人午夜| 亚洲欧美另类中文字幕| 国产亚洲精久久久久久无码AV| 亚洲色图在线观看| 亚洲色大成网站www国产| 精品国产污污免费网站| 成人av专区精品无码国产| 欧洲亚洲一区| 日韩精品高清自在线| 婷婷亚洲最大| 国产成人区在线观看视频| 国产激情国语对白普通话| 久久性妇女精品免费| 久久中文字幕不卡一二区| 无码福利日韩神码福利片| 国产欧美在线| 原味小视频在线www国产| 国产成人毛片| 国产美女视频黄a视频全免费网站| 免费无码一区二区| 国产精品第三页在线看| 手机精品福利在线观看| 欧美国产精品拍自| 欧美第二区| 亚洲天堂网2014| 老色鬼久久亚洲AV综合| 欧美午夜视频在线| 成人精品区| 18禁不卡免费网站| 中文字幕欧美日韩高清| 成人精品视频一区二区在线| 亚洲国产91人成在线| 在线看片免费人成视久网下载| 精品国产三级在线观看| 国产导航在线| 日韩毛片免费视频| 欧美视频在线第一页| 91精品国产91久无码网站| 国产精品自拍合集| 香港一级毛片免费看| 暴力调教一区二区三区| 日韩视频福利| 真实国产精品vr专区| 欧美日韩北条麻妃一区二区| 日韩欧美综合在线制服| 欧美爱爱网| 蜜芽一区二区国产精品| 久久性妇女精品免费| 婷婷六月天激情| 国产一区二区三区在线观看免费| 亚洲欧美日韩成人高清在线一区| 亚洲性日韩精品一区二区| 最近最新中文字幕在线第一页 | 亚洲精品黄| 福利国产微拍广场一区视频在线| 国产成人欧美| 欧美性爱精品一区二区三区 | 久久精品国产免费观看频道| 嫩草国产在线| 亚洲系列无码专区偷窥无码| 亚洲综合色区在线播放2019| 中国国产A一级毛片| 国产日韩av在线播放| 色欲国产一区二区日韩欧美| 亚洲国产理论片在线播放| 国产69精品久久久久妇女| 国产精品区网红主播在线观看| 996免费视频国产在线播放| 69精品在线观看|