999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種大數(shù)據(jù)智能化語(yǔ)義分析系統(tǒng)

2020-02-03 08:22:08張陽(yáng)王貽欣張楊陳強(qiáng)蔡鉞
電子技術(shù)與軟件工程 2020年6期
關(guān)鍵詞:語(yǔ)義文本分析

張陽(yáng) 王貽欣 張楊 陳強(qiáng) 蔡鉞

(國(guó)網(wǎng)浙江蒼南縣供電有限責(zé)任公司 浙江省溫州市 325000)

云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)應(yīng)用等的多方應(yīng)用標(biāo)志著大數(shù)據(jù)時(shí)代已到來(lái),基于大云物移智技術(shù)實(shí)現(xiàn)了人機(jī)互聯(lián)互通。大數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)可分為結(jié)構(gòu)化大數(shù)據(jù)與非結(jié)構(gòu)化大數(shù)據(jù),由于非結(jié)構(gòu)化大數(shù)據(jù)挖掘處理難度相對(duì)較大,因此,對(duì)非結(jié)構(gòu)化大數(shù)據(jù)的挖掘分析已經(jīng)成為了當(dāng)前研究熱點(diǎn)。與此同時(shí),隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,自媒體行業(yè)的不斷崛起,政府或企業(yè)面對(duì)爆炸式信息的增長(zhǎng),如何基于海量網(wǎng)頁(yè)數(shù)據(jù),實(shí)現(xiàn)價(jià)值信息的篩選、整合、挖掘,成為一個(gè)當(dāng)前面臨的新難點(diǎn)。本課題是以今日頭條、微博、微信公眾號(hào)等新聞媒體文章以及相關(guān)評(píng)論等數(shù)據(jù)信息出發(fā),通過(guò)大數(shù)據(jù)挖掘分析算法,構(gòu)建大數(shù)據(jù)智能化語(yǔ)義分析系統(tǒng),用以輔助政府或企業(yè)優(yōu)化改善現(xiàn)有服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量,提升服務(wù)質(zhì)量和效率。

本文打破了傳統(tǒng)的服務(wù)優(yōu)化提升模型,創(chuàng)新基于爬蟲(chóng)技術(shù)獲取多方數(shù)據(jù),所有數(shù)據(jù)都儲(chǔ)存于本地服務(wù)器,所有模型分析研究是于本地研發(fā),企業(yè)數(shù)據(jù)的安全性得到保障。采用分詞技術(shù)、知識(shí)圖譜、自動(dòng)問(wèn)答等人工智能方法,構(gòu)建大數(shù)據(jù)智能語(yǔ)義分析系統(tǒng),讓政府或企業(yè)從多維度了解新政策、新事件、新技術(shù),了解公眾或消費(fèi)者意見(jiàn),為政府或企業(yè)對(duì)服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量的優(yōu)化調(diào)整提供輔助決策。此外,從數(shù)據(jù)上看,除企業(yè)運(yùn)營(yíng)數(shù)據(jù)外,大部分?jǐn)?shù)據(jù)來(lái)源于公共社交媒體網(wǎng)站,數(shù)據(jù)開(kāi)源性較高,爬蟲(chóng)技術(shù)、文本挖掘、知識(shí)譜圖等技術(shù)均較成熟,可應(yīng)用于各行各業(yè),因此,可推廣、可實(shí)施性較高。

1 理論方法

1.1 分詞技術(shù)-隱馬爾可夫模型

隱馬爾可夫模型隸屬于馬爾可夫鏈,是一個(gè)雙重隨機(jī)過(guò)程。狀態(tài)需要通過(guò)向量序列進(jìn)行觀(guān)測(cè),觀(guān)測(cè)向量的各種狀態(tài)需要概率密度分布予以表現(xiàn),是由具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。隱馬爾可夫模型中包括:狀態(tài)集合、觀(guān)察序列、狀態(tài)轉(zhuǎn)移分布、狀態(tài)出現(xiàn)概率分布、初始狀態(tài)分布五元組。

其中:狀態(tài)合集由詞頭(F),詞中(M)、詞尾(E)、單字成詞(W)四種狀態(tài)構(gòu)成;觀(guān)測(cè)序列是一個(gè)狀態(tài)的有向序列;狀態(tài)轉(zhuǎn)移分布是狀態(tài)集合中各元素兩兩之間轉(zhuǎn)移的概率。狀態(tài)出現(xiàn)概率分布指每一種狀態(tài)所出現(xiàn)的概率值分布;初始狀態(tài)分布是指初始階段時(shí)狀態(tài)分布。

針對(duì)隱馬爾可夫模型中狀態(tài)轉(zhuǎn)移分布、狀態(tài)出現(xiàn)概率分布、初始狀態(tài)分布等參數(shù)求解問(wèn)題,可采用機(jī)器學(xué)習(xí)方法對(duì)參數(shù)進(jìn)行求解,根據(jù)訓(xùn)練樣本是否存在標(biāo)記,機(jī)器學(xué)習(xí)通常可以劃分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。

其中:監(jiān)督學(xué)習(xí)是指訓(xùn)練數(shù)據(jù)集已經(jīng)給出觀(guān)測(cè)序列及相應(yīng)的路徑序列,并基于統(tǒng)計(jì)分析法對(duì)各語(yǔ)句首字出現(xiàn)狀態(tài)進(jìn)行頻次分析,根據(jù)改字出現(xiàn)頻次與句子總數(shù)的商,記為該字的初始狀態(tài),通過(guò)不斷學(xué)習(xí)狀態(tài)轉(zhuǎn)移矩陣,實(shí)現(xiàn)語(yǔ)句分詞;無(wú)監(jiān)督學(xué)習(xí)是由于先驗(yàn)經(jīng)驗(yàn)缺乏導(dǎo)致人工標(biāo)注難度太大或成本較高,可根據(jù)無(wú)標(biāo)記的訓(xùn)練樣本集解決模式識(shí)別中的各種問(wèn)題,本文采用維特比算法,基于動(dòng)態(tài)規(guī)劃算法挖掘出最優(yōu)路徑,實(shí)現(xiàn)語(yǔ)句分詞。

圖1:知識(shí)圖譜示意圖

圖2:scrapy 架構(gòu)

1.2 知識(shí)圖譜

2012年,由谷歌公司提出知識(shí)圖譜概念,后續(xù)并成功應(yīng)用于搜索引擎中。可通過(guò)知識(shí)種類(lèi)、構(gòu)建方法等多種維度進(jìn)行劃分,分類(lèi)方式較多,一般情況下,基于領(lǐng)域劃分可分為通用知識(shí)圖譜、特定領(lǐng)域知識(shí)圖譜兩種。常見(jiàn)的知識(shí)圖譜包括實(shí)體、概念、屬性三類(lèi)節(jié)點(diǎn),其中:實(shí)體是指具有可區(qū)別性且獨(dú)立存在的某種事物(某個(gè)城市、某種商品、某類(lèi)動(dòng)物等),是知識(shí)圖譜中的最基本元素;概念指的是具有同種特性的實(shí)體構(gòu)成的集合(國(guó)家、書(shū)籍、設(shè)備等);屬性則用于區(qū)分概念的特征,不同概念具有不同的屬性。

目前,知識(shí)圖譜已經(jīng)成為人工智能領(lǐng)域的重要技術(shù),在網(wǎng)頁(yè)搜索、NLP、電商、物流等不同領(lǐng)域發(fā)揮著極其重要的作用。知識(shí)圖譜的主要原理是通過(guò)將客觀(guān)世界中概念、實(shí)體及其之間的關(guān)系轉(zhuǎn)換成結(jié)構(gòu)化形式,使得能夠更加高效的組織、管理和理解海量信息,降低人類(lèi)信息接受和認(rèn)知難度。

2 實(shí)證研究

基于分布式爬蟲(chóng)技術(shù)獲取今日頭條、微博、微信公眾號(hào)等新聞媒體文章以及相關(guān)評(píng)論等數(shù)據(jù),采用分詞、關(guān)鍵詞提取、文本摘要等自然語(yǔ)言處理算法對(duì)文本數(shù)據(jù)進(jìn)行挖掘,構(gòu)建知識(shí)圖譜,以此為基礎(chǔ)構(gòu)建大數(shù)據(jù)智能化語(yǔ)義分析系統(tǒng),讓政府或企業(yè)從多維度了解新政策、新事件、新技術(shù),了解公眾或消費(fèi)者意見(jiàn),為政府或企業(yè)對(duì)服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量的優(yōu)化調(diào)整提供輔助決策。

2.1 基于scrapy的大規(guī)模分布式數(shù)據(jù)采集

采用 python 開(kāi)發(fā)的 Scrapy 框架進(jìn)行開(kāi)發(fā),使用 Xpath 技術(shù)對(duì)下載的網(wǎng)頁(yè)進(jìn)行提取解析,運(yùn)用 Redis 數(shù)據(jù)庫(kù)做分布式,使用MongoDb 數(shù)據(jù)庫(kù)做數(shù)據(jù)存儲(chǔ),利用 Django web 框架和 Semantic UI開(kāi)源框架構(gòu)建管理系統(tǒng),最后使用Docker 對(duì)爬蟲(chóng)程序進(jìn)行分布式部署。

2.2 基于自然語(yǔ)言處理技術(shù)的文本挖掘

通過(guò)分詞算法和新詞發(fā)現(xiàn)算法,提取同目標(biāo)主題相關(guān)聯(lián)的其他主題,通過(guò)關(guān)鍵詞提取算法提取出一個(gè)或多個(gè)文章語(yǔ)義內(nèi)容的詞匯或短語(yǔ),通過(guò)文本向量化,結(jié)合聚類(lèi)算法對(duì)文本或評(píng)論進(jìn)行聚類(lèi),對(duì)文本或評(píng)論進(jìn)行自動(dòng)梳理,歸納熱點(diǎn)文章或評(píng)論趨勢(shì),把內(nèi)容相近的信息歸為一類(lèi),按照熱度進(jìn)行排名,并自動(dòng)為該類(lèi)生成標(biāo)題和主題詞。通過(guò)文本摘要算法能夠?qū)崿F(xiàn)文本內(nèi)容的精簡(jiǎn)提煉,從長(zhǎng)篇文章中自動(dòng)提取關(guān)鍵句和關(guān)鍵段落,構(gòu)成摘要內(nèi)容,方便用戶(hù)快速瀏覽文本內(nèi)容,提高工作效率。通過(guò)情感分析,幫助政府或企業(yè)了解新聞媒體或用戶(hù)對(duì)某類(lèi)政策或事件的正面與負(fù)面評(píng)論情況。

2.3 基于neo4j圖數(shù)據(jù)庫(kù)構(gòu)建知識(shí)圖譜

對(duì)關(guān)聯(lián)主題,文本聚類(lèi),關(guān)鍵詞提取等文本挖掘結(jié)果,結(jié)合文本自身屬性,基于neo4j 圖數(shù)據(jù)庫(kù),構(gòu)建知識(shí)圖譜,為構(gòu)建智能語(yǔ)義分析系統(tǒng)打下基礎(chǔ)。如圖3。

其中:A、B、C 分別表示供電能力、可靠性、供電質(zhì)量三個(gè)一級(jí)指標(biāo)得分;rzb、fzl、gnl 分別表示容載比、負(fù)載率、供電能力利用率的評(píng)分?jǐn)?shù)值;yps、nhc 分別表示用戶(hù)平均停電時(shí)間、年戶(hù)均停電次數(shù)的評(píng)分?jǐn)?shù)值;ydh、pdh 分別表示用戶(hù)端電壓合格率、平均電壓合格率的評(píng)分?jǐn)?shù)值。

2.4 基于知識(shí)圖譜的智能分析系統(tǒng)

基于知識(shí)圖譜,根據(jù)主題、文章、評(píng)論等關(guān)聯(lián)度大小,挖掘相關(guān)熱點(diǎn)。根據(jù)搜索的關(guān)鍵詞,結(jié)合詞向量,自動(dòng)匹配詞向量相似度最高的主題,智能識(shí)別用戶(hù)意圖,以圖表、圖譜、詞云等方式輸出關(guān)聯(lián)主題、熱度趨勢(shì)、情感傾向等。

3 應(yīng)用價(jià)值

以電力企業(yè)為例,項(xiàng)目自開(kāi)展以來(lái),共爬取電力相關(guān)的新聞媒體、用戶(hù)評(píng)論等數(shù)據(jù)150GB,構(gòu)建內(nèi)含50000 余個(gè)詞的專(zhuān)有詞庫(kù),結(jié)合文本挖掘技術(shù)形成了電力行業(yè)新聞媒體以及評(píng)論相關(guān)的知識(shí)圖譜,并以此構(gòu)建智能分析系統(tǒng),讓電力企業(yè)從多維度了解新政策、新事件、新技術(shù),了解公眾意見(jiàn),為電力企業(yè)對(duì)服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量的優(yōu)化調(diào)整提供輔助決策。項(xiàng)目產(chǎn)生的效益主要體現(xiàn)于管理效益、社會(huì)效益。

3.1 管理效益

大數(shù)據(jù)智能語(yǔ)義分析系統(tǒng)能夠從海量網(wǎng)頁(yè)數(shù)據(jù)中,挖掘行業(yè)熱點(diǎn),輸出用戶(hù)意見(jiàn),分析媒體和用戶(hù)情感傾向等,打破了傳統(tǒng)的人工經(jīng)驗(yàn)式的服務(wù)管理模式,提升了企業(yè)管理效率,降低了企業(yè)管理成本。

圖3:構(gòu)建知識(shí)圖譜

3.2 社會(huì)效益

傳統(tǒng)的服務(wù)改善策略的制定是基于相關(guān)問(wèn)卷、電話(huà)回訪(fǎng)的反饋數(shù)據(jù),由于數(shù)據(jù)的局限性和采樣的偏態(tài)性,導(dǎo)致所制定的服務(wù)優(yōu)化方案與實(shí)際需求不匹配,僅能滿(mǎn)足部分受眾群體,大數(shù)據(jù)智能語(yǔ)義分析系統(tǒng)可以快速、高效獲取社會(huì)化數(shù)據(jù),涵蓋廣泛,快速響應(yīng)社會(huì)需求,彰顯企業(yè)社會(huì)形象。

4 結(jié)語(yǔ)

本文以今日頭條、微博、微信公眾號(hào)等新聞媒體文章以及相關(guān)評(píng)論等數(shù)據(jù)信息出發(fā),基于分布式爬蟲(chóng)技術(shù)獲取相應(yīng)數(shù)據(jù),采用分詞、關(guān)鍵詞提取、文本摘要等自然語(yǔ)言處理算法對(duì)文本數(shù)據(jù)進(jìn)行挖掘,構(gòu)建知識(shí)圖譜,以此為基礎(chǔ)構(gòu)建大數(shù)據(jù)智能化語(yǔ)義分析系統(tǒng),讓政府或企業(yè)從多維度了解新事件、新政策、了解公眾或消費(fèi)者意見(jiàn),用以輔助政府或企業(yè)優(yōu)化改善現(xiàn)有服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量,提升服務(wù)質(zhì)量和效率。

猜你喜歡
語(yǔ)義文本分析
隱蔽失效適航要求符合性驗(yàn)證分析
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 91青青草视频在线观看的| 无码一区中文字幕| 9久久伊人精品综合| 色偷偷综合网| 欧美一级夜夜爽| 91啦中文字幕| 国产成人免费手机在线观看视频| 国产成人精品一区二区秒拍1o| 国产成年无码AⅤ片在线| 免费观看成人久久网免费观看| 国产丝袜啪啪| 精品国产一二三区| 亚洲综合色婷婷| 日韩欧美中文字幕在线韩免费| 中文字幕人妻无码系列第三区| 再看日本中文字幕在线观看| 日韩在线影院| 无码丝袜人妻| 一区二区无码在线视频| 免费看久久精品99| 日韩高清在线观看不卡一区二区| 国产尤物视频在线| 九色在线观看视频| 欧美成人A视频| 91亚洲免费视频| 香蕉在线视频网站| 欧美激情综合一区二区| 视频一本大道香蕉久在线播放| 亚洲欧美日韩成人在线| 亚洲成人福利网站| 亚洲综合色婷婷| 亚洲日韩久久综合中文字幕| 国产乱子伦视频在线播放| 久久亚洲美女精品国产精品| 无码免费视频| 国产区福利小视频在线观看尤物| 欧美福利在线| 色综合激情网| а∨天堂一区中文字幕| 伊人久久大香线蕉aⅴ色| 天堂在线www网亚洲| 久久精品人人做人人爽| 夜精品a一区二区三区| 国产精品免费露脸视频| 国产日产欧美精品| 亚洲国语自产一区第二页| 无码一区18禁| av手机版在线播放| 最新国产高清在线| 免费中文字幕在在线不卡| 久久一本精品久久久ー99| 欧美国产精品不卡在线观看 | 国产成人免费| 亚洲日韩久久综合中文字幕| 精品撒尿视频一区二区三区| 999精品视频在线| 国产草草影院18成年视频| 亚洲色图综合在线| 日韩精品久久无码中文字幕色欲| 日韩国产高清无码| 午夜少妇精品视频小电影| 夜夜爽免费视频| 伊人久久影视| 国产精品成| 香蕉久人久人青草青草| 日本高清有码人妻| 无码国产伊人| 亚洲 日韩 激情 无码 中出| 色婷婷亚洲十月十月色天| 国产在线观看精品| 欧美一区福利| 福利视频99| 国产丝袜第一页| 九九九久久国产精品| 国产精品久久自在自2021| 亚洲成人免费看| 国产成年无码AⅤ片在线| 国产乱子伦视频三区| 日本高清免费不卡视频| 最新国产高清在线| 国产精品太粉嫩高中在线观看| 亚洲无码91视频|