999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘和分析的食品安全智能測評系統(tǒng)

2019-08-20 07:27:08符雨童聶笑一肖毅
現(xiàn)代計算機 2019年20期

符雨童,聶笑一,肖毅

(湖南農(nóng)業(yè)大學東方科技學院,長沙410128)

0 引言

許多不良商家因為利益等因素,通過虛假交易和評價欺騙電商平臺的搜索引擎,借機獲得優(yōu)等的排名,從而得到巨額的流量與用戶資源獲得訂單。為了解決這個問題,我們的食品安全智能測評系統(tǒng)從大量混雜的數(shù)據(jù)中提取隱藏在其中真實、有用的目標數(shù)據(jù),利用處理后的真實評分數(shù)據(jù),為人們尤其是18-35 歲青年上班族推薦性價比最高的美食店鋪。模型系統(tǒng)利用樸素貝葉斯等算法,篩除美團、大眾點評中的不實評論,根據(jù)有效數(shù)據(jù)為每個店鋪重新打分,為使用者呈現(xiàn)最真實的食品信息情況以及根據(jù)評分高低和使用者需求為其推薦相應的性價比最高的店鋪。讓使用者及時掌握真實的店鋪好評率波動情況,以及從清洗過的有效評論中分析區(qū)分出每個店鋪每個菜肴的好壞與否,為消費者提供正確評價的信息。

1 相關(guān)工作

食品安全數(shù)據(jù)分析離不開對大量評論與賣家概述的抓取,本文采用PHPQuery 和CURL 的類方法采集數(shù)據(jù)。即時更新各個店鋪的評價的變化情況,并將數(shù)據(jù)可視化,以圖表的形式給點餐者呈現(xiàn)店鋪某一時間段的好評率波動圖。通過圖表分析模式輔助點餐者找到安全的美食店鋪,給青年上班族來極大的便捷,實現(xiàn)食品食用的安全性。

本階段項目中主要運用主流的PHP 服務器端語言和JavaScript、HTML 前端技術(shù)語言的支撐來完成模型系統(tǒng)。

2 算法描述

圖1 模型構(gòu)建結(jié)構(gòu)圖

2.1 數(shù)據(jù)采集

使用PHPQuery 采集數(shù)據(jù),實際上是通過鏈接地址找到源碼,再將源碼轉(zhuǎn)換為jQuery 語法,然后通過jQuery 語法獲得大量的評價數(shù)據(jù)(約500000 條)。

$curl=curl_init();

curl_setopt($curl,CURLOPT_URL,'http://www.baidu.com');

curl_setopt($curl,CURLOPT_HEADER,1);

curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);

$data=curl_exec($curl);

curl_close($curl);

var_dump($data);

?>

在代碼中首先初始化一個CURL 的對象,然后設置所要抓取的URL,配置CURL 參數(shù)要求結(jié)果保存到字符串中或者輸出到屏幕。之后運行CURL 請求網(wǎng)頁。最后關(guān)閉URL 請求,顯示所獲得的信息數(shù)據(jù)。

2.2 數(shù)據(jù)分析

通過PHPQuery 和CURL 的類方法采集食品數(shù)據(jù)的評價后,本模型系統(tǒng)的重難點在于如何對這些冗雜數(shù)據(jù)進行清洗和篩選。針對如何提取有效真實的評價,我們做出了以下的處理:

2.2.1 得到清洗數(shù)據(jù)后的好評率

經(jīng)過粗略的評論瀏覽,我們得到以下幾種無效評論。

(1)全是標點符號或者只有一兩個字,如表1所示。

表1

這種情況可以利用正則表達式來去除。

(2)湊字數(shù)、灌水,不含任何產(chǎn)品的特征的語句

此種評論的處理方法有兩種。一種是觀察評論中涉及的名詞是否是食品相關(guān)的詞語,如[色澤,香味,氣味]但實際情況會十分復雜,例如:

“真的很不錯”、“太美味了”...

因為評價中缺少主語,所以機器并不知道它評價的是什么。這里我們反過來,假設每一類無效評論都有類似的關(guān)鍵詞,一個評論中的詞語只要有一些垃圾評論關(guān)鍵詞,我們就把它判定為無效評論。當然并也不需要給定所有的無效評論詞,利用TF-IDF 可以通過一個詞語順藤摸瓜關(guān)聯(lián)到其他類似的詞語。當然,我們也可以利用文本相似性算法尋找。

2.2.2 語義理解

語義理解是非常復雜的課題,本文中不追求絕對精準,僅希望能對外賣店鋪的評論有一個快速的理解,找出用戶使用最多的形容類詞語。

(1)數(shù)據(jù)云圖。它會統(tǒng)計一段文本中各個詞語出現(xiàn)的次數(shù)(頻數(shù)),頻數(shù)越大,在詞云中對應的字體也越大。通過觀察詞云,我們可以知道一段文本主要在講哪些東西。

通過將主題分解提煉出的關(guān)鍵詞并生成詞云。

%matplotlib inline

Warningds.filterwarnings(“ignore”)

for k in[‘正分’,’負分’]

keywords=comments . get_keywords(comments . scores==k)

Print(‘{}的關(guān)鍵詞為:’.format(k)+’|’.jain(keywords))

comments.find_topic(comments.scores==k,n_topics=5);

filename=’wordcloud of{}’.format(k)

comments . genwordcloud(comments.scores==k,filename=filename);

Print(‘=’*20)

應用如下:

圖2 詞云圖

(2)通過關(guān)聯(lián)分析尋找顯性特征-形容詞對,需要克服以下難點:

①語句不只含名詞-形容詞對,兩個名詞,形容詞-動詞對等都有可能;

②沒有考慮兩個詞語在文本之間的距離。例如名詞位于第一句話中,形容詞則是最后一句話中。

表2 詞頻權(quán)重比

關(guān)聯(lián)分析只會挖掘支持度大于一定數(shù)值的特征,我們稱這種特征為“常見特征”。除此之外還有支持挖掘度沒有超過一定值的特征,我們把它叫做“不常見特征”,不常見特征根據(jù)食品的最常見評價詞反向挖掘得出。挖掘過程中將大數(shù)據(jù)關(guān)聯(lián)分析中處理過程按特征性任務分解,不同任務繼續(xù)分解為子任務,不同任務在不同的模塊或?qū)恿髦袇f(xié)作完成相關(guān)性分析。

利用用戶對店鋪其評價的語義,篩選出一系列有代表性的特征關(guān)鍵詞,如:

口感度關(guān)鍵字:好吃|美味|不好吃|還行 等進行分析。

匹配關(guān)鍵字:利用MySQL 的全文搜索進行關(guān)鍵字匹配。

自定義關(guān)鍵字,將每條評論取出,利用PHP 函數(shù)匹配與自定義關(guān)鍵字相符的記錄。

利用App 使用者對店鋪評價的優(yōu)劣,主要表現(xiàn)評論中重復字與重復性評論的剔除,評論字數(shù)小于10剔除。

(3)樸素貝葉斯算法

分析詞云、關(guān)鍵詞和主題可以區(qū)分出集中在正面評價和負面評價中的詞語。但是這個時候詞語中并沒有配套的情感,本測評模型系統(tǒng)中用到基于貝葉斯定理與特征條件獨立假設的分類方法的樸素貝葉斯數(shù)據(jù)情感數(shù)據(jù)算法來判斷一句話的情感方向是正面的還是負面的。

樸素貝葉斯其實是由以下的聯(lián)合概率公式推導出來:

P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)

其中P(Y)P(Y)叫做先驗概率,P(Y|X)P(Y|X)叫做后驗概率,P(Y,X)P(Y,X)叫做聯(lián)合概率。

用樸素貝葉斯進行文本特征提取和分類。

flag='sklearn'

deleteNs=range(0,1000,20)

test_accuracy_list=[]

for deleteN in deleteNs:

#feature_words=words_dict(all_words_list,deleteN)

feature_words=words_dict(all_words_list,deleteN,stopwords_set)

train_feature_list, test_feature_list = text_features(train_data_list,test_data_list,feature_words,flag)

test_accuracy=text_classifier(train_feature_list,test_feature_list,train_class_list,test_class_list,flag)

test_accuracy_list.append(test_accuracy)

print test_accuracy_list

(4)TextRank

TextRank 算法是一種用于文本的基于圖的排序算法,可以給出一段文本的關(guān)鍵詞,適用于食品評價安全模型系統(tǒng)的構(gòu)建。其基本思想來源于谷歌的PageRank算法,通過把文本分割成若干組成單元(單詞、句子)并建立圖模型,利用投票機制對文本中的重要成分進行排序,僅利用單篇文檔本身的信息即可實現(xiàn)關(guān)鍵詞提取、文摘。和LDA、HMM 等模型不同,TextRank 不需要事先對多篇文檔進行學習訓練,因其簡潔有效而得到廣泛應用。

TextRank 公式推導為:

cm=defaultdict(int)

words=tuple(self.tokenizer.cut(sentence))

for i,wp in enumerate(words):#(enumerate 枚舉的方式進行)

if self.pairfilter(wp):

for j in xrange(i+1,i+self.span):

if j>=len(words):

break

if not self.pairfilter(words[j]):

continue

if allowPOS and withFlag:

cm[(wp,words[j])]+=1

else:

cm[(wp.word,words[j].word)]+=1

3 實驗

圖3 功能展示

3.1 評價監(jiān)測工具

通過特定的算法,篩選出美團、大眾點評中各店鋪網(wǎng)站真實的評價及評分,并利用真實信息為店鋪重新打分以及顯示出真實評價。

3.2 好評率趨勢分析圖

圖4 調(diào)研店鋪好評率分析

如下,即時更新各個店鋪的評價的變化情況,并將數(shù)據(jù)可視化,以圖表的形式給點餐者呈現(xiàn)店鋪某一時間段的好評率波動圖。通過圖表分析模式輔助點餐者找到真正健康安全的美食店鋪,給青年上班族來極大的便捷。

3.3 個性化菜譜即時推送

根據(jù)用戶的瀏覽足跡以及店鋪收藏情況,每隔三天會為用戶打造一份包括早中晚三餐的個性化菜單,并以郵件的形式發(fā)送給每一位用戶。

4 結(jié)語

在本食品評論監(jiān)測模型系統(tǒng)中,首先是利用了PHPQuery 和CURL 的類方法采集原始數(shù)據(jù);接下來,將采集下來的分散數(shù)據(jù)清洗、冗余去重得到干凈數(shù)據(jù);然后,提取評價信息主題中關(guān)鍵詞,根據(jù)詞語出現(xiàn)頻率生成數(shù)據(jù)詞云圖,接著通過關(guān)聯(lián)分析判斷提取出食品特征描述的形容詞;最后,使用樸素貝葉斯數(shù)據(jù)模型機器判斷配套的情感,并通過構(gòu)建TextRank 文本網(wǎng)絡圖,迭代計算得到句子權(quán)重做出排序建立圖模型,生成可視化好評率趨勢分析圖。

在數(shù)據(jù)挖掘和分析中對數(shù)據(jù)模型的優(yōu)化是數(shù)據(jù)挖掘任務在網(wǎng)絡環(huán)境進行中的關(guān)鍵。本節(jié)中,優(yōu)化的目的是為了保證篩選評價的真實性及將基于大數(shù)據(jù)挖掘的分散式搜取數(shù)據(jù)順利轉(zhuǎn)化為直觀性、聯(lián)系性可視化圖表,只有真實性的數(shù)據(jù)才能保證可視化圖表的準確性,真正做到對廣大人民群眾的用餐安全問題負責。

經(jīng)過一段時間的網(wǎng)絡外賣評論數(shù)據(jù)的檢測調(diào)研后,我們繪制出調(diào)研店鋪的好評率分析圖。具體機制

主站蜘蛛池模板: 成年午夜精品久久精品| 欧美特黄一免在线观看| 国产JIZzJIzz视频全部免费| 久久国产免费观看| 亚洲毛片一级带毛片基地| 天堂成人在线视频| 国产伦精品一区二区三区视频优播| 欧美一级片在线| 福利在线一区| 久久大香香蕉国产免费网站| 国产av剧情无码精品色午夜| 中文一区二区视频| 亚洲国产精品成人久久综合影院| 国产精品成人免费视频99| 狠狠亚洲五月天| 日韩精品专区免费无码aⅴ| 尤物成AV人片在线观看| 无码人妻热线精品视频| 秋霞午夜国产精品成人片| 国产在线八区| 999精品在线视频| 一本久道热中字伊人| 国产亚洲男人的天堂在线观看| 亚洲国产综合精品一区| 欧美中文字幕无线码视频| 国产精品福利社| 日本三区视频| 久久婷婷国产综合尤物精品| 国产精品亚洲αv天堂无码| 亚洲无限乱码| 自拍亚洲欧美精品| 日韩精品毛片| 亚洲日韩欧美在线观看| 久久公开视频| 天堂在线视频精品| 国产剧情国内精品原创| 亚洲精品无码久久久久苍井空| 毛片免费观看视频| 麻豆精品在线播放| 精品国产成人三级在线观看| 亚洲成aⅴ人片在线影院八| www.91中文字幕| 91无码网站| 国产成人无码AV在线播放动漫| 无码国产偷倩在线播放老年人| 国产精选自拍| 亚洲高清中文字幕在线看不卡| 久久香蕉国产线看精品| 色偷偷一区二区三区| 亚洲系列无码专区偷窥无码| 激情亚洲天堂| 成人伊人色一区二区三区| 99热这里只有精品久久免费| 国产v欧美v日韩v综合精品| 精品久久777| 99久久精品无码专区免费| 欧美成人精品高清在线下载| 91精品人妻一区二区| 欧美成人午夜视频免看| 2020国产免费久久精品99| 亚洲精品无码人妻无码| 国产原创第一页在线观看| 91无码人妻精品一区二区蜜桃| 国产成人精品男人的天堂下载 | 午夜福利亚洲精品| 天天综合天天综合| 亚洲第一色视频| 69av免费视频| 欧洲av毛片| 久久亚洲国产最新网站| 在线看片中文字幕| 亚洲看片网| 中文字幕丝袜一区二区| 欧美 亚洲 日韩 国产| 欧美成人午夜视频| a级高清毛片| 最新日韩AV网址在线观看| 国产自在线播放| 午夜日韩久久影院| 欧美日韩高清| 亚洲天堂色色人体| 国产毛片片精品天天看视频|