李輝++張標++吳文良



摘要:為了解決養殖投入品的質量信息匱乏、監管效率低下等問題,結合網絡輿情信息發布與獲取的特點,引入了信息抽取和行政監管并存的理念,構建了基于B/S架構的養殖投入品質量的信息發布與輿情監管系統。采用主題爬蟲算法作為抓取網絡輿情的信息關鍵步驟,避免下載大量與主題不相關的網頁,提高了信息抓取的效率和準確率。并利用向量空間模型對主題爬蟲算法中的內容相似度進行計算與評價,提高了該算法爬行的準確性,并在實際系統中得到了驗證。同時該系統還提供了用戶信息管理、質量安全信息管理、養殖投入品供求信息管理等功能。系統測試和應用結果表明,該系統具有功能豐富、運行穩定、信息抓取準確、可擴展性強等優點,能較好地滿足不同角色對養殖投入品質量信息的需求。
關鍵詞:養殖投入品;主題爬蟲;質量信息;輿情監管;向量空間模型;B/S
中圖分類號: S126文獻標志碼: A文章編號:1002-1302(2017)08-0210-05
目前,針對當前養殖投入品市場上制假售假行為仍有不同程度存在,哄抬物價、坑農害農時有發生,養殖投入品經營監管網絡力量薄弱,導致嚴重影響農產品質量和社會穩定[1-4]。同時我國養殖投入品質量的信息存在需求不足、供給乏力、信息失真、分布不均衡等問題,這些問題給生產者、消費者和管理者都帶來信息不對稱,造成各種逆向選擇和道德風險。雖然我國對養殖投入品質量的安全尤為重視,并提出了采用電子監管來保障該投入品的安全要求,但是現實中仍然存在許多養殖投入品質量的安全問題,比如養殖投入品制假造假行為、不法分子銷售劣質養殖投入品欺騙農戶、農戶對養殖投入品質量的安全信息掌握不足、政府執法監督效率低下、網民問政信息不通暢等現象[5-7]。信息科技高速發展的今天,我們應該充分利用網絡技術優勢,把互聯網技術應用到養殖投入品質量的安全與監管中去,為農業信息化增添活力,為農產品質量的安全保駕護航[8-11]。
因此,通過構建養殖投入品質量的信息發布與輿情監管系統,從根本上保護農戶利益,并為合格養殖投入品的企業提供供求平臺,保障養殖產品質量安全、廣大人民群眾的身體健康和生命安全,提升我國養殖產品質量安全水平,增強我國養殖業整體實力和養殖產品國際競爭力。
1系統需求分析
養殖投入品質量的信息網絡發布與執法監管力量在網絡執行,充分運用信息技術并將其融入食品安全信息化監控當中。以供求平臺為中心,信息共享為基礎,執法力量常駐為政治支持,網絡輿情信息為信息后盾,就是養殖投入品質量的信息發布與監管系統最大的目標需求。
1.1用戶分析及角色定義
養殖投入品質量的信息發布與輿情監管系統的用戶有系統管理員,養殖農戶,養殖投入品商戶,質檢、工商、衛生等國家相關部門工作人員,共4種用戶。
系統管理員要求計算機專業技術過硬,需要具備本系統故障維護能力。養殖戶和養殖投入品商戶以及國家相關部門工作人員需要通過實名認證才可以使用本系統對應功能模塊。同時要求他們熟悉本系統提供的信息處理操作。具體角色分析定義如下。
1.1.1養殖戶養殖戶是指在這個監管系統中通過客戶端提交申請信息并通過合格驗證的養殖戶,這個角色主要使用本系統提供的養殖投入品供求平臺購買滿意產品,并通過反饋意見和打分來繼續鞏固維護質量信息監管體系。
1.1.2養殖投入品供貨商養殖投入品供貨商是指在這個監管系統中通過客戶端提交申請信息并通過合格驗證的商戶,這個角色主要使用本系統提供的養殖投入品供求平臺出售合格養殖投入品,并通過監管平臺相關的網絡輿情分析,主動自我產品監督與完善,共同維護養殖投入品市場的公平與誠信。
1.1.3執法人員質監、工商、衛生等國家相關部門的工作人員向系統管理員提出申請,得到認證許可后,可以在相應模塊發布與養殖投入品質量信息相關的新聞公告,審核產品。利用系統的用戶意見反饋、舉報信息,整治規范養殖投入品市場。
1.1.4管理員管理員是指在這個監管系統中權限最高的角色,它主要參與系統故障維護,具有審核其他任何類型用戶申請資料權限,同時負責質量安全信息發布。
1.2系統功能需求分析
根據上述功能需求分析,系統按功能劃分為以下八大模塊(圖1)。包括用戶管理、供應產品信息管理、求購產品信息管理、執法公告管理、信息抓取管理、評論信息管理、注冊登錄管理、個人信息管理。
1.2.1用戶管理功能系統管理員權限。管理員可以在系統中根據情況添加、刪除用戶,并為用戶分配權限和添加角色。
1.2.2供應產品信息管理功能養殖投入品供貨商權限。提供對供應產品基本信息添加、修改、刪除的功能。企業商戶可在系統中錄入供應的養殖投入品的基本信息,提交到系統數據庫等待執法管理員審核。
1.2.3求購信息管理功能養殖農戶權限。提供對求購產品基本信息添加、修改、刪除的功能。養殖農戶可在系統中錄入求購養殖投入品的基本信息,提交到系統數據庫等待執法管理員審核。
1.2.4執法公告管理執法人員權限。提供對養殖投入品市場整頓信息、相關政策法規等信息的錄入、刪除、修改功能。
1.2.5信息抓取管理系統管理員的權限,系統管理員可以手工添加網絡輿情信息,也可以借助第3方爬蟲或搜索引擎接口智能獲取相關網頁URL地址,供用戶瀏覽。
1.2.6評論管理功能提供對供求平臺信息評論打分功能,以及相關管理員對用戶所評論打分信息管理的功能。用戶登錄后可以對供求平臺對應感興趣的信息發表評論并打分,同時相關管理員可以管理、利用評論信息,標志近期熱門供求信息,對供求信息進行調整管理。
1.2.7注冊登錄功能用戶注冊審核通過后,才可以使用后臺信息管理平臺。
1.2.8個人信息管理功能主要提供用戶自主修改基本信息的功能,如常用的密碼修改功能。
1.3系統業務流程
系統從養殖投入品供貨商錄入供應產品信息開始,由執法員審核通過后發布供應信息,完成監管平臺的第一次質檢監督。然后養殖農戶在供求平臺查找符合自己需求的養殖投入品:如果沒有符合條件的,則錄入自己需要的養殖投入品信息,系統管理員審核通過后發布求購信息,完成監管平臺的第2次監管。如果有符合條件的供給產品,則與供貨商站內聯系,同時可以對產品進行評論打分。隨后系統管理員、執法員根據評論信息對供求平臺信息進行整理,標志熱門信息,同時發布網絡輿情信息、執法公告,完成監管平臺的第3次質檢監督。具體流程見圖2。
2系統設計
2.1系統框架設計
由于系統面向的群體主要為廣大養殖農戶和各地方的養殖投入品供貨商,系統采用B/S體系結構、C2C模式、基于Web的方式進行設計開發。這樣不僅可以方便系統用戶在不同地方進行投入品質量安全信息查詢,為相關政府部門提供與網民互動平臺,而且方便各地養殖農戶與供貨商利用本系統提供的供求平臺,發布養殖投入品的供求信息。
系統利用數據庫技術、網絡技術,通過構建統一的供求平臺和質量信息監管體系結構,充分發揮政府相關職能部門的公信力與職責,協調整頓養殖投入品互聯網市場,保障養殖農戶的利益,為養殖投入品的供貨商提供供應信息的發布平臺。監管平臺擁有執法人員入駐的優勢,以及網絡輿情信息的提供,大大提高了本系統供求平臺的公信力,而且改進了關于互聯網質量信息監督管理模式,推進了政府產品質量安全工作的展開。一旦網絡輿情發現相關產品質量出現問題,通過監管體系,可立即在系統發布并提醒系統用戶。綜上所述,建立系統基本框架見圖3。
2.2系統功能架構設計
本系統采用模塊化設計,一方面保證每個模塊的完整性和獨立性,另一方面便于對系統靈活地擴展和維護。在功能需求方面實現養殖投入品質量信息采集、信息分析、用戶信息反饋提取、行政執法監管。系統由用戶信息管理子系統、質量安全信息管理子系統、養殖投入品供求信息管理子系統、網絡輿情信息抽取子系統,共4個子系統組成,系統功能構架見圖4。
用戶信息管理子系統主要提供系統各類用戶管理個人基本信息的功能,尤其是系統管理員利用該子系統進行用戶信息審核及授權管理的功能。質量安全信息管理子系統為行政執法員提供相關政策法規、市場規范整頓信息發布和管理的功能,同時網絡輿情信息發布也需要該子系統提供支持。養殖投入品供求信息管理子系統主要是為養殖農戶和供貨商提供交易信息平臺,同時該子系統的監督管理權限由行政執法員支配。網絡輿情信息抽取子系統主要實現從互聯網抽取相關信息,并進行篩選后存入質量安全信息系統。
3網絡輿情抓取的關鍵算法
3.1網絡輿情的抓取
網絡已經成為公眾輿情表達最為重要的傳播平臺,其影響已遠遠超出傳統主流媒體的影響。網絡輿情是民眾情緒、意見、態度、意愿等的綜合,而開放的信息發布平臺,使網絡輿情可以通過不同的途徑表現出來,如網絡新聞、新聞跟帖、社交空間、博客微信等,其傳播影響深遠。網絡輿情的抓取,是指借助成熟的搜索引擎或普通網絡爬蟲程序定點定時在互聯網中抽取目標信息。所以,本監管平臺將憑借網絡爬蟲的信息抽取能力,主動獲取養殖投入品質量信息,擴大監管信息庫,完善信息發布平臺功能。
網絡爬蟲分為通用爬蟲和主題爬蟲2種。通用爬蟲都是基于傳統的圖算法作為工作原理,從種子鏈接開始,利用廣度或深度優先算法抓取互聯網信息,這種爬蟲的目標是覆蓋整個Web網絡,不考慮網頁與主題的相關度。而主題爬蟲的目標就是要盡可能多地采集與主題相關的頁面,盡可能少地采集無關頁面,這是主題搜索引擎的關鍵性問題。由于主題爬蟲只下載少量的主題相關的網頁,不會花費大量的時間遍歷整個Web網絡海洋,提高了爬行效率和抓取的準確率。通過分析通用爬蟲和主題爬蟲的技術特性,同時結合養殖投入品的質量信息特點,該平臺將選擇主題爬蟲算法作為網絡輿情抓取的關鍵算法。
3.2基于主題爬蟲算法的網絡輿情信息抓取流程
網絡輿情信息抓取的核心就是主題爬蟲算法,執行主題爬蟲算法抓取養殖投入品質量輿情信息的流程見圖5。首先將種子URL初始化,根據一定的網頁分析算法過濾與主題無關的鏈接,抓取與預先設定的主題相關性較高的Web頁面,同時將抓取到的頁面鏈接保存到待抓取的URL隊列中。然后提取相應的URL到處理隊列中,之后提取所要處理的網頁文本信息,方便下一步計算。通過特定模型,計算網頁內容、子鏈接、錨文本等與主題的相關性。從而確保主題網頁抓取系統在程序執行時盡可能多地抓取、采集與特定主題相關度較高的網頁,同時最大限度地過濾掉與主題無關的網頁[12-15]。重復上述過程,直到系統的停止條件得到滿足時才停止對主題網頁的抓取。所有被爬蟲抓取的網頁將會被系統存起來,進行一定的分析、過濾,并建立索引,以方便之后的查詢和檢索[16]。
在主題爬蟲算法的網絡輿情信息抓取過程中,頁面分析及相似度計算是信息抓取的關鍵與核心步驟,該步驟通過特定的爬蟲算法判定抓取的網頁是否與給定的主題相關,直接決定了主題爬蟲抓取頁面的準確率[17]。
3.3基于向量空間模型的內容相似度計算評價
針對頁面內容質量,一般是以內容相似度作為評價標準,若內容與主題內容相似度大于某個閾值,就將該頁面保存起來,若內容與主題內容相似度小于該閾值,將其視為不相關頁面并丟棄。對于內容相似度計算與評價較為常用的是向量空間模型,該模型計算簡單、正確率較高,從而得到廣泛應用。向量空間模型基于這樣一個關鍵假設,即組成文章的詞條所出現的順序是無關緊要的,它們對于文章的主題所起的作用是相互獨立的,因此,可以把文檔看作一系列無序詞條的集合。該算法的基本思想就是用2個向量之間的某種距離來表示它們之間的相似度,頁面內容相似度可以用夾角余弦值進行計算[18-21]:
4系統實現與應用
根據系統設計,利用PHP語言完成系統開發、MySQL數據庫完成后臺數據管理和Apache作為系統存放平臺部署在浪潮服務器上運行。登錄系統可以進入系統首頁(圖6),通過不同角色登錄系統,進行相關模塊驗證,經過測試運行,表明該系統已實現前臺展示、登錄注冊控制、用戶信息管理、公告信息管理、信息抓取管理、供求平臺管理、評論模塊管理七大模塊。
重點對輿情信息抓取模塊進行測試驗證,抓取信息列表展示見圖7,在抓取信息時已經去除推廣鏈接,滿足系統用戶搜索自己感興趣的信息主題。信息抓取模塊的功能實現,解
決了信息資源不足、網絡輿情收集難等問題。
在測試后,該系統進行了實際運行應用,各項功能都得到了有效實際驗證,且運行穩定,使養殖戶和養殖投入品供應商能夠方便有效地獲取養殖投入品的質量信息,為執法人員提供了靈活有效的監管手段。
5結論
本研究結合養殖投入品質量信息的特點,基于B/S的3層體系結構系統架構,采用模塊化設計方法,設計開發了基于主題爬蟲算法的養殖投入品質量的信息發布與監管系統。系統由用戶信息管理子系統、質量安全信息管理子系統、養殖投入品供求信息管理子系統和網絡輿情信息抽取子系統4部分組成,設計中各部分相對獨立,具有較高的可擴展性、可維護性和應用性。
采用主題爬蟲算法作為抓取網絡輿情的信息關鍵步驟,該算法執行時只下載少量與主題高度相關的網頁,提高了爬行效率和抓取的準確率。同時引入向量空間模型對主題爬蟲算法中的內容相似度進行計算與評價,該模型計算簡單、正確率較高,并在實際系統中得到了驗證。
該系統為養殖戶、企業商家提供了豐富的網絡在線功能,實現了網絡輿情共享、輿情主動獲取、網絡執政、網絡問政的有效整合和質量信息過程控制,解決了養殖投入品質量的信息資源不足、數據分散、信息共享率低下等問題。
參考文獻:
[1]唐承明,陳文,黎書長,等. 廣西養殖投入品與畜產品的質量現狀分析[J]. 南方農業學報,2014,45(11):2093-2097.
[2]李隆春. 臨澤縣畜牧業養殖投入品使用現狀調查[J]. 畜牧獸醫雜志,2015,34(2):90-91.
[3]羅承金. 確保養殖投入品質量安全的對策[J]. 四川畜牧獸醫,2011(12):12-13.
[4]張祥國. 加強對養殖投入品的監管確保水產品質量安全[J]. 今日科苑,2014(5):114.
[5]隆瑞賢. 武鳴縣動物養殖投入品經營和使用環節安全監管存在的問題及建議[J]. 廣西畜牧獸醫,2014,30(6):320-321.
[6]季坤嶺,陳新華,董燕萍,等. 健康的養殖業來源于健康的環境與投入品[J]. 中國動物保健,2007(7):31-33.
[7]柏凡. 加強投入品管理保障無公害畜產品質量[J]. 中國畜牧業,2014(18):29-31.
[8]馬明遠,秦向陽,李瑾. 農產品質量安全信息化技術進展及應用前景[J]. 中國農學通報,2009,25(2):258-262.
[9]成維莉,徐冬寅,程濤. 基于追溯的農產品質量安全監管平臺設計與實現[J]. 農機化研究,2015(5):113-117.
[10]楊斌,陳平,董朝. 動態信息發布平臺的設計和實現[J]. 計算機工程,2005,31(6):225-227.
[11]龔建疆,楊沙,范堯. 產品質量監管平臺的設計[J]. 現代企業文化,2010(27):121-122.
[12]謝治軍. 垂直搜索引擎的主題網頁抓取策略研究[D]. 重慶:重慶理工大學,2012:17-18.
[13]李勇,韓亮. 主題搜索引擎中網絡爬蟲的搜索策略研究[J]. 計算機工程與科學,2008,30(3):4-6.
[14]Dong H,Hussain F K. Self-Adaptive semantic focused crawler for mining services information discovery[J]. IEEE Transactions on Industrial Informatics,2014,10(2):1616-1626.
[15]Ahmadi-Abkenari F,Selamat A. An architecture for a focused trend parallel Web crawler with the application of clickstrearn analysis[J]. Information Sciences,2012,184(1):266-281.
[16]王魯榮. 基于主題網絡爬蟲的高校網絡信息動態搜索策略研究[J]. 四川師范大學學報(自然科學版),2011,34(6):919-921.
[17]張環. 垂直搜索引擎中主題網絡爬蟲算法研究[D]. 濟南:山東師范大學,2015:12-13.
[18]史寶明,賀元香,吳崇正. 主題搜索引擎中爬蟲搜索策略的研究[J]. 計算機工程與應用,2014,50(2):116-119.
[19]徐明子,呂立,李喜旺. 改進空間向量模型主題網絡爬蟲系統[J]. 計算機系統應用,2013,22(7):36-39.
[20]Du Y,Liu W,Lv X,et al. An improved focused crawler based on semantic similarity vector space model[J]. Applied Soft Computing,2015,36:392-407.
[21]Kim D. Group-theoretical vector space model[J]. International Journal of Computer Mathematics,2015,92(8):1536-1550.
[22]賀晟. 搜索引擎中主題網絡爬蟲的研究與設計[D]. 合肥:安徽大學,2010:15-16.
[23]李連,朱愛紅,蘇濤. 一種改進的基于向量空間文本相似度算法的研究與實現[J]. 計算機應用與軟件,2012,29(2):282-284.
[24]Hong T P,Lin C W,Yang K T,et al. Using TF-IDF to hide sensitive item sets[J]. Applied Intelligence,2013,38(4):502-510.
[25]魏晶晶,楊定達,廖祥文. 基于網頁內容相似度改進算法的主題網絡爬蟲[J]. 計算機與現代化,2011(9):1-4.