999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線校園新聞主題分析模型的建立與應(yīng)用

2018-02-26 07:53:50朱鳳山
電子技術(shù)與軟件工程 2018年15期

朱鳳山

摘要

我國的智慧校園建設(shè)和數(shù)字化校園建設(shè)已經(jīng)持續(xù)多年,積累的相當(dāng)數(shù)量的數(shù)字化信息,反映了各學(xué)校發(fā)展歷程中的關(guān)切點。校園在線新聞是數(shù)字化校園與智慧校園建設(shè)的組成部分,建立新聞主題分析模型,對在線新聞進行智能化的挖掘、統(tǒng)計和分析,提供相應(yīng)參考數(shù)據(jù),有利于智慧校園建設(shè)和完善。新聞主題分析模型運用Python編程語言實現(xiàn)爬蟲程序,建立數(shù)據(jù)獲取模塊,經(jīng)清洗和結(jié)構(gòu)化處理后,借助HanLp技術(shù)進行詞語切分,實現(xiàn)中文語法分詞,統(tǒng)計、分析在線新聞的隱含信息和潛在價值。最后使用該分析模型針對某高校近五年新聞數(shù)據(jù),按照時間和主題進行了分析和匯總

【關(guān)鍵詞】在線新聞 Python HanLP 主題分析模型

1 引言

智慧校園是在本世紀(jì)初,全球進入信息化大背景下,我國在十二五規(guī)劃中明確提出來的,它以數(shù)字校園建設(shè)與發(fā)展為基本出發(fā)點與落腳點。2015年國務(wù)院頒發(fā)了《關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》,進一步明確要求加快推進互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等相關(guān)技術(shù)的創(chuàng)新應(yīng)用,推動國家大數(shù)據(jù)戰(zhàn)略和數(shù)據(jù)資源開放共享。“互聯(lián)網(wǎng)+”行動引起了社會各行業(yè)、領(lǐng)域的廣泛探討,教育領(lǐng)域所提倡的智慧校園也包含在內(nèi)。

隨著大數(shù)據(jù)時代的到來,對數(shù)據(jù)進行分析、整理和歸納,從而為決策者提供決策支持,己受到各行各業(yè)的廣泛關(guān)注的。國內(nèi)外的很多研究者已經(jīng)對如何高效利用大數(shù)據(jù)進行了廣泛和深入的研究。高校門戶網(wǎng)站是高校數(shù)字化校園與智慧校園建設(shè)的組成部分,承擔(dān)著對外宣傳的重任,同時又是在校師生獲取信息的重要途徑。科學(xué)、合理、高效的門戶網(wǎng)站可以作為高校對外展示的一張名片,它反映了高校的信息化程度,是高校軟實力的體現(xiàn)。因此,借鑒大數(shù)據(jù)分析技術(shù),構(gòu)建在線校園新聞主題分析模型,對高校在線新聞主題進行挖掘、分析、統(tǒng)計,對高校開展信息化建設(shè)和智慧校園建設(shè)都有積極意義。

智慧校園建設(shè)將成為教育信息化的最終形態(tài)。李有增認(rèn)為智慧校園是融合提升高校教學(xué)、管理和服務(wù)的新模式,是教育信息化的高級形態(tài)。智慧校園所提倡的智慧,其內(nèi)涵不是簡單的數(shù)字信息化,而是創(chuàng)新和創(chuàng)造。建設(shè)智慧校園要結(jié)合云計算和大數(shù)據(jù)分析等科研技術(shù),有效的對各種資源進行整合。在線校園新聞主題分析模型就是以大數(shù)據(jù)分析為基礎(chǔ),對高校所發(fā)布到門戶網(wǎng)站上的校園新聞進行主題挖掘和分析,提供反饋結(jié)果,用以提升在線校園新聞管理的智慧程度。

2 分析模型的構(gòu)建

在線新聞主題分析模型依據(jù)所加工數(shù)據(jù)的流向劃分,主要包括數(shù)據(jù)獲取與結(jié)構(gòu)化處理,中文分詞處理,統(tǒng)計與分析,可視化呈現(xiàn)四個環(huán)節(jié),如圖1所示。

2.1 數(shù)據(jù)的獲取與結(jié)構(gòu)化處理

鑒于校園網(wǎng)新聞內(nèi)容都是以HTML文本方式呈現(xiàn),分析模型在獲取數(shù)據(jù)時采用Python語言編寫的“爬蟲”來完成。Python編寫“爬蟲”程序時可以自行設(shè)計功能函數(shù),通過多線程機制優(yōu)化運行;也可以借助成熟的函數(shù)庫或框架,如Beautiful Soup、Scrapy等。在本模型中采用的是前者。

為了讓“爬蟲”程序比較穩(wěn)健,在實現(xiàn)過程中采取相應(yīng)策略抵抗“反爬蟲”程序。通過URL訪問HTML頁面時,動態(tài)更改user-agent,偽造用戶代理,以防止服務(wù)器封殺。控制“爬蟲”程序執(zhí)行速率,隨機每1~5秒執(zhí)行一次爬取操作。讀取到頁面內(nèi)容后,進行數(shù)據(jù)類型識別,如果是新聞信息數(shù)據(jù),分發(fā)到數(shù)據(jù)清洗與整理模塊;如果是新的頁面URL鏈接,加入URL列表集合。“爬蟲”程序從入口頁面開始之后,不斷從URL列表中提取新的頁面,爬取所需內(nèi)容,并進行標(biāo)記,以防止重復(fù)爬取。結(jié)構(gòu)化處理模塊讀取新聞信息以及相關(guān)屬性,如新聞發(fā)布日期、發(fā)布者等,重新組織為結(jié)構(gòu)化數(shù)據(jù),借助pymysql模塊存入Mysql數(shù)據(jù)庫。由于所需采集數(shù)據(jù)具有很強的規(guī)律性,使用“爬蟲”程序提取URL時,可以屏蔽無關(guān)鏈接,避免Python程序執(zhí)行時耗費很長時間。如果需要處理的URL種類較多,且無固定分組模式,可以借助Python的多進程或多線程技術(shù),采用緩存優(yōu)化和并發(fā)性訪問,從而可以提升執(zhí)行性能。

2.2 新聞主題的分詞

中文分詞是基于HTML頁面數(shù)據(jù)挖掘的前提。按照分詞算法的不同,可以分為基于字符串匹配算法、基于理解的算法和基于統(tǒng)計的算法。根據(jù)分詞與詞性標(biāo)注是否融合的不同,又可分為單純分詞的非融合算法和分詞與標(biāo)注同時進行的融合算法。目前,比較流行的中文分詞算法是基于統(tǒng)計模型的機器學(xué)習(xí)方法。

在新聞主題分析模型中,采用的分詞算法是由HanLP封裝的。HanLP是由一系列模型與算法組成的開發(fā)工具包,用于提供自然語言處理技術(shù)在軟件開發(fā)中的應(yīng)用[4]。HanLP提供了多種分詞算法的實現(xiàn),如最短路分詞、N-最短路分詞、CRI分詞等,中心思想是基于統(tǒng)計的自然語言處理。它較為完善的實現(xiàn)了詞法分析、句法分析和語義理解等功能。HanLP工具包同時具備架構(gòu)清晰、語料時新、可自定義詞典等特點,hanlp.properties配置文件想具體信息如下,其中mywords.txt文件即為自定義的詞典。

root=E:/eclipseSpace/test/

CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt

BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt

CoreStopWordDictionaryPath=data/dictionary/stopwords.txt

CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt

PersonDictionaryPath=data/dictionary/person/nr.txl

PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt

TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt

CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;mywords.txt;現(xiàn)代漢語補充詞庫.txt;全國地名大全.txt ns;人名詞典.txt;機構(gòu)名詞典.txt;地名.txt

ns;data/dictionary/person/nrf.txt.nrf

CRFSegmentModelPath=data/model/segment/CR]SegmentModel.txt

HMMSegmentModelPath=data/model/segment/HMMSegmentModel.bin

ShowTermNature=true

2.3 統(tǒng)計分析與可視化呈現(xiàn)

分析模型的最終目的是對獲取到的數(shù)據(jù)進行統(tǒng)計、分析,并予以呈現(xiàn)。可視化呈現(xiàn)利用數(shù)據(jù)窗口的直觀、全面,對挖掘出的數(shù)據(jù),通過視覺化,把信息變成了一種信息地圖,避免迷失在數(shù)字信息中時。數(shù)據(jù)信息地可視化呈現(xiàn),在大數(shù)據(jù)應(yīng)用逐漸普及的情況下,顯得尤為重要。

統(tǒng)計和分析模塊主要從頻度分析、主題分析和熱度分析三個方面展開。頻度分析是對特定時間段內(nèi),在線新聞發(fā)布數(shù)量的統(tǒng)計和分析;主題分析是對特定時間段內(nèi),所發(fā)布在線新聞的主題進行統(tǒng)計和分析;熱度分析是對主題分析結(jié)果的進一步挖掘,尋找特定時間段內(nèi)在線新聞的熱點、關(guān)切點,它能反應(yīng)高校比較重視的事件,體現(xiàn)高校管理的發(fā)展與變化趨勢。

在實現(xiàn)可視化呈現(xiàn)時,選擇Highcharts圖標(biāo)庫。它是一套用Javascript語言編寫實現(xiàn)的,支持所有主流瀏覽器和移動平臺(android、iOS等),開源免費的輕量JS庫。Highcharts可以較為簡單的在Web頁面或Web應(yīng)用程序中添加具有交互性的圖表,即為方便的呈現(xiàn)數(shù)據(jù)。

3 分析模型的應(yīng)用

為檢驗在線校園新聞主題分析模型的應(yīng)用效果,選擇華北某省屬高校的在線校園新聞進行實踐應(yīng)用測試。使用Python編寫的“爬蟲”程序,共獲取數(shù)據(jù)4193條,時間跨度為2012-06-18到2018-06-01。為了便于統(tǒng)計和分析,截取2013-01-01到2017-12-31之間五年的數(shù)據(jù),共計3687條數(shù)據(jù),進行主題分詞,頻度分析和熱度分析。

新聞主題的獲取較為完善、清晰,沒有混入其他文本信息和HTML元素,說明Python程序的執(zhí)行較為穩(wěn)定,預(yù)定模式匹配比較成功。

3.1 新聞發(fā)布頻度分析

在被選數(shù)據(jù)集合中,該高校在線新聞發(fā)布量為2013年423篇,2014年864篇,2015年774篇,2016年739篇,2017年887篇,整體趨勢為正向增長,如圖2所示。在大力推廣數(shù)字化校園建設(shè),智慧校園建設(shè)的進程中,校園新聞可以作為傳播和反映校園文化精神的載體。校園新聞可以服務(wù)于大學(xué)文化建設(shè),同時可以作為校園文化建設(shè)的手段。積極、合理、適度的校園新聞發(fā)布量,是反映校園文化內(nèi)涵、樹立高校形象和辦學(xué)特色的重要形式,能夠增強教師和學(xué)生的凝聚力,使其有歸屬感,同時營造積極向上的數(shù)字化校園氛圍。

近五年的數(shù)據(jù)信息顯示,校園新聞在月度發(fā)布量上與高校的學(xué)期時間跨度正向匹配。9月至轉(zhuǎn)年1月為第一學(xué)期(上半學(xué)期);3月至7月為第二學(xué)期(下半學(xué)期),調(diào)整之后的月度新聞發(fā)布量如圖3所示。寒暑假期間的新聞發(fā)布量最低,學(xué)期中新聞發(fā)布量較高。比較有意思的是,近五年的數(shù)據(jù)反映,兩個學(xué)期的發(fā)文量并不平均,第一學(xué)期明顯的發(fā)文量明顯高于第二學(xué)期。

3.2 新聞主題與熱度分析

經(jīng)HanLP分詞模塊對所提取新聞主題分詞后,進行數(shù)據(jù)清洗,主要從不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三個方面進行清洗。在數(shù)據(jù)處理過程中還過濾了與單位信息密切相關(guān)的數(shù)據(jù)。

整理之后的數(shù)據(jù)按照詞語在新聞主題中出現(xiàn)次數(shù)高低拍序,出現(xiàn)次數(shù)越多,則意味著該詞語具備更高的熱度指數(shù)。2013年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“舉行”、“全國”;2014年度,排名前五位的熱度詞匯有“我校”、“天津市”、“舉行”、“召開”、“工作”;2015年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“天津市”、“舉行”;2016年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“舉行”、“天津市”;2017年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“天津市”、“舉行”。各年度熱詞排行榜具體信息可以參考圖4至圖80

除去“我校”、“召開”、“舉行”、“工作”等在新聞主題發(fā)布時較為常用的詞匯,位于熱度詞匯排行榜中其他詞匯則可以標(biāo)明該所高校的新聞關(guān)切點所在,如“學(xué)生”、“學(xué)習(xí)”、“教育”、“教師”等,這些詞匯在近5年的排行榜中都有所反應(yīng)。

4 總結(jié)

基于Python和HanLp技術(shù)的在線新聞主題分析模型,使用Python采集Web數(shù)據(jù),經(jīng)數(shù)據(jù)清洗和結(jié)構(gòu)化整理之后,借助HanLP中文語法工具分詞,統(tǒng)計、分析在線新聞的隱含信息和潛在價值,體現(xiàn)了數(shù)據(jù)挖掘的意義,對校園信息化建設(shè)和信息化管理提供支持。

4.1 提供決策支持

在線新聞主題經(jīng)過中文分詞、聚類等方法,可以收集到相關(guān)信息,為管理者提供信息反饋和決策支持。通過抽取門戶網(wǎng)站各主題的信息,對主題進行深入挖掘,可以讓管理者更加深刻的從多角度的了解高校門戶網(wǎng)站的內(nèi)容發(fā)布情況,也可以作為高校領(lǐng)導(dǎo)對相關(guān)事件的決策判斷基礎(chǔ)。通過信息技術(shù)將數(shù)據(jù)所隱藏的信息發(fā)掘出來,實現(xiàn)數(shù)據(jù)價值的有效利用,為相關(guān)決策提供數(shù)據(jù)支撐。在此基礎(chǔ)上,對挖掘出的數(shù)據(jù)進一步分類,這也數(shù)據(jù)挖掘領(lǐng)域的重要方向,通過描述性的數(shù)據(jù)特征,將歸為一類的數(shù)據(jù)劃分為一個領(lǐng)域。基于Python和HanLp技術(shù)的在線新聞主題分析模型可以分析高校門戶網(wǎng)站主題新聞內(nèi)容,從而找出高校新聞主題的相關(guān)信息,將信息進行歸納和總結(jié),以便讓管理者做出更加正確的決策。

4.2 提供縱向和橫向?qū)Ρ葦?shù)據(jù)

使用基于Python和HanLp技術(shù)的在線新聞主題分析模型,可以縱向分析同一學(xué)校在不同時間段、不同歷史時期的關(guān)注點,找出該歷史時期下的工作重點。縱向切分的時間段可以按照年、月、周為單位,這需要對分析模型中“統(tǒng)計和分析”模塊的參數(shù)進行調(diào)整。同時,該分析模型可以應(yīng)用于不同學(xué)校在線新聞主題的挖掘和分析,橫向?qū)Ρ葘W(xué)校之間的關(guān)切點。綜合使用縱向和橫向?qū)Ρ葦?shù)據(jù),可以發(fā)現(xiàn)某一個特定時間段下,不同學(xué)校之間的發(fā)展變化,提供數(shù)據(jù)支撐。

4.3 分析模型存在的問題

當(dāng)前,在線新聞主題分析模型是針對同一個高校新聞網(wǎng)站進行的,基于Python的爬蟲模塊在匹配新聞URl時,只限定于當(dāng)前域,對域外的URL不進行處理,這種挖掘數(shù)據(jù)的方式,可以提高效率,但降低了靈活性。通過實踐應(yīng)用,分析模型在獲取數(shù)據(jù)和分析數(shù)據(jù)時都可以比較高效、穩(wěn)定。分析模型下一步需要完善的功能是可以比較智能的對所指定的多所高校新聞?wù)军c,自動的爬取數(shù)據(jù);同時提供校際橫向關(guān)切點數(shù)據(jù)分析功能模塊。

參考文獻

[1]潘慶超,吳東偉.高校門戶網(wǎng)站設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2014(04):838-840.

[2]蔣東興,付小龍等.高校智慧校園技術(shù)參考模型設(shè)計[J].中國電化教育,2016(09):108-P114.

[3]陳琳,王蔚等.智慧校園的智慧本質(zhì)探討--兼論智慧校園“智慧缺失”及建設(shè)策略[J].遠(yuǎn)程教育雜志,2016(04):17-24.

[4]Han Language Processing[EB/OL],http://hanlp.linrunsoft.com/,2018-6-6.

[5]李有增,周全等.關(guān)于高校智慧校園建設(shè)的若干思考[J],中國電化教育,2018(01):112-117.

主站蜘蛛池模板: 伊人激情综合网| 三上悠亚精品二区在线观看| 亚洲综合香蕉| 国产精品 欧美激情 在线播放| 暴力调教一区二区三区| 国产电话自拍伊人| 试看120秒男女啪啪免费| 精品亚洲国产成人AV| 毛片视频网| 日本免费新一区视频| 亚洲视频免费在线| 欧美一区二区三区香蕉视 | 99热国产这里只有精品无卡顿"| 日韩成人在线网站| 日本免费一级视频| 国产日韩丝袜一二三区| 国产自视频| 国产探花在线视频| 极品国产一区二区三区| 精品综合久久久久久97超人| 欧美一区二区丝袜高跟鞋| 亚洲丝袜中文字幕| 国产手机在线观看| 日韩 欧美 小说 综合网 另类| 一区二区三区四区精品视频| 伊人久久大线影院首页| 极品国产在线| 亚洲精品视频免费看| 亚洲欧洲免费视频| 国产精品嫩草影院av| 成人午夜久久| 另类重口100页在线播放| 日日摸夜夜爽无码| a天堂视频在线| 色九九视频| 第一页亚洲| 在线观看热码亚洲av每日更新| 久久精品aⅴ无码中文字幕| 免费国产无遮挡又黄又爽| 亚洲欧美日韩中文字幕一区二区三区| 国产麻豆精品久久一二三| 亚洲人成在线精品| 免费毛片视频| 亚洲AV成人一区二区三区AV| 波多野结衣亚洲一区| 国产精品九九视频| 午夜视频免费试看| 欧美日韩一区二区在线播放| 国产在线91在线电影| 亚洲男人天堂久久| 亚洲精品第一在线观看视频| 国产精品无码在线看| 国产一区二区精品高清在线观看| 99在线观看视频免费| a在线亚洲男人的天堂试看| 欧美成人区| 91香蕉视频下载网站| 亚洲中文字幕在线精品一区| 亚洲欧洲免费视频| 真实国产乱子伦高清| 热re99久久精品国99热| 亚洲精品爱草草视频在线| 一本大道无码高清| 日韩少妇激情一区二区| 色婷婷国产精品视频| 久久婷婷人人澡人人爱91| 日韩午夜片| 国产电话自拍伊人| 国产日韩欧美成人| 久久黄色小视频| 亚洲毛片网站| 老司机精品久久| 2020最新国产精品视频| 中文无码精品A∨在线观看不卡| 野花国产精品入口| 欧美在线观看不卡| 亚洲第一网站男人都懂| 精品国产免费观看| 久久国产精品麻豆系列| 真实国产乱子伦视频| 亚洲成年人网| 欧日韩在线不卡视频|