999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據爬蟲技術的創新創業競賽服務平臺研制

2018-01-04 11:06:12孫穎馨王靜由揚
電腦知識與技術 2018年30期
關鍵詞:創業大數據創新

孫穎馨 王靜 由揚

摘要:本項目通過數據爬蟲等數據采集技術動態收集各類分散的創新創業競賽信息,通過大數據處理技術對數據進行清洗、組裝及整合分類保存,形成創新創業競賽大數據中心,通過數據訂閱及智能推薦系統將數據精確的推送給有需求的創業者和競賽組織者。同時,還可以通過大數據分析技術,為政府部門提供創業資源數據分析服務,及對政府決策提供數據支持。

關鍵詞:爬蟲技術;大數據;競賽;創業;創新

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)30-0203-03

1 引言

在國家政策和創新創業大環境的影響下,各種推動和促進創新創業的網絡平臺不斷涌現。而目前,國內已經開發完成并對外提供服務的創新創業競賽網絡平臺還沒有形成,帶有交易功能的創業服務網絡平臺也少有出現。國內絕大部分創新創業競賽服務平臺都存在只能針對單一場次競賽提供咨詢以及創業信息,信息更新及時率低,信息資源有限等方面的問題。

因此迫切需要創建創新創業競賽大數據分析平臺,實現創業主體以及創業服務過程的有效整合,提高不同的創業主體基于不同的創業過程的服務能力和水平,實現網絡創業環境的持續創立和優化,并帶動實體創業環境的建設。

2 系統關鍵技術

2.1 Hadoop技術

Hadoop是由Apache基金會開發的分布式系統架構。它實際是實現了一個能夠讓用戶輕松架構和使用的分布式平臺,即分布式文件系統。使得用戶可以在不了解系統底層細節的情況下,開發應用程序。利用它用戶可以輕松地開發和運行包含海量數據的應用程序。

Hadoop具有高容錯性,可充分利用集群的特性進行高速運算和存儲,并可以以流的形式訪問文件系統中的數據。它還可以提供對高吞吐量應用程序數據的訪問能力,特別適合那些有著超大數據集的應用程序。另外,Hadoop還可以部署在低廉的硬件上。

2.2 聚焦網絡爬蟲技術

聚焦網絡爬蟲,又稱主題網絡爬蟲,是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。和通用網絡爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,極大地節省了硬件和網絡資源,保存的頁面也由于數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。

聚焦網絡爬蟲和通用網絡爬蟲相比,增加了鏈接評價模塊以及內容評價模塊。聚焦爬蟲爬行策略實現的關鍵是評價頁面內容和鏈接的重要性,不同的方法計算出的重要性不同,由此導致鏈接的訪問順序也不同。常用的幾種策略如下:

l 基于內容評價的爬行策略;

l 基于鏈接結構評價的爬行策略;

l 基于增強學習的爬行策略;

l 基于語境圖的爬行策略。

2.3 智能推薦算法技術

1)基于內容推薦

基于內容的推薦是由于信息過濾技術的發展而產生的,它不需要依據用戶對項目的意見評價,而是利用機器學習的方法從相關內容的描述上得到用戶的興趣資料。在推薦系統中,通過相關的特征的屬性來定義項目或對象,基于用戶已評價特征,學習其興趣,匹配用戶資料與待測項目的相關程度。常用決策樹、神經網絡和基于向量的表示等方法,并根據用戶的歷史數據,來建立用戶的資料模型。并且可以隨著用戶的興趣的改變而做出相應的調整。

2)協同過濾推薦

協同過濾推薦是從用戶的角度來進行相應推薦的,這一過程不需要用戶填寫適合自己興趣的推薦信息。而是自動地從用戶的購買模式或瀏覽行為等隱式獲得的。協同過濾最大優點是對推薦對象沒有特殊的要求,并且可以能處理非結構化的復雜對象,如音樂、電影等。

這種技術一般是利用用戶的歷史喜好來計算用戶的距離,并以目標用戶的最近鄰居用戶對商品評價為基礎,進行加權來預測目標用戶對特定商品的喜好程度。并根據喜好程度推薦給目標用戶。

雖然協同過濾作為一種典型的推薦技術有其相當的應用,但協同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題(Sparsity)和可擴展問題(Scalability)。

3 系統功能實現

本系統主要完成以下幾個子平臺的設計。

1)基于大數據爬蟲技術的數據采集平臺

數據采集平臺正是基于網絡爬蟲技術設計研發,采集平臺支持各種網站類型:新聞、論壇、電商、社交、行業資訊、企業門戶等都可以實現數據抓取。并支持多終端平臺,與PC網站一樣,手機網站亦可抓取,爬蟲可模擬移動端agent。同時支持多種網頁類型:服務器側動態頁面、瀏覽器側動態頁面(AJAX內容)、靜態頁面都可抓取,甚至可抓取沒有終點的瀑布流頁面。爬蟲在默認狀態下就可抓取AJAX、JavaScript動態頁面、服務器動態頁面等動態頁面,無須其他設置;甚至還可以自動滾屏抓取動態加載的內容。

2)消息訂閱平臺

消息訂閱平臺主要實現訂閱、退訂、更新與接收新消息的基本功能,完成觀察者和內容主題之間的交互過程。當訂閱方需要訂閱,在內容主題框中顯示訂閱方信息,退訂時則刪除其中的退訂方信息。使得新消息內容只有在訂閱用戶列表中的用戶能收到消息更新,退訂者和沒有訂閱者都不會收到新消息。

3)智能推薦平臺

個性化智能推薦平臺設計建設由三步構成:第一步建立平臺用戶行為的召回模型,維度基于用戶歷史行為的數據召回、用戶偏好召回和用戶地域召回來實現,用戶歷史行為數據召回基于用戶歷史瀏覽、點擊、評論、分享、收藏、關注等觸點,分類推薦在線相關、在線相似、離線相關、離線相似行為;基于用戶偏好召回是基于用戶歸類畫像與平臺多屏互通融合;基于用戶地域召回是基于用戶地域的網格化來實現地域行為推薦算法;第二步是召回模型匹配算法,利用高斯邏輯回歸及多維算法來得出與用戶召回行為的匹配商品及廣告信息;第三步是平臺針對匹配模型推薦結果的排序算法,基于用戶交互日志通過模型訓練特征權重,采用排序算法來實現自動匹配個性化推薦。在系統實現技術架構上,為支撐個性化推薦系統平均至少每周進行算法迭代。

通過智能推薦平臺,可以使用戶進入平臺頁面時,根據其日常的行為喜好和習慣、心理,在還沒有點擊頁面時,將頁面自動推薦給用戶,以提升平臺用戶體驗性。甚至可以在用戶還沒有訪問,或者還沒有打開電腦時,通過郵件或信息等方式,在特定的時間或者周期性的推送給用戶。

4)大數據中心

該數據中心提供數據整合、挖掘、分析及訂閱功能,為創業者、孵化機構和政府部門提供數據支持、推薦、訂閱和統計分析服務。

本中心提供的獨立功能有如下幾個部分。

l 海量數據云存儲功能:采用云存儲技術,為大規模、海量數據及文件提供存儲和管理等功能。

l 標準數據庫管理:各類創業競賽數據庫、大學生基本信息庫、企業基本信息庫等。

l 數據交換功能:把各類創業競賽的數據進行抽取、臟數據清晰,斷鏈條數據修復。代碼轉換,接口模式認證,為其他系統提供硬件的支持。

云存儲數據中心結構示意圖如圖1所示:

各類用戶,無論是企業還是個人,都可以通過電腦、手機等登錄云計算數據中心的各類服務接口,獲得所需信息。云計算管理平臺是數據中心的“大腦”,既管理該云用戶服務定制的接入,計算處理接入定制服務的內容,還組織協調數據中心內外網的服務節點,經由管理節點制作或加工定制服務內容,然后交付該端用戶定制服務。其中的節點就是泛在網絡中的傳感器。

數據中心的云服務管理平臺,給端用戶的印象是一臺超級計算機,擁有無窮的服務資源,來滿足端用戶的定制服務需求。而實際上,該服務資源即數據中心內外網的服務節點。只不過由該平臺組織協調,從而虛擬為超級計算機而已。

4 項目建設的意義

1)項目建設將有效推動創新創業競賽開展,提高參賽項目創業成功率

本項目能夠有效推動創新創業競賽中各種創業資源的對接和推廣。同時能夠提高創業者的創新熱情,促進創業意識的產生,采取有效措施規避創業過程中的風險,提高參賽項目創業成功率;同時通過網絡平臺整合不同的創業主體和創業資源,能夠帶動更多的創業者參與到創新創業競賽中來,進而提高創業的數量,實現創業帶動就業的目標。

2)項目建設擴大創新創業競賽資源整合的范圍,有效改善創新創業競賽資源的閑置狀態

項目建設將成為全國創新創業競賽資源整合模式最新穎、創新創業競賽資源內容最豐富、創新創業競賽資源更新最及時、創新創業競賽服務最優化的綜合性的創業服務平臺,能夠有效改善目前創業園、高校等教育機構、政府創業服務和監管部門所掌握的創新創業競賽資源的閑置狀態,強化創業資源載體對創業過程的參與力度和程度,能夠營造良好的創業環境。

項目實現創新創業競賽服務信息化、網絡管理,能夠有效降低提供創業服務的成本,提高創新創業競賽服務的效益。

項目實現創業服務內容的網上交易,將有效調動創業資源對創業過程的參與程度,創業服務資源在參與交易服務過程中也在不斷地優化和改進,產生創業大數據。

3)項目建設將實現創新創業競賽資源數據分析,為政府決策提供依據

項目建設將匯集創新創業競賽資源,并對數據資源進行分析整理,將有利于政府決策的數據信息分析處理,為政府管理部門更有效的制定創業就業服務政策、調整和分配創業資源以及提高創業園的服務水平提供管理工具和決策依據,更有利于發揮創業帶動就業的作用。

4)項目建設基于用戶行為大數據,實現資源需求智能分析推薦

項目建設通過數據爬蟲技術有效地收集存儲創新創業競賽資源數據,建立創新創業競賽資源大數據中心,并依托數據資源進行挖掘分析,開發創業者、孵化機構和政府需要的創業應用。推動萬眾創新和開放創新提供動力。基于平臺建立的創新創業競賽資源大數據中心,創業者可在平臺的訂閱中心根據自身的需要訂閱所需要的創新創業競賽資源信息,系統會根據需要按時發送所感興趣的創業信息。

5 結束語

基于大數據爬蟲技術的創新創業競賽服務平臺可以提供網上項目收集、競賽信息收集、需求推薦、創業幫扶、項目推廣以及交易對接等服務。促進不同的創業主體之間創業服務交易對接,為創業資源的可獲性提供良好的工具。既能提升創新創業競賽的整體水平,又能促進各種創業資源的持續發展、更新和豐富,為創業資源載體提供盈利機會和能力,從而更好地為創業提供服務,促進創業成果轉化。

參考文獻:

[1] 劉鑫.網絡爬蟲在信息檢索中的研究與應用[J].數字技術與應用,2017(8).

[2] 姚劍,等.基于個性化導購的商品智能動態推薦系統[J].價值工程,2017(8).

[3] 段薇,路向陽.基于Hadoop的高校移動圖書館個性化信息服務平臺設計[J].科技廣場,2017(5).

[4] 高鵬.協同過濾推薦方法在新媒體領域中的應用[J].廣播與電視技術,2015(6).

【通聯編輯:朱寶貴】

猜你喜歡
創業大數據創新
“雙創”國策下的階段性經營、資本知識架構研究
商(2016年27期)2016-10-17 04:43:02
微時代文化創意類創業現狀調查
今傳媒(2016年9期)2016-10-15 22:42:56
內蒙古自治區高校畢業生就業指導服務體系建設及對策研究
大學教育(2016年9期)2016-10-09 07:57:56
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
主站蜘蛛池模板: 狠狠ⅴ日韩v欧美v天堂| 日韩国产精品无码一区二区三区 | 国产毛片片精品天天看视频| 久久中文字幕2021精品| 亚洲最大情网站在线观看| 欧美色亚洲| 97在线免费| 国产伦精品一区二区三区视频优播 | 黄片一区二区三区| 99手机在线视频| 午夜福利无码一区二区| 人妻无码中文字幕一区二区三区| 午夜无码一区二区三区| 美女高潮全身流白浆福利区| 99久久99这里只有免费的精品| 91精品国产福利| 97在线视频免费观看| 免费看的一级毛片| 国产又粗又爽视频| 国产日韩精品欧美一区灰| 国产成人久视频免费| 亚洲午夜18| AV网站中文| 伊人色婷婷| 在线另类稀缺国产呦| 一级成人a毛片免费播放| 成人综合网址| 国产精品3p视频| 国产一区二区丝袜高跟鞋| 欧美日韩亚洲国产| 亚洲aⅴ天堂| 亚洲高清中文字幕在线看不卡| 欧美第一页在线| 日韩精品免费一线在线观看| 日韩午夜伦| 一级毛片在线免费看| 午夜欧美在线| 无码视频国产精品一区二区| 99视频在线免费观看| 亚洲一区网站| www精品久久| 超碰91免费人妻| 在线欧美日韩国产| 国产香蕉在线视频| 久久久久久午夜精品| 久久人搡人人玩人妻精品一| AV无码无在线观看免费| 国产一区二区福利| www.91在线播放| 国产原创演绎剧情有字幕的| 国产高清在线观看| 欧美色综合网站| 91人妻在线视频| 国产一区成人| 性视频久久| 国产自无码视频在线观看| 美美女高清毛片视频免费观看| 欧美精品影院| 亚洲无码精品在线播放| 狠狠色丁香婷婷| 视频一区亚洲| 欧洲成人免费视频| 亚洲精品无码在线播放网站| 免费一级毛片在线观看| 久久综合九九亚洲一区| 亚洲首页国产精品丝袜| 日本成人一区| 最新无码专区超级碰碰碰| 一级毛片免费播放视频| 天天躁狠狠躁| 色婷婷狠狠干| 国产精品尤物在线| 亚洲第一天堂无码专区| 国产精品黄色片| 红杏AV在线无码| 日韩欧美91| 亚洲人成影院在线观看| 国产精品亚洲天堂| 福利国产在线| 日韩成人在线网站| 国产不卡在线看| 日韩人妻少妇一区二区|