孫雨生??于凡 孫肖妹 郝麗靜
〔摘要〕本文用內容分析法歸納了197篇文獻內容,揭示了基于大數據的個性化服務內涵、核心內容及研究框架,并從架構體系、關鍵技術兩方面闡述了國內基于大數據的個性化服務研究進展:架構體系包括體系結構、功能模塊和運行機理;關鍵技術包括信息推薦、搜索引擎、大數據等。
〔關鍵詞〕大數據;個性化服務;數據可視化;信息推薦;數據挖掘
DOI:10.3969/j.issn.1008-0821.2018.02.026
〔中圖分類號〕TP399;G202〔文獻標識碼〕A〔文章編號〕1008-0821(2018)02-0171-07
Research Development of Personalized Service Based on Big Data in China
——Architecture System and Key Technology
Sun Yusheng1,2Yu Fan1Sun Xiaomei1Hao Lijing1
(1.School of Economics and Management,Hubei University of Technology,Wuhan 430068,China;
2.Information Technology Support Center,Institute of Scientific & Technical Information of China,
Beijing 100038,China)
〔Abstract〕Using the content analysis method,the paper summed up the contents of the 197 articles,revealed the connotation,core content and research framework of personalized service based on big data,and expounded its research development in China from two aspects of architecture system and key technology.The architecture system included architecture,function module and operation mechanism.The key technologies included information recommendation,search engine,big data,and so on.
〔Key words〕big data;personalized service;data visualization;information recommendation;data mining
伴隨大數據時代到來,海量、異構、動態信息資源與有限用戶信息認知能力間矛盾致使信息過載、迷航問題凸顯[1],如何基于用戶需求、興趣及行為模式提供其感興趣信息成為亟待解決問題。傳統個性化服務類型豐富度、內容準確度、服務差異化均無法滿足大數據環境下用戶個性化[2]、知識化、專業化、智能化信息需求,甚至引起其厭煩[3]。因此,研究大數據環境下個性化服務問題有重要意義。
本文首先以知網、萬方的學位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“大數據”和“個性化”為關鍵詞組合在題名中檢索相關文獻(截至2017年8月19日,從知網獲碩博論文10篇、期刊論文159篇;從萬方獲碩博論文12篇(新發現3篇)、期刊論文172篇(新發現23篇)、從維普獲期刊論文186篇(新發現2篇);合計197篇);其次,詳讀197篇文獻歸納出基于大數據的個性化服務內涵、核心內容及研究框架、架構體系及關鍵技術并根據提及頻次、內容質量詳細標注,本著最大限度反映國內基于大數據的個性化服務架構體系、關鍵技術研究進展重要文獻、優中選優(剔除標注次數少、與其他標注文獻內容重復文獻)原則選出45篇參考文獻(內容覆蓋197篇文獻);最后從架構體系、關鍵技術兩方面闡述國內基于大數據的個性化服務研究進展。
2018年2月第38卷第2期現代情報Journal of Modern InformationFeb.,2018Vol38No2
2018年2月第38卷第2期國內基于大數據的個性化服務研究進展
Feb.,2018Vol38No2
1基于大數據的個性化服務簡介
11定義及內涵
楊亮等[4]、馬曉亭[5]認為基于大數據的個性化服務面向大數據環境,以用戶為中心[4,6],按需求相似性分類用戶[7],在滿足共性需求前提下基于用戶特征與個性需求、興趣或行為模式構建并進化用戶興趣模型,動態匹配信息并個性化主動提供服務[1],實現服務時空、方式、內容個性化[1,4,5,8],服務資源配置、效率與收益[2,6,7,9]、用戶體驗最優化,成本最低化、模式最簡化,以高效協同用戶、資源、服務并形成數據集成、價值挖掘、分析決策完整生命周期[6],呈現重視用戶交互、服務方式多樣且安全可控等特點[1],與傳統個性化服務對比見表1。此外,陳臣[9]、潘玉辰[10]認為基于大數據的個性化服務是通過統一封裝、配置、管理、調用服務資源、知識、技術、能力、過程,個性化完成服務交付、共享、使用、交易的知識服務模式。
12核心內容與研究框架
分析現有文獻,筆者認為基于大數據個性化服務核心研究用戶興趣建模、服務模式、信息資源管理、關鍵技術等,研究框架見圖1。
2基于大數據的個性化服務研究進展
縱觀現有研究成果,國內基于大數據的個性化服務研究整體處起步階段但發展迅猛,相關文獻最早是湯銘2012年發表的《大數據需要個性化營銷》。現有學術研究集中在用戶興趣建模[2]、服務模式、信息資源管理[4,6,15]、用戶隱私與數據安全[11,18]等方面[3],應用領域涉及圖書館[4-6,9,12,14,19-20]、教育[21-22]、電子商務[3,8]、醫療[9]等。
21架構體系
211體系結構
1)基于大數據的圖書館個性化服務系統
陳臣[7,9]、秦帥[23]提出圖書館個性化[9]智慧[7,23]服務體系,分平臺層(涉及應用與管理平臺[7,23]、智慧化服務平臺、數據基礎平臺[23]、數據中心等[7],包含應用層[7,23](分決策層(服務提供、系統管理、決策)、分析層(數據挖掘、統計分析)[9,23]、組織層(處理并描述數據結構特征)[9])、存儲層[9]等)、傳輸層(涉及光纖、無線、網絡傳輸等[7],傳輸感知層所采集數據到數據中心[23])、感知層(涉及(系統、網絡[23])監控器、傳感器[7]、RFID[7,23]等);陳臣[11]提出圖書館個性化服務安全體系,分安全大數據挖掘分析層(明確安全需求、事件影響力、策略可用性)、安全大數據采集存儲層、安全大數據互聯平臺層(互聯圖書館安全管理系統)、系統平臺安全管理層(基于數據流安全管理應用系統)、大數據資源安全管理層(數據采集、提取、存儲)、硬件設備安全防護層(機房環境、硬件、數據傳輸);李艷等[20]提出高校圖書館大數據挖掘體系:輔助決策層(用數據挖掘技術采集、融合、挖掘、分析數據并呈現為動態多維報表、圖形以便決策)、大數據分析層(基于Hadoop虛擬化技術離線批量、實時流式完成樣例分析、建模、多維數據抽取、規則庫定義和遞歸優化)、大數據存儲交換層(基于業務間公共數據池、數據字典、數據接口、分布式流式Hadoop)、外部數據挖掘層(粗獲取、清洗、人工審核并實時檢索、語義分析、智能挖掘Web信息)。
2)基于大數據的教育個性化服務系統
于凱等[16]基于顯式、隱式用戶反饋構建個性化教學推薦體系,分效用評價層(實時精確、多樣新穎)、推薦生成層(基于隱式反饋)、數據預處理層(獲取用戶興趣)、源數據采集層;楊雪等[22]、高艷艷[24]、馬相春等[25]提出個性化自適應[25]學習[22,25]、中小學生輔導[24]體系,分用戶層(家長、學生、家教、管理者)[24]、支撐層(微信,前后臺交互界面[24],呈現學習內容、工具、情景、策略[25])、應用服務層[22]、信息層(涉及平臺信息庫[22],學生基本、行為、情感信息庫,規則庫[25])、(基礎[22])數據層(存儲感知層所獲結構化、半結構化原始學習數據)、感知層(涉及應用終端、采集硬件、物聯設備)[25],其中,應用服務層[22]又稱控制層[25],基于學生特征、領域模型提供個性化學習服務(教輔資源、輔導[24]),基于服務評價更新引擎規則[25],分個性化服務層[24]、業務應用層[24-25](診斷學習問題[24],分統計描述層(挖掘學習數據)、教育測評層[22]);周進[26]提出大數據時代高校個性化教育支持框架由監測預警系統(通過儀表盤、可視化報告動態呈現監測過程,基于評估結果干預行為、改進效果)、數據分析系統(基于數據挖掘工具)、服務支持系統(基于共性、個性需求設計課程體系)、目標支持系統(診斷人才培養、個性化教育目標)、數據倉儲系統(統一并基于數據標準構建數據倉庫且注重信息管理)。
3)基于大數據的電子商務個性化服務系統
陳玉兆[27]、鄧玉林[28]提出基于Hadoop、B/S架構個性化推薦系統體系,分推薦終端(含移動端、PC端、電視)和終端應用(界面表示層,方便用戶交互,結果展示、分類、管理,用戶注冊、登錄[28])層[27]、業務層(涉及推薦后臺、推薦引擎,用基于Mahout協同過濾、基于內容推薦算法等處理離線數據并將結果存入數據庫(常結合用戶行為在線推薦),輔以基于文本相似度熱點推薦算法、自定義算法;分應用功能層(支持檢索、推薦及其管理、數據采集、用戶興趣分析)、公共服務提供層、數據訪問層(預處理并持久化數據)[28])[27]、數據資源層(基于HDFS或NoSQL存儲,基于Hive、Pig-Latin等ETL、管理用戶及商品[28]數據等)、基礎設施層(分基于Hadoop協同過濾集群、基于內容計算集群,基于MapReduce分布式應用架構橫向擴展集群)。
此外,潘玉辰[10]提出大數據環境下戰略新興產業個性化服務體系,分應用層(包括個性化定制、導航、推送、檢索、社區服務)、平臺層(提供統一服務接口、空間,處理用戶需求,涉及人員、技術、資源、服務、流程要素)、資源存儲層(組織處理(清洗、轉換、加載)資源、用戶基于API按需使用)、基礎技術架構層(網絡、云計算、大數據等技術及相應管理機制);孫笑宇[29]提出基于大數據車聯網個性化服務平臺分車輛接入平臺、服務平臺(分服務訪問層、集成層、管理層、服務總線模塊)、服務后臺。
212功能模塊
1)基于大數據的圖書館個性化服務系統
夏秀雙[1]、欒旭倫[2]認為分10模塊:用戶接口、用戶評價(優化用戶興趣模型、數據挖掘算法[1])、信息推送(用Agent進行基于跟蹤挖掘動態推薦、基于定制推送)、信息匹配(二次匹配用戶需求與過濾結果)、信息過濾(過濾檢索結果[1])、信息檢索(用Agent檢索館藏,若匹配則輸出,否則匹配Web信息并保存結果到本地再反饋)、數據分析(結構化數據(識別用戶相似性、不同時段行為差異性)、日志(獲取實時需求、預測潛在需求)、特殊信息分析(基于其他用戶獲取信息,構建用戶興趣模型[2]))、數據集成(邏輯集成用戶行為數據[2])、數據規范化(合成、規約、優化、轉換)、用戶信息庫[1]。
2)基于大數據的教育個性化服務系統
牟智佳[30]認為個性化學生評價系統分可視化反饋(基于Weka、Gephi、Google Chart、R語言等)、個性化評價(基于個性化學習評價模型、層次塔評價學習過程、結果)、數據分析處理(清洗、提取、加工、挖掘)、信息采集(基于云存儲池中數據庫采集鍵擊層、回答層、學生層數據)模塊并通過云管理層調控教育云服務、云計算、云存儲平臺;周清清等[31]認為個性化學習平臺分個性化評價、干預、答疑咨詢、個性化預測,個性化學習計劃制定、測評、實時反饋,數據庫(涉及學生模型庫、答疑庫、知識庫、課程庫、資源庫、試題庫)等模塊;高艷艷[24]提出個性化輔導平臺分交互(學生與平臺、家教、心理師)、干預(可視化診斷結果給家長、家教、管理者并個性化推送資源)、診斷(基于注意力、情緒情感、學習方法、知識漏洞建模)、學習資源模塊;孟楊[32]提出個性化錯題推薦系統分用戶登錄、學習報表(反映學生知識點掌握度及班級排名)、錯題分析、錯題個性化推薦、錯題本(記錄并排序錯題)模塊。
3)基于大數據的電子商務個性化服務系統
嚴克文[33]提出物流個性化推薦系統分用戶行為記錄(更新、查詢、標記)、用戶興趣模型管理(基于用戶相異度矩陣構建、局部進化)、推薦算法模塊;陳玉兆[27]、鄧玉林[28]、賈利娟[34]、陳玉[35]提出個性化推薦系統分渠道[34]管理、輸出[35](結果展示及管理[28])、在線推薦[35](基于HDFS需求按日期、行為次序分類數據并計算用戶商品興趣度[27]以分析其興趣[28]偏好[34],基于日志分析用戶行為構建興趣相似群組[27],基于協同推薦[28]、用戶瀏覽商品特征優化老用戶推薦列表[27],基于內容[27-28,34]向新用戶推薦[27])、離線計算[35](預處理[28,34](數據標準化、有效化(基于ETL)[27]、擴展,計算用戶、項目TF-IDF以構建特征向量[28]),基于規則庫、集成分類器、雙層關聯規則分類并Web挖掘[34])、輸(接[34])入[35](采集[28]用戶行為(點擊、收藏、購物車、購買[27])、商品特征)模塊,此外,陳玉兆[27]認為離線計算模塊包括混合協同推薦與內容推薦向老用戶推薦、基于文本相似度向新用戶推薦熱點,分計算層(選取推薦算法進行推薦)、數據層,由腳本程序控制運行、推薦程序基于MapReduce分布式處理HDFS中數據(Application Master節點監督程序運行狀況并定時反饋給主節點、重啟(提交)失敗節點任務,在Reduce階段匯總推薦項目形成原始推薦列表)并將結果存入關系數據庫。
此外,劉譯璟等[36]提出百分點推薦引擎由場景引擎(計算用戶意圖)、展示引擎、規則引擎(根據用戶意圖向算法引擎請求推薦數據,向展示引擎請求展示方式)、算法引擎構成;康海燕[18]提出基于大數據、用戶興趣個性化檢索模型分用戶興趣模型、檢索代理(預處理、整合用戶請求(分詞、調整、反饋等)并返回結果)、搜索引擎模塊。
213運行機理
1)基于大數據的圖書館個性化服務系統
馬曉亭[5]提出圖書館個性化閱讀推薦流程:基于圖書館大數據資源庫(涉及文件、音視頻、圖像),經噪聲過濾、標準化與匹配、挖掘、價值提取、整合等處理形成個性化閱讀決策支持大數據,基于大數據分析決策(數據相關性分析、關鍵讀者發現與ID匹配)、服務質量評估反饋發現讀者個性閱讀需求(含閱讀情緒),智能匹配資源并定制個性化閱讀服務內容、方式、模式且智能精準、實時安全推薦,基于質量智能評估(QoS評估、服務總收益率)、用戶反饋智能優化讀者需求發現過程、個性化閱讀推薦流程;陳臣[17]提出基于HDFS、Hbase圖書館大數據檢索流程:以網絡、第三方數據庫、大數據平臺、論壇博客、APP應用為數據源,經爬取、過濾、索引、摘要、分類等提供導航、搜索、索引、定制、價值提取等服務。
2)基于大數據的教育個性化服務系統
余小高[21]、尤海浪等[37]提出相似個性化微課[21]、游戲[37]推薦流程:數據獲取存儲、數據清洗挖掘(用Hadoop計算資源相似度矩陣并存入Redis)、服務提供(客戶端接受并發送用戶請求至后臺,基于資源相似度矩陣、用戶相似度矩陣、當前訪問資源ID、歷史訪問資源ID(根據用戶ID獲取)用推薦算法進行Top-N推薦);周清清[31]、裴瑩[38]提出個性化學習流程:基于學習數據庫收集學習軌跡(測試[31])數據傳給分析系統(大數據技術預處理、分析數據)生成可視化學習行為分析報告,自適應系統修改報告、評估學習過程發現潛在問題并智能干預(引導學生適應性修正學習內容),教師整合基礎數據、教學經驗和分析系統所得結論并通過干預系統人為干預學習路徑、優化教學方案、個性化[31]預測未來學習情況(模式)以個性化教育(推薦資源并接收反饋[31])。
3)基于大數據的電子商務個性化服務系統
嚴克文[33]、鄧玉林[28]提出電子商務[28]、物流[33]個性化推薦流程:采集用戶數據(檢索日志[28]、服務評分[33])并存于數據庫,預處理(標準化、擴展)數據后基于潛在語義分析、分片聚類分別分析用戶長期、短期興趣[28],基于相異度矩陣構建用戶興趣模型[33]并結合推薦算法推薦,基于用戶選擇評價以增量更新局部進化用戶興趣模型[33]。
此外,潘玉辰[10]提出戰略性新興產業個性化檢索流程:加工處理、采集分析信息資源并構建索引,基于關鍵詞、主題詞形成索引數據庫,與用戶請求匹配并以個性化定制、智能代理、垂直門戶和智能導航方式提供檢索服務。
22關鍵技術
基于大數據的個性化服務涉及多種技術[4,19],核心是信息推薦(適合需求不明確用戶,基于用戶興趣、行為)[39]、搜索引擎、大數據,此外,還涉及用戶興趣建模、RSS[8]、社會網絡、云計算(實現大數據統一管理、高效流通、實時分析[15])、云存儲(多用NoSQL[14])、Web數據庫、Agent、本體、虛擬化[14]、物聯網(解決平臺支撐薄弱、服務水平低等問題)等。
221信息推薦
1)簡介
陳澤[39]、鄭杰輝[40]提出推薦引擎以黑盒方式接受用戶基本、交互信息(顯式(評分、評論)、隱式(項目偏好))、源項目數據(項目元數據(名稱、ID))進行推薦[39],面臨實時性、新穎性(推薦流行、得分高項目最保險但用戶體驗不一定好(可能已知))、增量計算(基于增量數據運算已計算推薦模型并實時反饋,部分基于隱式反饋數據算法系統架構和開發約束更大)、大數據(數據利用不充分(數據積累、針對性、結構化、共享性差,無法二次挖掘[41]))挑戰。
2)推薦算法
陳澤[39]、陳玉兆[27]認為基于數據挖掘個性化推薦包括學習(又稱數據預處理,挖掘原始結構化、非結構化數據并構建推薦模型)、使用(基于用戶行為、推薦算法生成推薦并實時導向用戶)兩階段,常用算法有協同推薦[14,21,27,37,39](基于項目(如Slope One(易計算但不精確))、基于用戶)、基于內容推薦[27]、SVD(奇異值分解,提取龐大稀疏矩陣特征值并分析主成分因子以降維提速但需較大空間)、組合算法[27](含加權混合(加權多種算法結果后排序)、變換混合(按推薦場景選擇算法)、分區混合(多種算法結果各取前幾個)、分層混合(前一算法推薦結果傳給下一算法篩選)[8,21,37,39])等。此外,還包括基于關聯規則推薦[27]、基于模型協同推薦(用數據挖掘算法基于用戶歷史交互信息構建推薦模型,按用戶請求預測推薦、挖掘潛在興趣)[39];嚴克文[33]提出基于增量更新用戶協同推薦算法、基于增量更新用戶相異度的Slope One算法以基于用戶相異度矩陣模型選擇最近鄰(相異度小、同現次數多)進行用戶協同推薦;陳玉[35]基于FCM(模糊C-均值聚類)改進基于用戶協同推薦算法;賈利娟[34]提出基于偏好雙層關聯規則內容推薦算法(包括用戶偏好分析(基于DPI表所含用戶訪問內容、行為信息(訪問量、流量、活躍度))、雙層關聯規則挖掘流程(預處理用戶日志、平臺訪問數據并基于基礎內容、內容類型兩層挖掘關聯規則)、主流程(基于用戶偏好類型關聯、內容規則匹配并推薦));陳澤[39]提出基于加權兩層圖推薦算法(用項目類別、用戶評分矩陣基于內容、協同過濾計算并優化項目間相似度,構建基于用戶項目的加權兩層圖并考慮其全局關系、結合隨機游走算法推薦);馬相春等[25]提出基于多種群選擇的學習路徑推薦算法(基于蟻群算法、學生所屬群體同伴評分及其權值進行推薦)。
3)其他
丁然[42]基于云計算分布式并行處理大數據集、推薦計算以個性化推薦;尤海浪等[37]、余小高[21]提出相似度改進算法(依次為基本計算、余弦相似度計算、余弦相似度a計算、改進余弦相似度計算、改進余弦相似度歸一化)、算法評價指標(涉及精度(召回率/準確度)、覆蓋率(推薦列表中包含項目比例)、多樣性(推薦列表中項目間相異性))。
222搜索引擎
基于大數據的個性化搜索用大數據技術[17]提高搜索(匹配模型、排序算法等)準確率、個性化[1,10]、安全性(保護用戶隱私[3])、功能擴展性、經濟性[3]、實時性[1]、智能性[1,3]、兼容性(支持大數據平臺、容錯性高、數據接口開放并向下兼容)、交互性[1,10]、靈活性[10]、可用性(易操作維護),改善用戶體驗。具體結合搜索需求、大數據環境,通過技術革新(核心是智能信息技術(如聚合搜索、時效搜索、框計算[6]、云計算[14]等)、SOA架構[3])定制搜索引擎參數、與第三方服務商聯盟[3,17]進行即時深度個性化搜索(智能分析大數據蘊涵[6]用戶特征、服務需求、行為[1],預測判斷用戶搜索步驟、內容、需求和情緒特征并在系統空閑時預搜、分析、整合、存儲數據[19])。
223大數據
大數據技術是以數據為研究方法、工具,通過數學算法發現知識、挖掘價值、預測趨勢、提升智能、創造價值[11,15,40,42],以大數據應用和服務為核心實現產品即服務、技術即服務、意識即服務的個性化智慧服務理念[7],以啟發或激勵行為(形成更多待挖掘數據),為資源層提供技術支持[10]。究其內涵,葉娟[15]、陳玉兆[27]、牟智佳[30]、馬曉亭[43]、潘玉辰[10]認為包括數據顯示(仿真及可視化[10]輸出)和應用[30]、數據分析與挖掘[1,10,27](關聯規則學習、分類與聚類、情感分析、合成學習、基因算法、異常探測、預測建模[15])、分布緩存與計算(涉及Hadoop[29]、Mahout(實現擴展性良好機器學習算法且可擴展到云中)、云計算等)[1,27]、數據存儲[1,27,30](索引、存儲、分享、歸檔)[30]與管理(基于數據庫)[10]、數據處理(自然語言處理、模式識別、A/B測試[15]、機器學習、數據聚合[10,15])、數據預處理(辨析、抽取、清洗)、數據感知采集[1,10,27];夏秀雙[1]、陳玉兆[27]認為涵蓋可視化分析、預測分析(核心價值)、語義引擎、數據質量和數據管理(核心是數據存儲)等主題;胡一[8]、孫笑宇[29]認為包括MPP(并行處理機)、MapReduce(計算海量數據[29])、NoSQL;此外,陳玉兆[27]提出大數據處理與傳統數據處理區別:基于全數據集分析、效率高、挖掘相關性;董燕[44]以大數據為數據收集方法。
1)數據可視化
通過API耦合相關系統,依據分析對象數據總量、類型和決策需求,通過關聯分析、時序分析、列表分析、路徑分析和群組分析等方法,結合大數據統計、計算機圖形學及仿真學等技術,有效組織、分析發現并直觀呈現[44]大數據價值和數據間隱藏關系,降低應用難度,如過程與結果聯系、數據庫分布、模塊間聯系、領域動向,常見技術有基于集合可視化、基于圖標、圖像可視化[8];楊雪等[22]提出標簽云、歷史流、空間信息流等技術;董燕[44]認為數據可視化須用統一數據平臺、規范化接口保證數據來源真實、快捷、規范,據實確定數據處理方法(企業多用多維業態模式)。
2)大數據分析平臺
大數據分析平臺基于用戶行為分析生命周期規律,保證其在數據采集、存儲、組織、整合、計算、分析[43]、知識發現、決策方面可擴展性、動態性[3-4]。鄧玉林[28]提出此類開源平臺代表為Hadoop(基于HDFS可靠共享存儲、MapReduce處理數據機制及Hive數據倉庫工具等處理海量非結構化數據);馬曉亭[43]認為應加強平臺架構科學性、開放性、透明性、異構性、智能性(最優配置資源),優化數據存儲與傳輸效率、數據分析(影響算法有效性與可擴展性、過程可視化、整體優化)、智能計算(計算資源管理與分配、機器學習,根據分析對象、內容變化智能調整與優化算法和過程)、低碳運營、安全穩定,此外,還應構建有序、動態、系統運行管理機制,設立標準保證平臺實用。
3)數據挖掘
又稱知識發現[32]。通過算法(主要有NaiveBayes、K-Means、SVM)、工具(Mahout等[1,27])計算數據,基于項目、用戶、歷史訪問挖掘信息間、用戶間關聯、用戶興趣模式,從大數據中提取有效數據發現隱含、有意義知識,支持個性化服務[8,13-14,42],關鍵是結合業務流程、促進挖掘者和用戶間通信[40],分數據準備、規律尋找和規律表示三階段[14],前沿是基于本體、個性化推薦的語義Web挖掘。李雪芳等[13]、孟楊[32]認為包括問題定義[13]、數據準備(數據清洗(除噪聲、臟數據)、集成、選擇(提取、分析)、變換(匯聚以統一成適合挖掘形式)[32])、模型構造[13]、數據挖掘(智能提取數據模式[32])、評估優化(興趣度量、模式評估[32])、知識應用(表示)(結果可視化[32]),過程包括將數據分份,主控程序分配Map(過濾數據,由工作機讀取數據分片并分配)、Reduce任務(聚集數據,按方式分類排列數據);鄧玉林[28]認為包括數據再利用(挖掘用戶數據)、重組、擴展、廢氣利用(錯誤數據)、開放(用戶數據)。丁然[42]認為相關技術包括自動預測趨勢和行為、關聯分析、聚類分類[8,14,45]分析(基于Hadoop的Mahout利用MapReduce分布式協同過濾機制[45])、概念描述(旨在得出共同特征,分特征描述、區別描述(有遺傳算法、決策樹法))、偏差檢測(尋找參照值與觀測結果間有意義區別,包括不滿足規則特例、分類中反常實例、量值隨時間變化、觀測結果與模型預測值偏差);胡一[8]、韓翠峰等[14]認為還包括回歸分析、Web挖掘(分內容、結構、使用挖掘[8])及神經網絡。
3結束語
本文揭示了基于大數據的個性化服務內涵、核心內容及研究框架,并從架構體系、關鍵技術兩方面闡述了國內基于大數據的個性化服務研究進展:架構體系包括體系結構、功能模塊、運行機理;關鍵技術包括信息推薦、搜索引擎、大數據等。
參考文獻
[1]夏秀雙.大數據環境下高校圖書館個性化信息服務研究[D].曲阜:曲阜師范大學,2015.
[2]欒旭倫.大數據環境下高校圖書館個性化信息服務系統研究[J].圖書館學刊,2014,(8):118-121.
[3]王茜,錢力.大數據環境下電子商務個性化推薦服務發展動向探析[J].商業研究,2014,(8):150-154.
[4]楊亮,雷智雁.大數據環境下圖書館個性化服務研究[J].現代情報,2014,34(4):74-77.
[5]馬曉亭.基于情景大數據的圖書館個性化服務推薦系統研究[J].現代情報,2016,36(4):90-94.
[6]馬曉亭.基于可信大數據的圖書館個性化服務平臺構建[J].圖書館理論與實踐,2015,(1):85-88.
[7]陳臣.基于大數據的圖書館個性化智慧服務體系構建[J].情報資料工作,2013,(6):75-79.
[8]胡一.基于大數據的電子商務個性化信息推薦服務模式研究[D].長春:吉林大學,2015.
[9]陳臣.大數據時代一種基于用戶行為分析的圖書館個性化智慧服務模式[J].圖書館理論與實踐,2015,(2):96-99.
[10]潘玉辰.基于大數據下戰略性新興產業個性化信息資源服務模式研究[J].開發研究,2016,(3):20-25.
[11]陳臣.基于大數據的圖書館個性化服務安全體系構建研究[J].新世紀圖書館,2014,(11):47-51.
[12]黃志鵬,余慶,劉捷.大數據時代的圖書館個性化信息服務探討[J].青春歲月,2015,(6):551-551.
[13]李雪芳,陳希文.大學生個性化職業指導大數據挖掘模型[J].亞太教育,2016,(10):231-232.
[14]韓翠峰,韓禮紅.大數據思維下多技術融合的圖書館個性化信息服務平臺研究[J].社科縱橫,2015,30(8):92-94.
[15]葉娟.探析大數據在高職教育中的個性化應用[J].網絡安全技術與應用,2014,(3):91-92.
[16]于凱,吳蕾.大數據環境下的推薦系統在個性化教學中的應用研究[J].福建電腦,2015,(8):46-47,75.
[17]陳臣.大數據時代基于個性化服務的數字圖書館數據搜索引擎設計[J].圖書館理論與實踐,2015,(4):91-94.
[18]康海燕,XIONG Li.面向大數據的個性化檢索中用戶匿名化方法[J].西安電子科技大學學報,2014,41(5):148-154,160.
[19]陳臣.一種大數據時代基于讀者體驗視角的數字圖書館個性化搜索引擎[J].四川圖書館學報,2013,(6):27-30.
[20]李艷,呂鵬,李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016,(2):60-68.
[21]余小高.大數據環境下管理信息系統個性化學習研究[J].軟件導刊,2015,14(5):17-20.
[22]楊雪,姜強,趙蔚.大數據學習分析支持個性化學習研究——技術回歸教育本質[J].現代遠距離教育,2016,(4):71-78.
[23]秦帥.基于大數據的圖書館個性化智慧服務體系構建探討[J].佳木斯職業學院學報,2017,(6):472-472.
[24]高艷艷.基于大數據分析的中小學生個性化學習診斷模型研究[D].石家莊:河北師范大學,2016.
[25]馬相春,鐘紹春,徐妲.大數據視角下個性化自適應學習系統支撐模型及實現機制研究[J].中國電化教育,2017,(4):97-102.
[26]周進.大數據時代的高校個性化教育:一種過程支持框架[J].高教探索,2016,(5):11-15,20.
[27]陳玉兆.大數據下的個性化推薦研究與實現[D].西安:西安電子科技大學,2014.
[28]鄧玉林.基于Hadoop大數據框架的個性化推薦系統研究與實現[D].成都:電子科技大學,2016.
[29]孫笑宇.大數據環境下車聯網個性化信息服務模式研究[D].長春:吉林大學,2016.
[30]牟智佳.電子書包中基于教育大數據的個性化學習評價模型與系統設計[J].遠程教育雜志,2014,(5):90-96.
[31]周清清,佘航,平萍.基于大數據評價的個性化學習平臺模式構建研究[J].中國教育信息化,2016,(15):13-15.
[32]孟楊.基于大數據的個性化學習推薦服務研究[D].新鄉:河南師范大學,2016.
[33]嚴克文.大數據環境下電子商務個性化推薦算法應用研究[D].合肥:合肥工業大學,2016.
[34]賈利娟.一種基于運營商大數據的內容個性化推薦模型[J].信息技術,2017,41(3):147-150.
[35]陳玉.大數據背景下電商用戶需求挖掘的個性化推薦方法研究[J].信息與電腦,2016,(17):88-89.
[36]劉譯璟,張函.百分點大數據與個性化實踐[J].程序員,2013,(2):52-56.
[37]尤海浪,錢鋒,黃祥為,等.基于大數據挖掘構建游戲平臺個性化推薦系統的研究與實踐[J].電信科學,2014,30(10):27-32.
[38]裴瑩.基于教育大數據的個性化學習模式分析[J].教學與管理,2016,(27):101-103.
[39]陳澤.個性化推薦算法研究及“大數據”下的系統開發[D].重慶:重慶郵電大學,2013.
[40]鄭杰輝.大數據環境下個性化服務實現的案例分析[J].網絡安全技術與應用,2015,(3):51-51,53.
[41]朱星華.大數據時代的個性化醫療——政府科研管理改革的國外經驗與思考[J].中國科技財富,2015,(2):86-88.
[42]丁然.大數據時代電子商務個性化推薦發展趨勢[J].電子商務,2015,(4):5,7.
[43]馬曉亭.基于個性化服務需求的圖書館大數據分析平臺構建研究[J].新世紀圖書館,2014,(6):20-23.
[44]董燕,高健飛.大數據時代下如何打造個性化的商務智能實踐[J].科技資訊,2015,(27):18-19.
[45]李建新,唐小燕.基于大數據的高職學生個性化培養應用研究[J].科教文匯,2015,(33):77-78.
(責任編輯:郭沫含)