999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動端所生成大數據的多元用途

2019-09-10 07:22:44王海
學習與科普 2019年22期
關鍵詞:分類模型

王海

摘 要:在本次研究中,筆者從統計自然語言處理的角度,對移動端生成的異常日志做了一個系統分析。按照實際情況對統計自然語言處理原理進行了闡述。然后,利用統計自然語言處理原理對異常日志做大數據處理應用進行了論述,以供參考。

概述

隨著自2010年來,移動網絡的迅猛發展,從2G到3G再到4G,還有未來可期的5G。更快捷的移動網絡不僅讓用戶得到了很多互聯網服務,而且移動端本身也可以上傳各種類型的數據及內容到云端,以供互聯網服務提供商進行大數據分析。本文就論述移動端所生成大數據的多元用途、大數據技術處理,以及由此所衍生的技術范疇。

質量分析

通常系統自帶應用,如電話、短信等等。以及豐富繁多的第三方應用,如:微信、支付寶等等。衡量系統自帶應用和第三方應用這兩類應用質量的技術指標有:

1.崩潰率,崩潰即是應用發生了嚴重的異常,系統強制將應用退出。崩潰率就是,一個應用一天發生的崩潰次數,除以該應用的一天內的啟動次數。

3.用戶界面的刷新速率。

這三個技術指標,實際上對應著三類異常的發生概率。當三類異常發生時,會產生系統日志,那么,如何收集分散在各地的用戶手頭上的手機內的異常日志呢?這就需要上報機制,通過移動網絡上傳到云端。

通過將移動端的崩潰日志,無響應日志上報到云端,就可以找到產生崩潰和無響應的原因,并定位在客戶端代碼中的不良代碼段。把不良代碼段進行優化修改,通過驗證就可以在下個版本發布出去,那么下個版本的移動端的軟件質量就得到了提升。

應用發生空指針異常并崩潰時生成的日志

如果一個應用的日活躍數為一百萬,崩潰率為1%,那么云端每天收集到的崩潰日志的份數為:一百萬 x 1% = 一萬。日活躍數一百萬還只是相對較小規模,即便如此每天產生一萬份日志,人工也是無法及時處理的。所以就需要借助大數據技術的處理能力。

首先是把日志做分類處理,以便于開發人員分門別類的分析產生異常的原因,因為發生異常的原因有多種,所以產生的異常日志的內容樣式也是有多種。這時就需要借助大數據技術的分類算法,來對數量繁多的異常日志進行分類處理了。實際上這里提到的大數據技術,就是統計自然語言處理。接下來的這個段落就是介紹如何將統計自然語言處理運用到異常日志的分類處理。

當今的自然語言處理方式,就是使用數學統計的方式。讓計算機處理自然語言,就是在自然語言這種上下文相關的特性建立數學模型。這個數學模型就是在自然語言處理中常說的統計語言模型(Statistical Language Model),它是今天所有自然語言處理的基礎。

舉個例子,如下這兩句話:

△美聯儲主席昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險公司。(句一)

△聯儲美主席昨保險天救助告訴媒體7000億美上百家銀行元資金的將借給、公司。(句二)

統計模型的出發點很簡單,并不是理解這句話的語法語義來判別是否合理,而是看它的可能性大小如何。至于可能性就用概率來衡量。句一很通順好理解,它的出現概率大致是10-20。句二是病句無法理解,它的出現概率大致概率是10-50。因此,句一的出現的概率遠大于句二。

這個方法更普遍而嚴格的描述是:假定S表示某一個有意義的句子,由一連串特定順序排列的詞w1, w2, …, wn組成,這里n是句子的長度。我們想知道S在文本中出現的可能性,也就是數學上所說的S的概率P(S)。因此,需要有個數學統計模型來估算。既然S = w1,w2,…, wn,那么不妨把P(S)展開表示:

P(S) = P(w1,w2,…, wn)

利用條件概率的公式,S這個序列出現的概率等于每一個詞出現的條件概率相乘,于是P(S) = P(w1,w2,…, wn)可展開為:

P(S) = P(w1,w2,…, wn)

= P(w1) P(w2 | w1)P(w3 | w1, w2) … P(wn | w1,w2,…, wn-1)

其中P(w1)表示第一個詞w1出現的概率;P(w2 | w1)是在已知第一個詞的前提下,第二個詞的概率;以此類推。不難看出,詞wn的出現概率取決于它前面的所有詞。

為了減少計算量,就假設任意一個詞wi出現的概率只同它前面的詞 wi-1有關,于是問題就變得很簡單了。這種假設在數學上稱為馬爾可夫假設。現在S出現的概率就變得簡單了:

P(S) = P(w1,w2,…, wn)

= P(w1) P(w2 | w1)P(w3 | w2) … P(wn | wn-1)

此公式對應的統計語言模型是二元模型(Bigram Model)

接下來的問題就是如何估計每個詞出現的條件概率P(wi | wi-1)。根據它的定義:

P(wi | wi-1)=P(wi-1,wi)/P(wi-1)

因為有了大量數字化文本,也就是專業人士講的語料庫(corpus),只要數一數wi-1, wi這對詞在統計的文本中前后相鄰出現了多少次#( wi-1, wi),以及wi-1本身在同樣的文本中出現了多少次#(wi-1),然后用#(wi-1, wi)和#(wi-1)這兩個數分別除以語料庫的大小#,即可得到二元組的相對頻度。

根據大數定理,只要統計量足夠,相對接頻度就等于概率,聯合概率和邊緣概率就可以這樣表達:

P(wi-1,wi)=(wi-1,wi)/# P(wi-1)=(wi-1)/#

再把聯合概率P(wi-1,wi)和P(wi-1)邊緣概率帶入上面的條件概率公式:

P(wi | wi-1)=(wi-1,wi)/(wi-1)

上述的推導過程,還是明確的說明了現代自然語言處理的方式就是使用數學統計的方式。更是一種思維方式的闡述,我們再做自然語言處理的很多細分領域的工作時,都是基于歷史已有的語料資源,利用數學統計知識,來估算現有情況和歷史相符合的概率大小。

如果要借助統計自然語言處理的方式,對異常日志這一自然語言的特殊子類進行分類,就要做建立異常日志的特有語料庫。利用典型類型的異常日志作為語料庫的具體實例內容,作為“崩潰、應用無響應、內存溢出錯誤”這三類異常日志類型的基準,移動端所上報的異常日志和異常日志語料庫中的基準,做上述的相似性概率計算,即可得出和哪個類型的異常日志基準相似概率最大,即算作哪個類型的異常日志分類。

這個異常日志分類的數據處理方式,是有監督的處理方式,因為基于異常日志語料庫中的基準日志作為標簽。通常在提升移動端應用的質量過程中,需要及時修復用戶遇到最多的軟件異常缺陷。這個需求場景下,就需要把相同位置發生的異常都收集整理到一起組成一個集合,再對多個集合中的異常日志數量做排序,就可以得到用戶遇到次數最多的異常。

那么如何將相同位置發生的異常都收集整理到一起組成一個集合呢?同樣要利用統計自然語言處理的大數據處理方式,即聚類,放到統計自然語言處理這個范疇內,就是主題模型。

我再回到統計自然語言處理領域探討主題模型,假如有一篇文章文本,通過里面的詞,來確定它是什么類型的文章,如果文章中出現很多體育類的詞,比如,籃球,足球之類的,那么主題模型就會把它劃分為體育類的文章。主題模型,顧名思義就是文章和主題的對應關系,納入統計的概念講就是文章和主題的對應概率計算。顯然文章由眾多詞所組成,也就延伸為:文章-主題-詞的關系及相應的概率問題。

LDA(Latent Dirichlet Allocation)的定義:

△是實現主題模型的一種無監督的方法。在訓練時不需要手工標注的訓練集,需要的是文檔集和指定主題的個數。

△是一種典型的詞袋模型,它認為一篇文檔是由一組詞組成的集合,詞與詞之間沒有順序和先后關系。

△是一種主題模型,它可以將文檔集中的每篇文檔按照概率分布的形式給出。

△一種典型的詞袋模型,它認為一篇文檔是由一組詞組成的集合,詞與詞之間沒有順序和先后關系。

LDA的數學解釋是:同一主題下,某個詞出現的概率,以及同一文檔下,某個主題出現的概率,兩個概率的乘積,可以得到某篇文檔出現某個詞的概率。

現有的是詞和文章,那么主題是如何冒出來的?這是我比較困惑的。但實際上LDA的輸出結果只是對主題模型進行分類,并沒有給出具體的主題模型的類別,如:體育、財經這樣的具體主題類型并沒有給出。

LDA的輸入是文檔,輸出有兩項:

△一個評估,多少主題對應一個文檔,實際上是概率

△另一個評估,一個主題生成多少詞,實際上也是概率

LDA的核心就是這個公式:

P(詞 | 文檔) = P(詞 | 主題)P(主題 | 文檔)

數學表達式:

P(w | d) = P(w | t) * P(t | d)

針對異常日志這樣的自然語言,就需要把其中發生異常日志的位置字段做高權重運算。這樣就可以按照“位置字段”對異常日志進行聚類,生成異常日志的主題模型。

通過上報異常日志數據,對日志數據進行分類和聚類的處理,再解決重點的缺陷,最后通過發布新版本這樣的流程,就可以快速高效的提升應用的質量,提升用戶體驗的同時也就更加圓滿的落地了業務。否則在一個崩潰、無響應頻發的應用內,業務流程都用可能無法運行通暢,更是無法談論商業價值了。

這就是一個運用大數據技術,高效提升移動端應用質量的一個范例。

展望,通過移動端應用生成的大數據,還可以進行:

·用戶行為分析,哪些位置、樣式、色彩的圖標或按鈕會比較顯著的吸引用戶產生點擊行為。可以記錄用戶的點擊操作路徑,就能夠通過產品設計層面,規劃出更為符合大眾直覺的頁面層級。

·商業信息分析,對于電商類移動端應用,可以通過移動端上報的數據,整理分析得出店鋪的訪購率,客單價

參考文獻:

Android全埋點解決方案 王灼洲 著 ISBN:978-7-111-62149-2

統計學習方法 李航 著 ASIN:B01M8KB8FF

劉韻,張遙.大數據管理:概念、技術與挑戰[J].數碼世界,2016,(6):16~16.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产电话自拍伊人| 特级毛片免费视频| 狠狠色狠狠综合久久| 亚洲无码高清免费视频亚洲| 久久国产精品无码hdav| 亚洲熟女偷拍| 91口爆吞精国产对白第三集| 国产剧情一区二区| 亚洲国产系列| 亚洲成a人片| 日本手机在线视频| 免费观看男人免费桶女人视频| 欧美激情首页| 精品视频福利| 免费va国产在线观看| 亚洲AⅤ无码国产精品| 久久a毛片| 国产毛片基地| 国产精品福利一区二区久久| 三级国产在线观看| 成人福利在线视频免费观看| 国产欧美视频在线观看| 男人天堂伊人网| 全部免费特黄特色大片视频| 亚洲男人天堂2020| 不卡的在线视频免费观看| 国产国语一级毛片| 国产成人高清精品免费| 91福利免费| 国产av色站网站| 91视频青青草| 四虎国产成人免费观看| 她的性爱视频| 99手机在线视频| 国产第八页| 九九热精品视频在线| 亚欧美国产综合| 亚洲激情99| 欧美激情第一欧美在线| 亚洲国产成人在线| 综合五月天网| 国产麻豆精品久久一二三| 久久免费视频6| 天天综合网色| JIZZ亚洲国产| 免费又爽又刺激高潮网址| 国产91特黄特色A级毛片| 幺女国产一级毛片| 国产精品蜜臀| 国产色爱av资源综合区| 人妻精品久久久无码区色视| 99ri国产在线| 女高中生自慰污污网站| 国产成熟女人性满足视频| AV不卡在线永久免费观看| 欧美午夜视频在线| 国产www网站| 波多野结衣在线se| 成人午夜精品一级毛片| 在线亚洲小视频| 手机永久AV在线播放| 免费网站成人亚洲| 国产jizzjizz视频| 人妻夜夜爽天天爽| 精品伊人久久久久7777人| 国产三级毛片| 国产网站黄| 中国精品自拍| 极品性荡少妇一区二区色欲| 亚洲天堂日韩在线| 国产精品第5页| 蜜桃臀无码内射一区二区三区 | 国产一级毛片在线| 国产福利在线观看精品| 亚洲精品无码日韩国产不卡| 精品91视频| 国产成人啪视频一区二区三区| 精品人妻无码中字系列| 免费看一级毛片波多结衣| 国产精品吹潮在线观看中文| 亚洲一道AV无码午夜福利| 高清亚洲欧美在线看|