黃媛
摘 要:通過對ProgrammableWeb在線社區進行研究,發現網站上的API服務數量龐大且含有豐富的數據信息。討論了網頁采集、數據預處理等相關技術,利用K-Means和凝聚層次聚類技術在API服務數據集上進行實驗,實驗結果表明,K-Means算法具有更好的聚類效果。
關鍵詞:聚類;Web服務;K-Means;API服務數據
DOIDOI:10.11907/rjdk.171075
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2017)007-0149-03
0 引言
隨著Web2.0技術的飛速發展,Mashup和API服務在Web開發者社區廣為流行,并應用在許多開放的Web網站中。企業Web應用中Mashup與其它應用區別很大,常常不能重復使用或者沒有Web API,人們不得不為這些應用去創建大量Web API。每天涌現的大量API服務需要一個平臺來瀏覽 [1]。一些在線平臺,例如雅虎、ProgrammableWeb.com等都允許用戶發布各種API服務,一些非專業人士也能通過組合Web API服務或其它Web資源創建新的Web頁面。ProgrammableWeb現在很流行,吸引了研究者的關注,推動了社區用戶行為的研究[2]。目前網站已經有6 730個Mashup和6 783個開放的API服務,開發者不用測試就能將API服務結合起來。和傳統的Web開發相比,Mashup越來越簡單和流行,因為開發者不用測試和移植內部的Web應用就能使用這些數據,非技術人員也能通過在線社區快速集成已有的應用。
1 API服務聚類
1.1 描述相似性
API服務經過文檔預處理[3]后,使用詞語向量集表示。向量之間的相似性表示兩個文本之間的相似性,可用向量之間的夾角余弦值表示,也叫作余弦相似性,這是目前在信息檢索和聚類方法中度量文本相似性的最常用方法。設定文檔ta→和tb→,文檔間的余弦相似性計算公式如下:
ta→和tb→是詞集T={t1,...,tm}上的m維向量,每一維都代表一個詞在文檔中的權重,且為非負,余弦相似度非負并且屬于[0,1]。……