999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的新冠疫情文獻分析與研究

2021-11-22 05:05:57袁靖飛
無線互聯科技 2021年3期

孫 妍,任 勇,袁靖飛

(蘇州大學 應用技術學院,江蘇 昆山 215325)

0 引言

隨著科技的日新月異,科學家們在科技道路上遇到的問題越來越復雜,人們對人工智能解決復雜問題的期望值越來越高,由此應運而生的機器學習相關技術得到迅猛發展。機器學習技術通過模擬、延伸和擴展等方法,機器學習可以作為人工智能的一個子集。其次機器學習是基于大數據的,它的“智能”需要海量的數據,為了應對COVID-19大流行,美國等主要研究團隊開放了COVID-19研究數據集。COVID-19的資源超過300 000篇學術文章,涉及COVID-19,SARSCoV-2和相關的冠狀病毒。本文采用的就是該數據集,并對這些文獻進行分組,簡化相關出版物的檢索,對聚類的內容進行限定。

1 主要技術與算法

1.1 TF-IDF(Term Frequency-Inverse Document Frequency)

TF-IDF通常被用作為信息檢索的加權和文本挖掘的加權。TF-IDF作為一種常用的統計方法,通常被用作評估一份文件集或語料庫中某個字詞的重要程度。這個字詞的重要程度會隨著它在文件集中出現次數的增加呈正比增長,而與它在語料庫中出現次數的增加呈反比增長。TF-IDF通常被用作分類,原因在于:當某一字詞在一份文件集中出現的頻率TF高,而在其他文件集中出現的頻率低時,就可以認為這個字詞可以將兩份文件集有效地區分開來[1]。

使用TF-IDF,這將把字符串格式化的數據轉換為衡量每個詞對整個文獻中的實例的重要性,矢量化數據。根據正文的內容進行聚類,特征的最大數量將受到限制。只有前212個特征將被使用,本質上作為一個噪聲過濾器。此外,更多的特征會導致長運行時間[2]。

1.2 PCA

主成分分析(Principal Component Analysis,PCA)是一種常用的數據分析方法。PCA通常被用于高維數據的降維操作,是利用線性變換的方法,將原始的數據轉換為一組線性無關的維度表示,利用這種表示可以提取出相關數據的主要特征分量。PCA可以將數據的維數在保持0.95的方差內投影到多個維數,同時消除嵌入時的噪聲和離群值。通過PCA保持大量的維度,不會破壞很多信息[3]。

1.3 t-SNE(Distributed Stochastic Neighbor Embedding)

t-SNE是用于降維的一種機器學習算法,由Laurens van der Maaten 和 Geoffrey Hinton在2008年提出。作為一種非線性的降維算法,t-SNE算法常被用于流形學習的降維過程。t-SNE算法通常被用于高維數據降維到2或3維數據,便于可視化操作。

使用t-SNE,可以將高維特征向量縮減到2維,通過使用這2個維度作為x,y坐標,可以繪制body_text。t-SNE在降低維度的同時,盡量讓相似的實例靠近,而不相似的實例分開。它主要用于可視化,特別是可視化高維空間中的實例集群[4]。

1.4 K均值聚類算法(K-Means Clustering Algorithm)

K均值聚類算法通常被用于數據迭代求解中的聚類分析(見圖1)。聚類是指將數據分組并集中于某些相似的數據成員的過程。人們通常稱這種發現內在結構的操作為無監督學習。K均值聚類算法是將隨機選取的K個對象作為起始的聚類節點,通過計算其余各個對象與聚類節點的相對距離,選取各個對象最小的相對距離分配給各自對象。聚類節點和分配給對象的相對距離就代表一個聚類。所有對象都被分配完成之后,每個聚類相對應的聚類節點都會被重新計算。重復以上步驟直到滿足相應的條件,這個條件可以為以下任意一種:(1)沒有(或最小數目)對象被重新分配給不同的聚類;(2)沒有(或最小數目)聚類中心再發生變化;(3)誤差平方和局部最小。

2 實驗與分析結果

首先,該工具保存為html文件,它可以下載并在本地使用;其次,維度的減小將減小數據集的訪問難度。論文都在圖上,可以通過懸停在它們上面進行快速檢查,如果摘要看起來很有趣,用戶就可以通過點擊該點,得到一個包含更加詳細信息的文本框鏈接。再者,通這些無監督的技術可以向人們展示文獻中隱藏的聯系;最后,這項工作可以很容易地根據需要進行復制和修改,以便作為未來項目的基礎。但是研究中也同樣存在著一些問題值得深思,例如可能出現假陽性,難以在主體之間劃出準確的界限;K-means和t-SNE是無監督的方法,不一定會以可預測的方式對實例進行分組,同樣正是由于它們的無監督性質,對于如何對論文進行聚類,沒有一個“標準的答案”,一旦出現問題,可能很難調試;本文中使用的算法是隨機的,因此結果可能會隨著算法的變化而變化;并且會增加其在大型數據集文獻的運行時間。

3 結語

對關于COVID-19的文獻進行分組,減少數據集的維度,這樣就得到了一幅散點圖,其中類似主題的文獻被歸為一組,其背后連接著一個更大的主題群。聚類和關鍵詞都是通過無監督學習模型找到的,可以揭示人類可能根本沒有想到的模式。在這個項目的任何部分,不必手動組織論文。K-means(用顏色表示)和t-SNE(用點表示)能夠獨立地找到聚類,這表明論文之間的關系可以被識別和測量。在多數情況下,相似的研究領域都被聚類,最后的評估方法是分類,通過用K-means標簽訓練一個分類模型,然后在一個單獨的數據子集上進行測試,可以看到聚類并不是完全任意的。需要說明的是,不評估文獻的質量,僅僅將其分類,創建這個工具是為了幫助專門人員更方便地篩選出許多與新冠病毒有關的文獻,解決他們的需求。

主站蜘蛛池模板: 五月天香蕉视频国产亚| 国产视频入口| 人妻中文久热无码丝袜| 亚洲国产日韩一区| 久久黄色影院| 国产精品极品美女自在线看免费一区二区 | 日韩a级毛片| 亚洲av中文无码乱人伦在线r| 国产日韩欧美一区二区三区在线| 国产原创演绎剧情有字幕的| 日韩在线2020专区| 亚洲成在线观看 | 欧美h在线观看| 亚洲成在人线av品善网好看| 激情综合网址| 国产精品9| 日本影院一区| 女高中生自慰污污网站| 久久精品国产在热久久2019| 亚洲视频影院| 精品国产成人三级在线观看| 午夜日韩久久影院| 国产成人免费手机在线观看视频| 青草视频免费在线观看| 又爽又大又黄a级毛片在线视频| 国产青榴视频| 色综合a怡红院怡红院首页| 亚洲午夜福利在线| 国产Av无码精品色午夜| av午夜福利一片免费看| 久久久久久高潮白浆| 青青久久91| 香蕉视频国产精品人| 极品尤物av美乳在线观看| 亚洲欧美一区二区三区蜜芽| 欧美亚洲一区二区三区导航| 成人韩免费网站| 东京热av无码电影一区二区| 日韩色图区| 欧美在线视频a| 国外欧美一区另类中文字幕| 国产一区在线视频观看| 国产精品白浆在线播放| 曰韩人妻一区二区三区| 午夜少妇精品视频小电影| 精品少妇人妻一区二区| 国产精品自拍露脸视频| 欧美一级高清片欧美国产欧美| 99re这里只有国产中文精品国产精品 | 亚洲啪啪网| 亚洲综合精品香蕉久久网| 亚洲成人黄色在线观看| 91热爆在线| 无码精品国产dvd在线观看9久 | 欧美www在线观看| 免费一级成人毛片| 亚洲精品无码久久毛片波多野吉| 国产美女免费网站| 91精品在线视频观看| 国产又大又粗又猛又爽的视频| 福利在线不卡一区| 欧美另类精品一区二区三区| 一区二区欧美日韩高清免费| 热99精品视频| 亚欧成人无码AV在线播放| 亚洲Aⅴ无码专区在线观看q| 97精品国产高清久久久久蜜芽| 色婷婷狠狠干| 玖玖免费视频在线观看| 伊人久久久久久久久久| 无码免费的亚洲视频| 久久福利网| 色婷婷国产精品视频| 日韩国产综合精选| 成年免费在线观看| 亚洲免费毛片| 久久综合伊人77777| 国产精品无码翘臀在线看纯欲| 欧美第九页| 日韩人妻少妇一区二区| 91视频精品| 国产丝袜无码一区二区视频|