999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘在新能源汽車領(lǐng)域中的應用

2023-06-21 01:58:40黃潤才
智能計算機與應用 2023年6期
關(guān)鍵詞:新能源汽車文本

張 雨, 黃潤才

(上海工程技術(shù)大學電子電氣工程學院, 上海 201620)

0 引 言

文本挖掘是一種整合信息的工具,能夠有效地提取文本中有用、創(chuàng)新、易懂和有價值的元素。 用戶可以自由訪問科學研究、新聞資訊、商業(yè)信息、娛樂報道等各種類型的信息。 這些信息構(gòu)成了一個被廣泛使用的異構(gòu)性和開放性數(shù)據(jù)庫,而在這個數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化的文本數(shù)據(jù)。 在人工智能的發(fā)展過程中,自然語言處理和計算機科學被整合到一起,從此網(wǎng)絡挖掘和文本挖掘誕生了。

網(wǎng)頁中包含很多類型的數(shù)據(jù),如文本、鏈接和用戶訪問等,因此網(wǎng)絡挖掘也有多種類型,例如文本挖掘、數(shù)據(jù)挖掘和圖像挖掘。 文本挖掘注重于把大量文本信息處理成可被人使用的信息。

在新能源汽車領(lǐng)域中,文本挖掘被用于分析中國新能源汽車產(chǎn)業(yè)政策,消費者評價新能源汽車時也使用了文本挖掘技術(shù),在新能源汽車故障診斷中也會使用文本挖掘技術(shù)。

文本挖掘技術(shù)運用在新能源汽車領(lǐng)域的同時,也帶來了挑戰(zhàn):

(1)數(shù)據(jù)來源多樣化。 新能源汽車領(lǐng)域數(shù)據(jù)發(fā)布主體主要有個人、企業(yè)、媒體、政府機構(gòu)等,具體表現(xiàn)形式也有很多,如社交平臺(推特、微博、論壇等)、研究論文、公司企業(yè)年報、季報,政府機構(gòu)定期或不定期發(fā)布的各類信息等。

(2)數(shù)據(jù)信息展示。 數(shù)據(jù)體量呈現(xiàn)了幾何式增長,使用文本挖掘技術(shù)從海量數(shù)據(jù)中挖掘信息,還需要將數(shù)據(jù)信息展現(xiàn)出來。

本文采用文本挖掘技術(shù),如中文中的分詞、詞向量、降維、聚類、數(shù)據(jù)可視化等方法對CNKI 和Web Of Science 中的論文進行分析,展示新能源汽車領(lǐng)域的研究趨勢及發(fā)展。

本文主要進行了以下幾個方面的研究:“數(shù)據(jù)與方法”部分描述了從中國知網(wǎng)(CNKI)獲得的16 293篇文章的數(shù)據(jù)源,和從Web Of Science 獲取的10 328篇文章,并介紹了本文所使用的文本挖掘方法;“結(jié)果與討論”部分通過主題河流圖展現(xiàn)了論文中關(guān)鍵詞隨年份的演變,展現(xiàn)了新能源汽車領(lǐng)域的研究熱點變化趨勢;通過中國地圖展示了研究新能源汽車的作者機構(gòu)空間分布圖,使用關(guān)系圖來揭示CNKI 中論文作者的關(guān)系;通過聚類算法和數(shù)據(jù)可視化揭示論文研究點的分布情況并給出相應的預測;討論了本文所使用文本挖掘技術(shù)的局限性。 本研究的潛在貢獻體現(xiàn)在對新能源汽車領(lǐng)域的回顧和預測,有助于研究人員了解新能源汽車領(lǐng)域的研究趨勢和研究熱點。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)獲取

本文分析的所有數(shù)據(jù)均來自CNKI 及Web Of Science,搜索條件如下:

(1)在CNKI 中以“new energy vehicle”為關(guān)鍵詞獲取相關(guān)碩博論文、以及發(fā)表在學術(shù)及行業(yè)期刊上的論文;

(2)在Web Of Science 中同樣以“new energy vehicle”為關(guān)鍵詞,獲取相關(guān)的會議或期刊論文。

1.2 數(shù)據(jù)構(gòu)成

在CNKI 中,獲取的數(shù)據(jù)包含標題、作者、摘要、關(guān)鍵詞、作者機構(gòu)等信息;在Web Of Science 中,獲取的數(shù)據(jù)包含標題、作者、摘要等信息。 由于部分論文存在缺失信息的情況,本文對所收集的數(shù)據(jù)進行了初步篩選,剔除了一部分不滿足條件的數(shù)據(jù),最終所獲得CNKI 論文16 293 篇,Web Of Science 論文10 328篇。

1.3 中文分詞

中文分詞(Chinese Word Segmentation)就是將一句通順的漢字序列根據(jù)特有規(guī)范分割為多個獨立的詞序列[1]。 目前的分詞方法可以歸納為3 個類別:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[2]。

基于統(tǒng)計的中文分詞方法已然占據(jù)了主流位置,該方法是在已有大量被分詞過的文本的基礎(chǔ)上,使用統(tǒng)計機器學習模型來學習詞語切分的規(guī)律(稱為訓練),以此實現(xiàn)對未知文本的切分。

在實際的應用中,基于統(tǒng)計的分詞系統(tǒng)都需要使用分詞詞典來進行字符串匹配分詞,同時使用統(tǒng)計方法識別一些新詞,即將字符串頻率統(tǒng)計和字符串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 在本文中使用的jieba(結(jié)巴)分詞方法。

1.4 詞嵌入

本文使用 GloVe ( Global Vectors for Word Representation)生成詞向量。 其是一個基于全局詞頻統(tǒng)計(Count-Based and Overall Statistics)的詞表征(Word Representation)工具[3]。

GloVe 的構(gòu)建過程:

(1)根據(jù)語料庫構(gòu)建一個共現(xiàn)矩陣,元素Zij表示在矩陣中任意單詞i和其上下文單詞j在規(guī)定范圍內(nèi)的上下文窗口中共同出現(xiàn)的次數(shù);

(2)構(gòu)建詞向量(Word Vector)和共現(xiàn)矩陣之間的近似關(guān)系,其目標函數(shù)為式(1):

其中,和是最終要求解的詞向量,bi和分別是兩個詞向量的偏置項。

這個損失函數(shù)的基本形式就是最簡單的均方誤差損失函數(shù),只不過在此基礎(chǔ)上加了一個分段權(quán)重函數(shù)f(Xij),式(2):

其中,x為Xij,xmax達到最大值時x的取值,當x小于xmax時為一個非遞減函數(shù),達到一定程度后取值不再增加。

從損失函數(shù)出發(fā),只需要找到兩個值,其中一個代表詞向量,另外一個代表其真實標簽,就可以借助平方誤差損失函數(shù)讓初始值與最終值越來越接近,最后得到詞向量。

1.5 降維

T - SNE (T - Distributed Stochastic Neighbor Embedding)是用于降維的一種機器學習算法,由Laurens van der Maaten 等在2012 年提出[4]。 TSNE 是一種非線性降維算法,常用于高維數(shù)據(jù)降維到2 維或者3 維,以便進行可視化。 該算法具有有效性,越相似的數(shù)據(jù)點,t分布在低維空間中聚合更緊密;而對于不相似的數(shù)據(jù)點,t分布在低維空間中的距離則需要遠一點。

T-SNE 的梯度更新有兩大優(yōu)勢:

(1)對于不同簇之間的點,可以利用短距離帶來的大梯度使這些點互相疏遠;

(2) 這種互相疏遠不會變的無窮遠(梯度中分母),以避免不同簇的點過分疏遠。

1.6 聚類

K-Means 算法是一種常用的聚類算法,但其算法本身存在一定的問題,如在大數(shù)據(jù)量下的計算時間過長等[5]。 因此,一種基于K-Means 的變種聚類算法Mini Batch K-Means 應運而生。

Mini Batch K-Means 既可以利用小批量的數(shù)據(jù)子集大幅度縮短計算時長,又可以優(yōu)化目標函數(shù)。所謂的小批量是指每次訓練算法時隨機抽取數(shù)據(jù)子集進行訓練,大大縮短了計算時長,與此同時還可以保持聚類的準確性,此算法的優(yōu)勢是減少了K 均值的收斂時間。

該算法的迭代步驟有兩步:

(1)首先從數(shù)據(jù)集中隨機選取部分數(shù)據(jù),分配給距離最近的聚簇中心點;

(2)通過計算平均值來更新聚簇的中心點值,并把數(shù)據(jù)分配給這個聚簇中心點值,迭代次數(shù)越多,聚簇中心點值變化越小,直到中心點趨于穩(wěn)定或者達到迭代次數(shù),才停止計算。

2 結(jié)果與討論

2.1 發(fā)文量分析

將獲取到的論文數(shù)量信息做可視化處理,得到的結(jié)果如圖1、圖2 和表1 中所示。 無論是在WOS數(shù)據(jù)庫中還是在CNKI 中,對新能源汽車領(lǐng)域的研究都呈現(xiàn)了一個上升的趨勢。 從表2 的增速可以看出,最近五年與2011 ~2015 年相比,分別增長了105.65%和137.54%,且都在2019 年達到了各自的峰值,分別為1 570 條和3 496 條。 在WOS 數(shù)據(jù)庫中,2012 年出現(xiàn)了一個猛增的趨勢,接著就是逐年增長;而在CNKI 中,2017 年以前都是逐步增長,而到了2018 年反而下降,這說明在2018 年中國國內(nèi)汽車市場低迷,呈現(xiàn)出了負增長的趨勢,新能源汽車領(lǐng)域受到了影響。

表1 在2011~2015 年的論文數(shù)量Tab. 1 Number of papers in 2011~2015

表2 特征詞在論文中被提及的頻率(2011~2015)Tab. 2 The frequency of feature words mentioned in papers(2011~2015)

圖1 WOS 中論文數(shù)量折線圖(2011~2020)Fig. 1 Line chart of the number of papers in WOS (2011~2020)

圖2 CNKI 中論文數(shù)量折線圖(2011~2020)Fig. 2 Line chart of the number of papers in CNKI (2011~2020)

2.2 研究熱點變化趨

由于在CNKI 中,2015 ~2020 年間新能源汽車領(lǐng)域的論文數(shù)量波動較大,本文選取了2015 ~2020年間CNKI 論文,提取論文的關(guān)鍵詞見表2,利用中文分詞的方法,根據(jù)詞頻進行分析,得到研究熱點的變化趨勢如圖3 所示。

圖3 CNKI 中關(guān)鍵詞主題河流圖(2015~2020)Fig. 3 River diagram of keyword theme in CNKI (2015~2020)

從表2 和圖3 可以發(fā)現(xiàn),“新能源汽車”、“電動汽車”作為新能源汽車領(lǐng)域的主要特征詞,在2015~2020 年間的每一年都保持了一個極高的出現(xiàn)頻率。 而“發(fā)展戰(zhàn)略”及“戰(zhàn)略性新興產(chǎn)業(yè)”則呈現(xiàn)了一個出現(xiàn)頻率遞減的趨勢,這與中國推廣新能源汽車政策有關(guān),2015 年中國正處于新能源汽車發(fā)展的第二階段。 關(guān)鍵詞“鋰離子電池”、“動力電池”、“永磁同步電機”的出現(xiàn)頻率表現(xiàn)出了增長的趨勢,年均增長率分別達到25.55%、20.11%和16.72%,說明在CNKI 中與新能源汽車的動力電池有關(guān)的研究中,永磁同步電機及鋰離子電池逐漸成為了研究熱點。

2.3 作者空間分布及關(guān)系

將CNKI 中的文章分為期刊論文和碩博論文。對于期刊論文,篩選出在新能源汽車領(lǐng)域文章數(shù)量前十的期刊,并以玫瑰圖的形式展現(xiàn)出來。 本文使用的英語處理工具(Kadriu 2013),在中文摘要中使用jieba 分詞,實驗結(jié)果如圖4 所示,可以直觀的看出相關(guān)的期刊都是與汽車相關(guān)的,其次便是與電源有關(guān),這與大多新能源汽車是以電池作為動力源有關(guān)。 對于碩博論文,則以作者所在的單位進行研究,用同樣的實驗方法根據(jù)其所在省份得到中國對新能源汽車領(lǐng)域研究的空間分布,顯示各個省份對新能源汽車都有研究,其中北京、上海、重慶、天津研究人數(shù)較多。

圖4 CNKI 新能源汽車領(lǐng)域的文章數(shù)量top10 期刊Fig. 4 The top-10 journals in CNKI with most articles in the field of new energy vehicles

為了得到WOS 數(shù)據(jù)庫和CNKI 中新能源汽車領(lǐng)域論文作者的關(guān)系圖,本文對所收集的數(shù)據(jù)進行預處理,選取了2019 年兩大數(shù)據(jù)庫的作者信息,分別得到了各自的作者關(guān)系圖如圖5 和圖6 所示,可以得到在CNKI 中由于論文多數(shù)來自于碩博論文,作者關(guān)系相比WOS 數(shù)據(jù)庫中更為簡單。

圖5 CNKI 新能源領(lǐng)域作者關(guān)系圖Fig. 5 Diagram of author relationship in CNKI in the field of new energy

圖6 WOS 新能源領(lǐng)域作者關(guān)系圖Fig. 6 Diagram of author relationship in WOS in the field of new energy

2.4 論文研究熱點聚類分析

本文選取了CNKI 中獲取的數(shù)據(jù)進行研究,對數(shù)據(jù)中的摘要部分進行提取,使用jieba 算法進行中文分詞,通過分詞和去除停用詞得到處理后的摘要數(shù)據(jù),使用glove 訓練獲得詞向量。 訓練后得到的詞向量為200 維,詞向量維度過高會導致維度爆炸,因此采用了T-SNE 算法進行降維,將數(shù)據(jù)降維至2維,實驗結(jié)果如圖7 所示,可以看出,這些詞分為4類。 并使用小批量K 均值聚類得到如圖8 所示的更詳細的信息。

圖7 T-SNE 降維圖Fig. 7 T-SNE dimension reduction result

圖8 CNKI 論文研究點分布圖Fig. 8 Distribution map of research topics in CNKI

圖8 中顯示為綠色的這一大類主要分布的詞有“制造業(yè)”、“生產(chǎn)”、“營銷”、“產(chǎn)業(yè)結(jié)構(gòu)”、“資本”、“建設”等,說明在新能源汽車領(lǐng)域中,學者們很注重新能源汽車從制造到生產(chǎn)、銷售整個產(chǎn)業(yè)的結(jié)構(gòu)建設方面的研究;顯示為藍色的這一類別中,“汽車行業(yè)”、“環(huán)境污染”、“壓力”、“質(zhì)量”、“低碳”、“消費者”、“新能源”、“價格”等詞作為主要關(guān)鍵詞,反映了新能源汽車由于使用新能源能夠緩解環(huán)境污染問題,使消費者能夠低碳出行,同時價格也影響著新能源汽車行業(yè);顯示為粉色的這一類別中,分布的詞數(shù)較少,主要有“燃料電池”、 “成本”、 “電化學”、“材料” 、“電網(wǎng)負荷”等詞,這一類別代表了對新能源汽車領(lǐng)域的燃料及所需成本的研究;顯示為橙色的類別里,可以看到“新能源汽車”、 “simulink”、“開發(fā)”、“設計”、“方案”、“電動汽車”、“車身”、“控制策略”、“發(fā)動機”等關(guān)鍵詞,本文認為這象征著對新能源汽車進行開發(fā)設計時通常包含了車身、發(fā)動機等汽車的主要部件的研究,同時新能源汽車研究較多的是電動汽車,在設計方案時使用了simulink等仿真軟件確定最優(yōu)的策略。

最后,由于新能源汽車領(lǐng)域關(guān)于燃料的研究較少,所以結(jié)合圖2 所示的主題河流圖,本文做出以下預測:

(1)在未來關(guān)于新能源汽車領(lǐng)域的研究中,可以著重關(guān)注于純電動汽車及各種電池及永磁同步機的研究;

(2)由于各種電池如鋰離子電池等所需要的電化學反應不同,所需材料的成本也不同,可以針對不同的燃料電池所需花費的成本及大規(guī)模投放后對電網(wǎng)所產(chǎn)生的負荷影響進行研究。

2.5 文本挖掘技術(shù)的不足

通過本文所介紹的文本挖掘算法及數(shù)據(jù)可視化方法,雖然已經(jīng)得到了2011 ~2020 十年間WOS 數(shù)據(jù)庫和CNKI 中的數(shù)據(jù)信息,但仍有不足:

(1)T-SNE 傾向于保存局部特征,沒有唯一最優(yōu)解,而且在T-SNE 中距離本身沒有意義,都是概率分布問題;

(2)Mini Batch K-Means 為了減少數(shù)據(jù)規(guī)模,隨機從整體選取出一小部分數(shù)據(jù)代替整體,雖然算法收斂速度大大加快,但是代價是聚類的精確度相比標準算法會有一些降低。

3 結(jié)束語

本文使用文本挖掘算法,如jieba 分詞、glove 詞向量、T-SNE 降維、Mini Batch K-Means 聚類算法,研究了WOS 數(shù)據(jù)庫和CNKI 中以新能源汽車為主題的論文,通過主題河流圖、作者關(guān)系圖、作者空間分布圖、研究點分布圖直觀的展示了文本挖掘所得到的數(shù)據(jù)信息。 研究結(jié)果表明在國內(nèi)外對于新能源汽車領(lǐng)域都在持續(xù)關(guān)注,尤其是電動汽車;預測了研究人員對于新能源汽車應當在燃料電池、成本及電網(wǎng)負荷方面進行關(guān)注。

猜你喜歡
新能源汽車文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
汽車的“出賣”
買不買新能源汽車
汽車們的喜怒哀樂
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
“新能源門”的背后
風能(2015年4期)2015-02-27 10:14:36
順應新能源發(fā)展趨勢
風能(2015年4期)2015-02-27 10:14:34
3D 打印汽車等
決策探索(2014年21期)2014-11-25 12:29:50
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产欧美视频综合二区| 欧美亚洲另类在线观看| 国产成人福利在线视老湿机| 亚洲人成人无码www| 国产特级毛片aaaaaa| 国产午夜人做人免费视频| 日韩美毛片| 天堂亚洲网| 亚洲午夜国产片在线观看| 亚洲欧美一级一级a| 久久久受www免费人成| 久久综合色播五月男人的天堂| 亚洲精品无码人妻无码| 91福利在线观看视频| 日本不卡在线播放| 97青草最新免费精品视频| 香蕉eeww99国产精选播放| 久久精品娱乐亚洲领先| 亚洲自偷自拍另类小说| av天堂最新版在线| 成年人国产视频| 麻豆AV网站免费进入| 国产精品无码久久久久久| 久久成人免费| 国产一级精品毛片基地| 国产激爽大片高清在线观看| 国产精品成人免费综合| 中文纯内无码H| 青青国产视频| 国产第一页第二页| 欧美成人综合在线| 在线欧美一区| 亚洲AⅤ无码国产精品| 欧美一区福利| 精品综合久久久久久97超人| 天天爽免费视频| 亚洲男人天堂久久| 国产粉嫩粉嫩的18在线播放91| 精品国产网站| 亚洲欧美不卡| 亚洲欧洲一区二区三区| 2021精品国产自在现线看| 国产精品第5页| 久久人人97超碰人人澡爱香蕉| 又爽又大又黄a级毛片在线视频 | 久久黄色小视频| 国产亚洲日韩av在线| 免费观看三级毛片| 毛片在线看网站| 成人噜噜噜视频在线观看| 青青国产成人免费精品视频| 亚洲美女久久| 丰满人妻被猛烈进入无码| 欧美不卡视频在线| av一区二区无码在线| 91亚洲精选| 亚洲欧美不卡视频| 亚洲日本中文综合在线| 无码AV日韩一二三区| 日韩精品久久无码中文字幕色欲| 成人福利在线观看| 国产对白刺激真实精品91| 亚洲国产午夜精华无码福利| 日本午夜在线视频| 国产成人夜色91| 国产综合无码一区二区色蜜蜜| 青草视频久久| 亚洲无码高清一区二区| 免费高清a毛片| 熟妇无码人妻| 国产欧美精品午夜在线播放| 久久久久亚洲AV成人人电影软件| 亚洲午夜福利精品无码不卡| 精品国产99久久| 这里只有精品在线| 91久久偷偷做嫩草影院免费看| 97se亚洲综合不卡| 99九九成人免费视频精品 | 波多野结衣一二三| 91精品国产91久无码网站| 中文字幕在线欧美| 日本黄色不卡视频|