999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文政治隱喻自動識別系統的設計與實現

2020-02-01 03:24:30朱毅郭樂詩
電子技術與軟件工程 2020年9期
關鍵詞:文本

朱毅 郭樂詩

(大連外國語大學軟件學院 遼寧省大連市 116044)

1 數據來源

Selenium 是一個用于Web 應用程序測試的工具,選擇要爬取的頁面,通過webdriver 模塊來獲取網頁請求信息,成功訪問網頁后,定位領導人講話的講話標題時,使用find_elements_by_xpath來獲得講話的標題,定位講話的詳細信息時,需要獲取新的link,獲取新的網頁請求,通過selenium 的模擬用戶點擊操作進入講話詳情信息界面,獲取領導人講話的詳細信息。當爬取成功當下講話時,要想爬取下一條政治講話詳細信息,需要返回標題界面,使用selenium 中的back()函數就可以返回到上一個標題界面,將語句套在循環中進行遍歷,直到爬取完最后一個講話詳情信息。

2 數據展示

該項目采用django 框架進行數據展示。Django 是一個開放的源代碼的Web 應用框架,可以將數據庫和html 等前端的開發和后端開發設計融合在一起。使設計者能夠更加靈活的進行設計網站。

2.1 政治語句展示

2.1.1 判斷路徑

Django 框架收到瀏覽器請求時,首先截取http://127.0.0.1:8000/speechdetail/ 得到speechdetail 字符。 在setting.py 文件中通過ROOT_URLCONF 判斷urls.py 文件。在urls.py 文件中匹配path('speechdetail/',views.speech_detail,name='speech_detail'),根據正則表達式,若匹配則調用相應的view 中的函數,跳轉相應的HTML 頁面。

2.1.2 匹配語句

View.py 文件中的speech_detail()的函數是顯示政治語句的函數。用request.POST['title'],獲取到要進入的政治語句的標題,調用speechdao.py 中的getSentences()函數。

2.1.3 調用數據庫

speech.py 中使用filter 函數在數據庫中找到對應政治標題的政治語句的詳細信息找到對應語句的算法為“sents=sentModels.objects.filter(sentences_title=title)”找到之后將找到的語句信息返回給speech_detail.html 文件,交給瀏覽器,在頁面中顯示出政治語句的詳細信息。

2.1.4 顯示語句

圖1:政治講話信息展示圖

而在speech_detail.html 中使用了{{sent.sentences}}標簽,顯示政治語句的詳細信息,使用了{{sent.Metaphor}}標簽,顯示政治語句所對應的隱喻類型。使用了{{sent.sent_editor}}標簽,顯示了標注該句子隱喻的用戶。

政治講話信息展示如圖1所示。

2.2 用戶進行隱喻標注

在政治講話中經常使用和出現的隱喻類型大體分為以下幾種:建設隱喻,旅途隱喻,容器隱喻,管道隱喻,擬人隱喻,方位隱喻,家庭隱喻,概念隱喻,實體隱喻,戰爭隱喻。

用戶要對政治語句進行人工隱喻標注時,點擊要標注的政治語句的添加標注按鈕,獲取到路徑’/insertM/’,在urls.py 文件中進行逐條匹配’path(‘preinsertMetaphor/’,views.preinsertMetaphor)’進行正則判斷。

用戶人工隱喻標注如圖2所示。

3 隱喻分析和自動識別

3.1 數據預處理

從網頁上直接爬取的數據往往會帶有網頁標簽或是其他不規則的字符,這時就需要對爬取的數據進行清洗,得到想要的干凈的數據。先使用Beautiful 中的BeautifulSoup(text,'html.parser').get_text()語句,去掉文本中的網頁標簽只留下純文本類型。再使用jieba.cut()對文本進行分詞處理,最后對已經分過詞的文本進行去停用詞處理,最后得到經過清洗的文本數據。

圖2:人工隱喻標注示意圖

3.2 構建詞向量模型,對政治語句進行編碼

使用gensim 模塊訓練詞嵌入模型。將已經清洗過的文本數據放入一個詞向量為300 維,詞頻均大于40 的模型中,使用word2vec 進行模型訓練,將訓練的結果存儲為model 類型。讀入之前訓練好的Word2Vec 模型,根據word2vec 的結果對訓練集的政治語句進行編碼。對政治語句則使用K-Means 進行聚類編碼。使用model.wv.syn0 函數載入模型,對文本數據進行分割詞向量創建簇,劃分結束后的每一個單詞的聚類都存儲在idx 當中,將所Word2Vec生成的詞匯表壓縮成一個單詞為下標,每一個單詞映射為簇編號的字典。在將政治語句轉換成cluster bag vectors 時,使用的就不再是單一的單詞,而是語義相關的簇。遍歷政治語句時,如果單詞在詞匯表中則單詞所在簇加一。遍歷結束后將遍歷結果存儲在數組中,這時再將政治語句轉換成數據向量作為訓練集特征。政治語句的數據向量如圖3所示。

3.3 隨機森林算法建模

使用RandomForestClassifier()函數對訓練集進行建模分析,利用訓練集中已經標注好的政治語句的所屬隱喻進行建模分析。建好模后進行一下測試,先對訓練集進行一下預測,以此來判斷一下模型的構建是否成功。使用forest.predict()對訓練集中的政治語句進行預測,預測之后再使用混淆矩陣以及confusion_matrix()算法對隨機森林預測的結果是否準確進行判斷。

3.4 自動識別效果

用戶單擊選擇系統中的自動識別部分,則跳轉運行已經訓練好的分類器,用戶輸入需要進行識別的政治語句,系統將對政治語句進行數據預處理、語句轉換編碼、隨機森林預測等操作,最后將識別的結果顯示在界面上。隱喻識別結果如圖4所示。

4 結論

中文政治隱喻自動識別系統主要完成了以下幾種工作:

通過selenium 爬取國家領導人講話信息作為基礎語料,使用jieba 等模塊對講話信息進行預處理,將清洗成功的文本使用word2vec 生成詞向量模型。

圖3:政治語句的數據向量圖

圖4:隱喻識別結果圖

搭建Django 項目框架,創建數據庫表,把國家領導人政治講話信息存入數據庫,利用django 框架搭建人工標注系統,方便用戶對政治語句進行人工隱喻標注。將標記的結果作為訓練集。使用隨機森林構建分類器對政治語句進行隱喻識別,并將識別的結果返回到界面。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 久久人午夜亚洲精品无码区| 欧美激情视频在线观看一区| 国产欧美视频综合二区| 久久精品91麻豆| 丰满人妻一区二区三区视频| 国产午夜一级毛片| 毛片网站免费在线观看| 国产不卡国语在线| 性欧美久久| 久久久久亚洲精品无码网站| 日韩免费毛片| 久久国产亚洲偷自| 国产成人久久777777| 九九热精品视频在线| 精品無碼一區在線觀看 | 久久精品国产999大香线焦| 国产成人1024精品| 免费a在线观看播放| 国产在线观看一区二区三区| 国产成人啪视频一区二区三区 | 狠狠综合久久久久综| 综合亚洲色图| 国产网站免费看| 欧美色视频网站| 国产第一页第二页| 中国一级特黄视频| 99久久精品免费观看国产| 精品亚洲麻豆1区2区3区| 久久99国产精品成人欧美| 国产高清无码麻豆精品| 强乱中文字幕在线播放不卡| 国产免费黄| 国产精品久久久久久久久| 色色中文字幕| 四虎永久在线| 中文字幕免费在线视频| 日本三级欧美三级| 久久精品人人做人人爽电影蜜月| 亚洲中文字幕久久精品无码一区| 国产污视频在线观看| 1769国产精品视频免费观看| 亚洲国产综合第一精品小说| 欧美激情视频一区| 99久久免费精品特色大片| 日本亚洲欧美在线| 99久久免费精品特色大片| 国产亚洲视频播放9000| 久久国产V一级毛多内射| 亚州AV秘 一区二区三区| 成人日韩精品| 亚洲人成日本在线观看| 最近最新中文字幕在线第一页| 五月天丁香婷婷综合久久| 久久久久无码精品| 亚洲成综合人影院在院播放| 亚洲无码高清一区二区| 成人蜜桃网| 日韩a级片视频| 伊人国产无码高清视频| 久久国产成人精品国产成人亚洲| 欧美日韩亚洲国产| 少妇精品网站| 欧美日韩国产一级| 很黄的网站在线观看| 欧美日韩免费在线视频| 中文字幕久久精品波多野结| 2021国产乱人伦在线播放| 人妻中文字幕无码久久一区| 日韩欧美中文| 视频一区视频二区日韩专区| 亚洲成a人片在线观看88| 亚洲精品不卡午夜精品| 2022国产无码在线| 日韩午夜片| 欧美激情第一欧美在线| 一区二区三区成人| 东京热av无码电影一区二区| 亚洲欧美在线综合图区| 91国内在线观看| 青草娱乐极品免费视频| 亚洲欧美不卡视频| 久久超级碰|