999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的專門用途英語(ESP)測試自動評分

2021-11-01 06:29:42薛慧娟劉敏
微型電腦應用 2021年10期
關鍵詞:數據挖掘文本英語

薛慧娟, 劉敏

(1.陜西鐵路工程職業技術學院 基礎課部, 陜西 渭南 714000; 2.陜西理工大學 數學與計算機科學學院, 陜西 漢中 723001)

0 引言

隨著改革開放的不斷深入,我國對外貿易規模不斷提高。國內外的各種社會交流也逐年增長,這些都離不開我國對英語教育事業的大力支持。但是,隨著競爭的不斷加劇,社會對復合型人才的需求越來越多。企業要求這些人才不僅要具有扎實的專業知識,還需要具備熟練的英語表達能力,例如專業領域的術語溝通等。專門用途英語(ESP)因此應運而生[1-3]。不同于普通英語,ESP教學側重在真實語境中靈活運用語言達到交際目的,因此口語能力相當重要。

雖然教學形式得到了多樣化的發展,但是現階段ESP的口語教學還處在人工判定階段。需要教師花費大量的時間和精力進行各種主觀性測試,導致工作效率無法有效提高,特別是大規模的ESP測試場景[4]。目前,隨著人工智能技術的興起和發展,基于各種人工智能算法的英語測試自動評分技術開始逐漸被提出[5-8]。例如,魏揚威等[8]提出結合語言學特征和自編碼器的英語作文自動評分,取得了很好的預測效果和魯棒性。李婷等[9]提出了一種集中趨勢自適應增強的英語作文評分算法,解決了過擬合問題,相比人工評分該算法的誤差均小于20%。但是可以看出,目前已提出的英語自動評分技術均僅從軟件或者算法方面進行研究,因此實時性較差且無法應用于ESP口語測試。

為了有效解決ESP口語測試的自動評分,就必須從硬件上對評分系統進行整體設計。由于ARM9系列平臺在實時數據采集和傳輸方面具有功耗低、便攜性、成本低和性能強等優勢,武曉燕等[10]設計了基于ARM的語音識別及控制系統,為ESP口語測試的自動評分研究提供了思路。

因此,在上述研究的基礎上,本文提出一種基于數據挖掘和嵌入式ARM設備的英語口語自動評分系統。在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網接口的ARM開發板,能夠實現音頻信號的實時采集并上傳。調用科大訊飛API接口實現音頻文件轉換生成文本答案。對識別出的文本答案進行聚類特征提取,并采用關聯規則數據挖掘技術進行預測評分。實際測試結果驗證該系統的效率較高,其評分性能達到了人工評分的水平。

1 ESP測試自動評分平臺設計

1.1 系統硬件設計

為了降低整體系統的成本,提出系統在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網接口的ARM開發板,能夠實現音頻信號的實時采集并上傳。工作系統采用ARM+LINUX架構,支持 LCD 接口和JTAG 調試接口,且體積小、專用性強,系統硬件框圖如圖1所示。

圖1 ESP測試自動評分系統的硬件框圖

1.2 UDA1341TS音頻接口電路設計

本系統采用了飛利浦基于IIS音頻總線的UDA134TS,可以外接8/16 bit的立體聲。UDA134TS音頻芯片的工作電壓為1.8 V-3.6 V。S3C6410微處理器通過AC-Link 數字接口對UDA134TS音頻芯片進行功能控制,如圖2所示。

圖2 AC-Link 數字接口硬件框圖

音頻芯片UDA134TS與S3C6410微處理器的連接電路以及外圍電路,如圖3所示。

圖3 音頻接口部分電路

ARM開發板的音頻相關電路有兩個3.3 V輸入電源,為音頻芯片UDA134TS供電,如圖4所示。

圖4 音頻接口電源電路

1.3 系統的軟件實現

在ARM開發板上需要通過交叉編輯構建開發環境,安裝Linux內核、根文件系統配置和加載相關驅動程序。Linux 系統選用的是 Ubuntu 12.04,需要下載到開發板上運行、驗證程序,交叉開發模式如圖5所示。

圖5 交叉開發模式

在臨時環境變量配置成功后,通過執行$ct-ng menuconfig命令打開Linux的圖形配置界面。然后編譯并安裝arm-linux-gcc 4.8.4交叉編譯工具鏈。

音頻芯片UDA134TS電路不斷采集語音信息,并由IIS總線接口輸入各個緩沖區中。用戶程序可以從當前緩沖區存儲空間直接讀取數據音頻模塊的語音信號。

2 自動評分功能的實現

通過ARM開發板采集ESP測試中用戶語音信息后,通過以太網口上傳到PC端生成音頻文件。然后調用科大訊飛API接口(語音聽寫接口)實現音頻文件的轉寫,生成英語文本答案。

2.1 聚類后的特征提取

為了對英語文本答案的內容進行準確表征,本文將英語文本的詞向量進行K-means聚類分析。詞向量的生成借助了詞向量計算的工具Word2vec[11-13]。將生成的英語文本答案內容表征成3×k維向量,則聚類分析的步驟如下。

(1) 設Word2vec生成的詞向量集合為X={x1,…,xM},其中xi表示英語文本的詞向量。

(2) 隨機初始化k個聚類中心,u1,u2,…,uk∈Rn。

(3) 對xi的類型結果進行計算,為式(1)。

(1)

(4) 然后對聚類中心進行調整,為式(2)。

(2)

式中,j∈[1,k]。

(5) 判斷聚類中心是否不發生變化,是的話就結束聚類,否則跳轉到步驟(2)繼續執行。

表1 詞法特征

2.2 關聯規則數據挖掘

在特征構建好后,將采用FP_Growth關聯規則挖掘算法[14]應用于英語文本評分的預測任務。令I={i1,i2,…,id}是特征數據中所有項的集合,而T={t1,t2,…,tN}是所有事務的集合。每個事務ti包含的項集都是I的子集。

在關聯分析中,支持度(support)和置信度(confidence)的具體表示方式為式(3)、式(4)。

(3)

(4)

式中,N表示事務的數量。

英語文本評分的支持度計算方式如式(5)。

s=|{x|x∈D,rulei∈x}|

(5)

其中,D表示訓練數據集;rulei表示D的規則。在關聯分析中集合是被視為項集(itemset)。

基于FP_Growth關聯規則挖掘的英語文本評分預測的核心步驟是構建FP-tree樹節點,以便減少所需頻繁項集的數量。事務型數據的示例如表2所示。

表2 事務型數據

FP_tree樹的節點機構如圖6所示。

圖6 FP-tree節點

3 實驗結果與分析

3.1 實驗數據和評估指標

為了驗證所提ESP測試自動評分系統的有效性,進行了具體測試。實驗數據庫為國內高校ESP口語比賽數據集中隨機選取的800道簡答題。選擇一個測試者進行現場ESP口語簡答測試,然后分別進行人工評分和音頻采集自動評分。PC端系統運行環境配置信息如表3所示。

表3 系統運行環境參數

本文自動評分系統和人工評分均采用二次加權的Kappa值[15]進行量化評估,其計算方式如式(6)。

(6)

其中,Oi,j表示分數同時為i和j的答案的數量(由兩個不同的評分人給出);w表示權重,其計算方式如式(7)。

(7)

其中,N表示評分的等級數。Kappa值越大則準確度越高。針對同一個測試者分別進行了5次人工評分和自動評分,其中每次人工評分由3個專家打分并取平均值,每次自動評分也是取3次結果的平均值。

3.2 時間和準確度

利用3.1節中數據集對基于FP_Growth關聯規則挖掘算法的ESP測試自動評分系統進行實驗,在不同最小支持度情況下系統運行時間結果如圖7所示。

圖7 運行時間分析

從圖7可以看出,隨著最小支持度逐漸增大,自動評分系統的運行時間逐漸減少。但是在支持度較大時,本文提出自動評分方法的評分精度也會有所降低,因此需要做出適當的平衡,本文選取的最小支持度為1.2%。

利用ESP口語比賽數據集和人工評分結果,對本文自動評分方法、傳統自動評分方法(VikP)和Adaboost/CT自動評分方法[9]這3種方法進行準確度分析,如表4所示。

表4 3種自動評分方法的準確度對比

從表4可以看出,對于不同的ESP題庫,雖然比Adaboost/CT方法要低,但是本文自動評分方法的準確度明顯高于傳統的VikP自動評分方法,更接近人工評分的結果。Adaboost/CT方法在準確度方面優于本文方法,這是由于其采用深度學習框架,但也導致其運行時間較長,而本文則是側重實時性,以便配合嵌入式ARM開發需求。另外,噪聲達到45左右時,會對語音測試者的識別造成明顯的干擾,識別的精度降低,導致最終的評分性能較差。

4 總結

本文提出一種基于數據挖掘和嵌入式ARM設備的英語口語自動評分系統。采用ARM開發板實現音頻信號的實時采集。調用科大訊飛API接口實現音頻文件轉換生成文本答案,并進行聚類特征提取。采用關聯規則數據挖掘技術進行預測評分。實際測試結果驗證該系統的可行性。但是語音識別時的噪聲干擾對整體性能有一定的影響,降噪問題將是后續工作重點。

猜你喜歡
數據挖掘文本英語
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
讀英語
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
酷酷英語林
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 免费亚洲成人| 欧美三级视频在线播放| 五月婷婷精品| 国产在线麻豆波多野结衣| 国产成人高清亚洲一区久久| 亚洲三级影院| 久久精品电影| 亚洲第一极品精品无码| AV片亚洲国产男人的天堂| 国产成人综合亚洲欧美在| 国产在线91在线电影| 九色国产在线| 亚洲成a∧人片在线观看无码| 亚洲天堂.com| 国产毛片网站| 国产不卡国语在线| 中文字幕久久波多野结衣 | 青青草国产精品久久久久| 99精品热视频这里只有精品7 | 久久窝窝国产精品午夜看片| 亚洲国产精品成人久久综合影院| 久草中文网| 国产欧美日本在线观看| аⅴ资源中文在线天堂| 天天激情综合| 国产SUV精品一区二区6| 最新国产午夜精品视频成人| 国产麻豆精品久久一二三| 欧美不卡视频在线| 国产成人h在线观看网站站| 乱人伦中文视频在线观看免费| 国产精品网曝门免费视频| 成年人国产网站| 国模私拍一区二区三区| 青青操国产| 看国产毛片| 国产又黄又硬又粗| 干中文字幕| 国产又黄又硬又粗| 国产成人精品日本亚洲77美色| 国产正在播放| 国产在线精品人成导航| 国产丝袜第一页| 亚洲伊人久久精品影院| 亚洲精品日产AⅤ| 狠狠亚洲五月天| www亚洲天堂| 免费 国产 无码久久久| 欧美日韩国产成人高清视频| 中文字幕亚洲综久久2021| 热re99久久精品国99热| 91视频国产高清| 国产丝袜啪啪| 国产肉感大码AV无码| 欧美伦理一区| 最新国产午夜精品视频成人| 欧美成人影院亚洲综合图| 中文天堂在线视频| 久久黄色小视频| 免费黄色国产视频| 国产乱子伦无码精品小说| 国产草草影院18成年视频| 久久精品无码中文字幕| 伊人色婷婷| 成人毛片免费在线观看| 青青草久久伊人| 亚洲国产成熟视频在线多多 | 亚洲性日韩精品一区二区| 丁香六月激情婷婷| 久久香蕉国产线| 欧美午夜视频| 精品久久人人爽人人玩人人妻| 99999久久久久久亚洲| 亚洲第一黄片大全| 亚洲精品中文字幕无乱码| 欧美一级大片在线观看| 伊人久久大线影院首页| 国产成人福利在线| 久久人人97超碰人人澡爱香蕉| 国产女同自拍视频| 国产自在线拍| 国产精品999在线|