999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的中文至拼音首字母自動轉(zhuǎn)化方法

2020-03-24 11:10:38胡升澤蔡偉柯何春輝
關(guān)鍵詞:模型

胡升澤 蔡偉柯 何春輝*

(1、國防科技大學(xué)信息系統(tǒng)工程重點實驗室,湖南 長沙410073 2、國防科技大學(xué)教研保障中心,湖南 長沙410073)

隨著搜索引擎和智能技術(shù)的快速發(fā)展,很多系統(tǒng)都集成了中文首字母快速檢索功能。較常見的有KTV 點歌系統(tǒng)中歌曲名稱的搜索以及智能電視中電視劇或電影名稱的搜索等。它不同于傳統(tǒng)的搜索引擎,為了提升用戶的體驗效果,它通常會簡化用戶的輸入操作,只需用戶按順序輸入檢索內(nèi)容的首字母,無需輸入檢索條件的全部內(nèi)容,這樣可以降低用戶的輸入難度,從而提升用戶的檢索體驗。

這種基于首字母構(gòu)建的快速檢索系統(tǒng)雖然可以大大提升用戶的體驗效果。但它也面臨著一個亟待解決的核心問題,即如何高效、準(zhǔn)確的完成中文至拼音首字母的自動轉(zhuǎn)換。眾所周知,中文是一種很特殊的語言,它除了常見的單音字之外,還包含很多的多音字。對于單音字而言,漢字至拼音首字母的自動轉(zhuǎn)換比較簡單,但是對于多音字的漢字至拼音首字母的自動轉(zhuǎn)換是一個較復(fù)雜的任務(wù),它需要依賴上下文語義信息才能正確的完成自動轉(zhuǎn)換。華逢兆采用漢字的分級結(jié)構(gòu)實現(xiàn)了漢字轉(zhuǎn)化為拼音首字母的功能[1]。這種方法雖然可以在大部分情況下完成漢字至拼音首字母的轉(zhuǎn)換任務(wù),但是它的轉(zhuǎn)換準(zhǔn)確率還有待進一步提升,尤其是面臨多音字的正確轉(zhuǎn)換顯得捉襟見肘。

近來,隨著硬件水平的提升使得深度學(xué)習(xí)算法在文本挖掘領(lǐng)域得到了廣泛的應(yīng)用[2]。因此,文章引入了深度學(xué)習(xí)算法來提升中文至拼音首字母的自動轉(zhuǎn)換性能。在數(shù)據(jù)標(biāo)注階段,將需要轉(zhuǎn)化的中文和它所對應(yīng)的拼音首字母進行編碼形成序列映射。最后用這些標(biāo)注過的數(shù)據(jù)來完成深度學(xué)習(xí)模型的訓(xùn)練。

1 中文至拼音首字母自動轉(zhuǎn)換算法

由類型來分,中文至拼音首字母的自動轉(zhuǎn)換可以歸為自然語言處理[3]中的序列標(biāo)注任務(wù)。考慮到Bi-LSTM-CRF(雙向長短時記憶條件隨機場)[4]序列標(biāo)注模型在很多任務(wù)上都取得了優(yōu)秀的表現(xiàn)。因此,文章采用了這種深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)來構(gòu)建中文至拼音首字母的自動轉(zhuǎn)換算法。其結(jié)構(gòu)如圖所示.

由圖可知,自動轉(zhuǎn)換算法一共包含了8 個層次。首先是輸入序列層,實現(xiàn)中文字符串的輸入。接下來是字符向量嵌入層,用來完成中文字符的向量化表示。核心部分是雙向長短時記憶網(wǎng)絡(luò)層,它利用前向-LSTM層和反向-LSTM層來獲取上下文的特征。其次通過隱藏層來實現(xiàn)數(shù)據(jù)轉(zhuǎn)換。再次再利用條件隨機場層給出最佳的序列預(yù)測結(jié)果。最后再結(jié)合單音字首字母映射表對預(yù)測結(jié)果中的單音字首字母進行微調(diào)并輸出最終的首字母序列標(biāo)注結(jié)果。

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)集獲取

為了驗證算法的性能,利用開源的網(wǎng)絡(luò)爬蟲工具WebMagic①從豆瓣電影②網(wǎng)站中爬取到5 萬部中文電視劇或電影名稱。此外,還融合了搜狗實驗室對外公開的精簡版③新聞數(shù)據(jù)集包含的全部中文新聞標(biāo)題共同作為模型訓(xùn)練和測試的原始語料。

Bi-LSTM-CRF 中文至拼音首字母自動轉(zhuǎn)換算法的結(jié)構(gòu)圖

2.2數(shù)據(jù)的標(biāo)注

漢字至拼音首字母標(biāo)注需要將輸入的中文漢字字符序列對應(yīng)的轉(zhuǎn)換為這些字符所對應(yīng)的拼音首字母序列的形式。根據(jù)中文的相關(guān)拼音發(fā)音標(biāo)準(zhǔn),約定整個標(biāo)注數(shù)據(jù)中只包含24 類不同的字符標(biāo)簽。這些標(biāo)簽分別為3 個單韻母和20 個聲母以及1 個非中文的統(tǒng)一映射符。像電視劇名稱“《快樂成長》”,就將它對應(yīng)的字符序列標(biāo)注為“-KLCZ-”。因為整個數(shù)據(jù)集較大,其中將80%作為訓(xùn)練數(shù)據(jù)集,15%作為驗證數(shù)據(jù)集,5%作為獨立測試集。在數(shù)據(jù)標(biāo)注階段,文章借助了中文到拼音開源的自動轉(zhuǎn)換工具HanLP 并結(jié)合人工校正的方式來完成數(shù)據(jù)的標(biāo)注。最后,使用上述標(biāo)注方式得到的標(biāo)注數(shù)據(jù)來完成深度學(xué)習(xí)模型的訓(xùn)練、驗證和測試。

3 實驗分析

3.1 評測指標(biāo)

在文章的實驗評測環(huán)節(jié),采用平均準(zhǔn)確率來評估模型的性能。準(zhǔn)確率的定義如下:對于一個輸入的中文序列,如果拼音首字母自動轉(zhuǎn)換方法能將它映射成一個完全正確的首字母序列,意味轉(zhuǎn)換成功,只要轉(zhuǎn)換結(jié)果中包含一個錯誤首字母意味轉(zhuǎn)換失敗。對于平均準(zhǔn)確率的計算,需要統(tǒng)計所有參與評測的樣本總數(shù)中轉(zhuǎn)換成功的數(shù)量,并用它除去參與評測的樣本總數(shù)。它的計算公式如下:

3.2 實驗結(jié)果

為了充分的驗證模型性能,采用獨立測試數(shù)據(jù)集對條件隨機場、Bi-LSTM-CRF 以及結(jié)合單音字首字母映射表進行微調(diào)的Bi-LSTM-CRF 這3 種不同的模型進行了實驗對比,并結(jié)合平均準(zhǔn)確率指標(biāo)對不同模型的性能進行評估。相關(guān)的實驗結(jié)果如表所示。

不同模型在獨立測試數(shù)據(jù)集上的實驗結(jié)果

根據(jù)表的實驗結(jié)果可知,不同模型之間存在一定的差距。CRF 的平均準(zhǔn)確率為94.1%,Bi-LSTM-CRF 模型取得了99.3%的平均準(zhǔn)確率,但是在結(jié)合單音字首字母映射表進行微調(diào)后,微調(diào)的Bi-LSTM-CRF 模型的平均準(zhǔn)確率高達99.7%。

4 結(jié)論

在中文至拼音首字母自動轉(zhuǎn)換任務(wù)上,文章提出了基于深度學(xué)習(xí)的中文至拼音首字母自動轉(zhuǎn)換方法,實驗結(jié)果表明這種方法可以有效的提升多音字的轉(zhuǎn)換準(zhǔn)確率,且在融入單音字首字母映射表后可以有效提升中文至拼音首字母轉(zhuǎn)換模型的性能。

注釋

①https://www.oschina.net/p/webmagic.

②https://movie.douban.com/.

③https://www.sogou.com/labs/resource/cs.php.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美在线一二区| 手机在线国产精品| 国产成人禁片在线观看| 国产亚洲高清在线精品99| 午夜福利网址| 被公侵犯人妻少妇一区二区三区| 91最新精品视频发布页| 91精品情国产情侣高潮对白蜜| 国产一级妓女av网站| 情侣午夜国产在线一区无码| 久久中文无码精品| 久久国产黑丝袜视频| 刘亦菲一区二区在线观看| 四虎免费视频网站| 亚洲成人在线免费| 国产白浆在线观看| 国产9191精品免费观看| 国产H片无码不卡在线视频 | 国产在线日本| 免费国产小视频在线观看| 国产成人91精品| 91精品国产麻豆国产自产在线| 亚洲中文字幕在线观看| 亚洲日本韩在线观看| 狠狠五月天中文字幕| 91久久偷偷做嫩草影院精品| 亚洲欧美成人| 国产亚洲视频免费播放| 欧美亚洲另类在线观看| 热久久综合这里只有精品电影| 首页亚洲国产丝袜长腿综合| 3344在线观看无码| 天堂中文在线资源| 青青网在线国产| 免费无码网站| 在线中文字幕日韩| 国产麻豆福利av在线播放| 成人av专区精品无码国产| 久久 午夜福利 张柏芝| 97成人在线视频| 亚洲成人黄色在线| 亚洲欧美自拍中文| 亚洲AV无码一二区三区在线播放| 色欲色欲久久综合网| 国产在线精品美女观看| 久久成人18免费| 国产精品美女网站| 欧美一级高清片欧美国产欧美| 亚洲男人的天堂在线观看| 伊人久久婷婷| 亚洲女同一区二区| 激情无码视频在线看| 91精品小视频| 亚洲va欧美va国产综合下载| 在线国产毛片| 97国产在线观看| 国产精品网拍在线| 午夜国产精品视频黄| AⅤ色综合久久天堂AV色综合 | 国产精品永久不卡免费视频| 国产三级毛片| 亚洲精品爱草草视频在线| 国产三级国产精品国产普男人| 青青草原国产| 黄色网在线| 特级做a爰片毛片免费69| 亚洲国产高清精品线久久| 69免费在线视频| 亚洲精品高清视频| 国产成人亚洲日韩欧美电影| 91丝袜乱伦| 亚洲国产AV无码综合原创| 国产全黄a一级毛片| 国产主播一区二区三区| 久久久久夜色精品波多野结衣| 超碰91免费人妻| 最新加勒比隔壁人妻| 99视频免费观看| 国产欧美日韩另类| 免费国产高清精品一区在线| 日韩精品一区二区三区swag| 国产福利拍拍拍|