999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對文本分類算法選擇和數據標注的研究

2019-07-20 13:24:35王悅林
電子技術與軟件工程 2019年10期
關鍵詞:主動學習

王悅林

摘要:本文針對層出不窮的文本分類需求,重點針對基礎算法和數據標注進行了研究。

[關鍵詞]自然語言處理 文本分類 主動學習

1 文本分類引擎

對于一個文本分類項目,在架構上分為數據處理、文本分類、文本挖掘和結果展現四個部分。本文著重在分類引擎的設計上。

引擎需要考慮的因素很多,基于目前的技術發展,以下幾點需要重點考慮并解決:

(1)分類效果如何評價。

(2)如何選擇基礎算法。

(3)如何減少標簽數據量。

(4)如何處理訓練數據的不均衡。

(5)如何處理多達幾十上百的類別。

篇幅所限,本文重點關注算法選擇和數據標注

2 自然語言處理算法選擇

從2013年Word2Vec開始,可以選擇的常用基礎算法有GloVe,FastText,ELMo,GPT1.0,BERT,Bert as a service,MT-DNN,GPT2.0等等,最近一段時間發展的速度令人咋舌。具體如何進行選擇呢?

首先要選擇句子級別的算法,因為詞級別算法沒有考慮詞之間的關系和語序,不僅處理不了語義組合、多義詞、轉折、依賴等各種語言學上的語法現象,連簡單的語序也處理不了,我欠你一百萬和你欠我一百萬這種在語義上/現實社會中巨大的差異被忽視,語言處理能力較低。

其次要選擇預訓練模型,而不是從零開始構建。動輒幾億參數的預訓練模型以多層的神經網絡結構和巨大的訓練數據量,已經學會了大量的語言知識,具有了超凡的語言理解能力。而且這類模型很多公司從成本角度是無法自己訓練的,站在巨人的肩膀上會是明智的選擇。

再次,從實際應用的角度,算法是否易用,網絡資料是否齊全,也是要考慮的因素。因此上述的各種選擇中,基于Transformer/Self一Attention,并能提供下游任務接口的BERT就成為不讓之選。

3 高成本的數據標注

AI目前整體上還是處于弱人工智能階段,簡單說就是有人工才有智能,只有人類教會機器/算法如何工作,機器/算法才能分辨出不同的類別。這個教的具體動作,就是提供打好標簽的數據來訓練模型。大家常說的數據是基礎,數據是燃料,數據是動力都是這個意思。

而給數據打標簽的工作,也是目前人工智能領域的痛點之一,還催生了專門做數據標注的公司。常有人抱怨人工智能的項目一半以上的時間和費用都投入到了做數據標注上。

那么有沒有技術上的方法來減少這種痛苦呢?有,那就是主動學習(Active Learning),其目的不是不再標注數據,而是大大減少標注的數據量。其基本的原理是,通過人工智能的方法來主動選擇出標注意義更大的數據,以達到用一半的數據標注就能訓練出滿意效果的目的。

此方法的理論依據是標注數據量和模型正確率之間的關系。人們往往以為隨著數據量的增長,準確率會持續提升,其關系是向右上方升起的一根直線,即線性關系。而根據實際試驗,兩者的關系是一條弧線,在初始階段隨著標注數據量的增長,多次訓練的準確率會大幅提升,之后增幅就逐漸減小,效果越來越不明顯。

如何主動學習呢?方法很多,使用算法和信息熵迭代操作會大大提升效率。具體步驟說明如下:

第一個啟動模型采用遷移學習的思路,選擇其它項目的成熟模型作為啟動點。由于每個項目的具體分類不同,模型不能重用,但舉例來說,對洗衣機的負面評價判別模型,用在冰箱評價上也是一個好的起點,比起從零開始構造模型,會大大減輕工作量和縮短項目時間。

以遷移過來的模型作為初始模型,對全部沒有標注的數據直接分類。由于沒有標注,分類結果無法判斷對錯,但是每一行數據的分類結果可以生成總和為一的概率分布,而排在第一位的概率數字代表了模型對于分類的信心。概率越高,確定性越大,則信息熵越小,而我們需要挑選出來的是信息熵最大的那一批數據,對其進行標注。如果最難分類的數據都被成功歸屬到了正確的類別,那么其它數據就更容易分類了。這樣標注的數據就不再是隨機進行選擇,而是被精準定位,從而大大降低標注量。

用第一批標注的數據來訓練出第一個真實模型,而用此模型來挑選出下一批需要標注的數據,多次重復此過程,直至準確率曲線不再升高,或升高的幅度不值得再投入人員和時間進行標注,就結束模型訓練,完成分類任務。

參考文獻

[1]AshishVaswani et al.Attention is All You Need. arXiv 1706.03762.

[2]Jonas Gehring et al.Convolutional sequence to sequence learning.arXiv:1705.03122.

[3]Yonghui Wu et al. Googles neural machine translation system:Bridging the gap between human and machine translation. arXiv:1609.08144.

[4]Christian Szegedy et al.Rethinking the inception architecture for computer vision.CoRR,abs/1512.00567.

[5]Jacob Dev1in et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv 1810.04805.

[6]Denny Britz et al. Massive exploration of neural machine translation architectures.CoRR,abs/1703.03906.

猜你喜歡
主動學習
淺談《住宅空間設計專題》的教學改革
幼兒教育中實施素質教育的研究
成才之路(2016年36期)2016-12-12 14:17:24
小組合作學習在小學音樂課堂教學中的運用
如何在美工活動中引導幼兒主動學習
促進小學生主動學習
打造快樂體育課堂引導主動體育學習
淺談音樂課堂中的教與學做到合一
東方教育(2016年16期)2016-11-25 03:06:31
發揮家庭小實驗的功能 提高學生的實驗能力
高中生物教學中學生主動學習策略研究
人間(2016年28期)2016-11-10 22:12:11
數字電路課程的翻轉課堂教學及調研
計算機教育(2016年7期)2016-11-10 08:44:58
主站蜘蛛池模板: 国产成人精品18| 国产欧美视频一区二区三区| 老熟妇喷水一区二区三区| 中文精品久久久久国产网址| 成人福利视频网| 91热爆在线| 日本三级黄在线观看| 国产日本欧美在线观看| 91成人免费观看| 国产成人91精品| 久一在线视频| 午夜精品区| 国产精品一区二区无码免费看片| 国产福利观看| v天堂中文在线| 老司机精品99在线播放| 玖玖精品视频在线观看| 亚洲成人在线网| 特黄日韩免费一区二区三区| 国产在线一二三区| 国内自拍久第一页| 伊人天堂网| 亚洲视屏在线观看| 日韩成人免费网站| 国产香蕉一区二区在线网站| 呦女亚洲一区精品| av天堂最新版在线| 九色91在线视频| 色一情一乱一伦一区二区三区小说 | 国产特一级毛片| 亚洲一区二区三区在线视频| 国产高清国内精品福利| 在线视频亚洲色图| 国产欧美精品午夜在线播放| 波多野结衣无码视频在线观看| 国产成人无码AV在线播放动漫| 色老头综合网| 国产精品手机视频一区二区| 亚洲全网成人资源在线观看| 中文字幕调教一区二区视频| 亚洲人在线| 日韩美毛片| 伊人久久大香线蕉成人综合网| 亚洲成av人无码综合在线观看| 色精品视频| 97se亚洲综合在线韩国专区福利| 女人18一级毛片免费观看| 日本人妻丰满熟妇区| 亚洲色图欧美视频| 激情无码字幕综合| 国产福利一区视频| 亚洲精品视频免费| 国产精品刺激对白在线| 国产乱子伦精品视频| 99视频国产精品| 国产亚洲精品91| 欧美h在线观看| 国产国产人在线成免费视频狼人色| 国产男女免费视频| 欧美一区日韩一区中文字幕页| 啪啪啪亚洲无码| 国产在线自揄拍揄视频网站| 国产99视频免费精品是看6| 亚洲av无码久久无遮挡| 国产尤物视频网址导航| 日韩欧美一区在线观看| 亚洲青涩在线| 小说区 亚洲 自拍 另类| 久久一本精品久久久ー99| 亚洲综合中文字幕国产精品欧美| 婷婷六月综合| 日韩高清在线观看不卡一区二区| 四虎影视永久在线精品| 日韩性网站| 啦啦啦网站在线观看a毛片| 99视频全部免费| 伊人久久久大香线蕉综合直播| www.亚洲色图.com| 国产成人凹凸视频在线| 18禁影院亚洲专区| 婷婷六月综合网| 亚洲欧美另类日本|