
書名:《文字書寫系統的計算理論》
作者:史伯樂(Richard Sproat)
出版社:北京大學出版社
ISBN:978-7-301-17155-4/H·2496
出版時間:2010年8月
定價:34元
21 世紀是一個符號化的信息時代,文字和符號日益成為記載和傳遞信息的重要載體。因此,文字日漸廣泛存在于各種場景中的各類物體之上,如路標、車牌、食品包裝等。如今,人工智能發展迅速,并漸漸被廣泛應用到各個領域中。人工智能在未來的社會中將發揮著不可替代的作用,然而人工智能離不開場景文字書寫識別。
由史伯樂(Richard Sproat)著,北京大學出版社2010 年8 月出版發行的《文字書寫系統的計算理論》一書以文字書寫系統為研究對象,深入剖析其計算理論。該書圍繞兩大論點展開論述:(一)詞形與書寫規則的映射是一種正則關系;(二)一個特定的語言書寫系統與其表達的語言學信息具有一致性。作者首先提出論點,接著以實例的形式從不同角度加以論證。具體內容涵蓋書寫系統的正則性、特定文字語言學信息表達及其一致性問題、常用的文字體系等多方面知識。該書結構層次清晰,中心明確,條理性、理論性、實用性較強,對場景文字書寫識別研究者探究神經網絡環境下場景文字書寫識別具有一定積極意義,可供其參閱。
場景文字書寫識別要通過計算機視覺進行識別、轉換,理解圖片上的文字,是計算機視覺技術中的重要組成部分。人們通常將識別圖片文字的技術稱為光學字符識別,簡稱OCR。傳統OCR 主要以掃描文檔圖片為主,成像過程容易受限,識別方法主要依靠二值化等技術。場景文字識別是對傳統OCR 的繼承與發展。較傳統OCR 而言,場景文字的排布、背景、字體、顏色等都更為復雜,因而在識別方面也更具挑戰性。近年來,在神經網絡的興起下,計算機視覺行業中的許多問題因此得到了有效解決。神經網絡是一種以模擬人腦神經網絡為基礎的機器學習技術。它的結構靈活,特征學習能力強,可進行端到端的訓練,因而成為場景文字識別的得力助手,在場景文字書寫識別過程中具有不可忽視的作用。在國家社會科學基金項目(16XYY009)資助下,通過對場景文字書寫識別進行探究,加深人們對網絡神經背景下場景文字書寫識別的了解,以期促使人們能合理利用網絡神經對場景文字進行識別。
文字檢測是場景文字書寫識別的第一步。片段鏈接是快速進行文字檢測的一種方法,其核心是對文字進行拆解,將其分為片段和鏈接兩大元素。片段是一個局部包圍盒,用于覆蓋一小部分單詞或者文本行,常用一個帶有角度的矩形框進行表示。矩形框與文字的高度差不多,但每個矩形框的長度只占整體長度中的一部分。如crocs 這個單詞可拆解為五個片段,每個片段包含一個字母。由于每個字母的長度不同,故其矩形框長度也有所不同,c 的長度比r 長,因此其矩形框也比r 長。鏈接是指將兩個相鄰的片段連接起來,通過片段連接組成一個完整的文字,能相連的片段表示是同一個部分的,不能相連的片段則表示不同部分。如c、r、o、c、s 這五個片段能連接起來組成crocs 這個完整而有意義的單詞,這表示c、r、o、c、s 屬于同一個部分。在進行文字檢測時,算法通過全面檢測片段,將兩個相連片段連接起來,并以幾何規則為依據將相連片段整合為一個整詞的包圍盒,從而獲取檢測結果。該種方法最大的優勢是它可以對長文本或非水平長詞進行檢測。
經過文字檢測后,接下來就是對文字進行識別。CRNN 是能進行端到端訓練的一種文字識別技術。它最大的優勢是無需逐一對單個字符進行標注,能直接對文本與相應的標簽進行訓練。CRNN主要由卷積神經網絡、循環神經網絡和翻譯層組成。卷積神經網絡主要對卷積特征圖進行分析、整理,并提取特征序列。循環神經網絡負責檢測卷積神經網絡提取的特征序列,并輸出檢測結果。翻譯層則負責對檢測結果進行翻譯。這樣就完成了對場景文字的識別,從而為場景文字書寫奠定良好基礎。然而場景文字書寫識別探索之路漫漫,需要研究者不斷探究,通過不斷學習,掌握相關知識,增強自身專業素養,從而更好地運用神經網絡推動場景文字的書寫識別。