賽題背景
書法是漢字的書寫藝術,是中華民族對人類審美的偉大貢獻。從古至今,有大量照亮書法藝術星空的經典之作,是中華文明歷經漫長歲月留下的藝術精華。
這些書法作品現在仍以各種形式呈現給世人:博物館里的字畫作品、旅游景點里的碑刻、建筑上的題詞、對聯、牌匾,甚至尋常家居里也會懸掛帶有書法藝術的字畫。在全球化、電子化的今天,書法的外部環境有了非常微妙的變化,對于年輕一代,古代書法字體越來越難以識別,一些由這些書法文字承載的傳統文化無法順利傳承。所以利用先進的技術,實時、準確、自動地識別出這些書法文字,對于記錄整理書法藝術和傳播書法背后的中國文化有著重要的社會價值。
利用人工智能技術,現在的中文識別已經有了很大的突破和極高的準確率。但是對于各種真實場景下(比如國畫背景、建筑背景)的非楷書書法識別效果不佳。本次大賽希望征集到優秀的、有創意的AI算法,解決這個問題。
任務描述
書法是中華民族文化傳承的瑰寶,希望此次大賽能夠通過人工智能算法實現書法文字的自動識別,解決實際場景中有些書法文字難以識別的問題,要求參賽者給出測試數據集中每張圖片中文字的位置及對應的內容。
本次大賽會提供已標注的訓練圖片集供參賽者開發、訓練、生成模型和算法,參賽者用開發和訓練生成的模型和算法,識別測試圖片集中每張圖片書法文字的內容以及文字對應的位置并提交競賽平臺,以參賽者提交的結果準確率作為競賽排名成績的依據。
賽題內容和方向
這套賽題完全是將傳統文化與人工智能接軌,華為云為所有參賽者提供已標注的訓練圖片集,參賽者則被推薦應用華為云一站式AI開發平臺ModelArts開發訓練生成特定的模型和算法,并憑借這些模型和算法識別測試圖片中書法文字的內容及位置,最終以參賽者提交的結果準確率作為評判成績的標準。
賽題價值
作為漢字的書寫藝術,書法是中華民族對人類審美的偉大貢獻。在全球化、電子化的今天,對于中國新生代而言,散布在各種場景間的古代書法字體越來越難以識別,一些由這些書法文字承載的傳統文化無法順利傳承。針對這個問題,作為本次大賽的出題方之一,華為云EI(企業智能)為準確、自動地識別出辨識度較低的書法文字,以便記錄整理書法藝術和傳播書法背后的中國文化的重要社會價值。本賽題聚焦人工智能方向,基于各種真實場景下(如國畫背景、建筑背景)的非楷書書法的圖片標注,華為云鼓勵參賽者利用人工智能技術,給出測試數據集中每張圖片中文字的位置及對應內容,達到精準的識別。
賽題難點
1.賽題數據為模擬古文寫作風格生成的書法類型的圖片,基本是按照文字豎列標注的。讓參賽者在領略傳統中國文化的同時系統地應用AI技術。傳統的檢測和識別方法可能很難達到較高的準確率,建議采用深度學習技術。
2.其中賽題可以分為兩部分,文字檢測和文字識別。文字是物體的一種,所以文字檢測本質上屬于物體檢測的特殊情況。物體檢測是近年來人工智能的研究熱點,參賽者可以參考通用物體檢測方法,也可以使用近年來針對文字專門優化的檢測算法。文字識別則既可以通過簡單的物體分類算法,也可以使用近年來發表的專門識別文字切片的算法。
3.賽題評判標準為文字字段識別F1值,即參賽者需要同時保證字段識別結果的precision和recall。字符和字段的precision和recall基本成正相關,故而不再單獨考慮字符識別結果F1。文字檢測結果的precision和recall則間接影響了識別結果,即間接影響了最終得分和排名。