999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI 文字識別技術在城市規劃檔案數字化中的運用

2022-05-10 09:10:02路燕
科學技術創新 2022年14期

路燕

(東華工程科技股份有限公司,安徽 合肥 230000)

城市規劃檔案是當地規劃部門按照現行法律規定,實施規劃審批、管理等有關工作的重要依據,還是衡量工程是否滿足有關標準的主要證據。目前,城市規劃檔案信息不斷增多,原本的查詢檢索方式對檔案資料的應用,帶來諸多不便,而應用AI 文字識別將檔案進行數字化處理,能有效解決以上問題。

1 紙質檔案數字化

數字化轉變的基本程序涉及到文件掃描、圖像處理及儲存等。具體操作是把檔案文件平整鋪在固定位置,通過高拍儀實現快速翻頁,照相機則同步拍照掃描,對得到的圖像實施智能化糾偏,形成PDF 格式的附件文檔。在現有的紙質檔案中,使用的紙張尺寸可能達到A3,甚至更大,鑒于此類尺寸的檔案并不多,因此在實踐中,會選擇使用數碼相機處理,將得到的照片插入相應的PDF 文件里。在掃描工作結束后,會按照具體的類型,分別保存在不同的位置,依托于后臺服務器,將檔案信息和附件對應起來。

2 城市規劃檔案中運用AI文字識別技術的可行性

其一,準確性。在我國部分地區的城鄉規劃檔案處理中,AI 文字識別基本上可以準確識別出至少70%的手寫文字,如果是通用印刷體,識別精準度能超過90%。其二,數字化效率。根據當下既有的文字識別方法,平均每個字符耗用的時間大致在2ms 左右,每件檔案一般會消耗3min 左右的時間。包括數據傳輸、格式調整、文字識別與人工校準多個環節。假設使用AI 文字識別,能進一步壓縮數字化處理的時間。其三,穩定性。AI 文字識別可以把各類格式的圖片與文字,在整理表格中,識別出圖像包含的表格數量,同時完成準確切割,保障處理后的圖像可以保障表格信息的完整性。其四,針對性。AI 文字識別運用到城市規劃檔案工作中,可提供自主模板設置,基于檔案的實際樣式,選擇合適的模板,在大體上可以適應城市規劃檔案內容提取、補錄的工作需要。

3 AI文字識別技術的有關討論

3.1 Tesseract

Tesseract 來自谷歌,該項文字識別引擎應當是近年來,識別率與成效相對靠前的方法,其對文字的識別準確率較高,并且擁有良好的移植性。因為此項技術能夠自建訓練庫,所以可以根據城市規劃檔案的處理需要,對文字識別引擎實施訓練,并能準確識別出不同的字體和符號。其引擎功能優秀,基本上包含分析聯通區域、確定塊區域、確定文本行與單詞、得到識別內容。(圖1)

圖1 Tesseract 框架圖

3.2 百度OCR 文字識別

百度OCR 文字識別屬于我國的老品牌,已經擁有龐大的用戶群體,并借此得到訓練集,依托于算法設計,在我國文字識別行業中排在前列。和上文的Tesseract 相較,百度OCR 可以提供更加準確的服務方案。由于Tesseract 在圖像預處理中有較好的表現,因而使用百度OCR 進行API 中,還是把圖像預處理部分交給Tesseract,由此保障整個處理過程的準確性。

3.3 圖像預處理

首先,圖像灰度化。計算機行業中,灰度數字圖像代表一個像素就能對應一個采樣顏色。擁有該特性的圖像,通常是有亮度最小(黑色)至亮度最大(白色)的灰度,從理論角度來說,雖然該種情況可能是任何顏色的各個深淺程度,也能是各類亮度中的不同色彩。而灰度圖像和黑白圖像之間存在根本上的不同。對于計算機來說,黑白圖像僅包含黑與白兩個色彩,而灰度圖像則包含黑和白之前的各種色彩深度。灰度化處理變化把一張包含多種顏色的圖像,轉化成僅具備灰度值的灰度信息。彩色圖像的基本分量,包含R、G與B,各自對應紅、綠、藍,而灰度化處理過程,便是將顏色三個分量進行等量處理。灰度值更大的像素點,會更亮(白色是像素值最大的顏色,是255);灰度值低,就會相對更暗(黑色是最小的像素,是0)。完成灰度化處理的算法,具體選擇如下:

其一,最大值法。把通過轉換的三個分量,取得的值轉化為前三個值里最大的一項,借此可得到亮度相對最高的灰度圖像。用公式表示就是:

式中,ωR、ωG、ωB各自對應R、G與B的權值,在選定不同值的情況下,能得到差異化的灰度圖像。因為人類肉眼對紅、綠與藍的敏感度排列是:綠大于紅大于藍,所以,在設置權值中,會根據上述大小情況,進行調整,這樣能獲得識別難度更低的灰度圖像。在檔案管理中,三者一般設置的權值分別是:ωR=0.2999、ωG=0.587、ωB=0.114。對于城市規劃檔案,其中有大量白底黑字的文件,使用高拍儀提取圖像中,可能會受到光線等條件的干擾,出現明顯色差,不利于信息識別,所以,要實施灰度化處理。

其次,圖像降噪。掃描件因為硬件自身的問題,圖像上會帶有諸多噪聲點,對于該種情況,Tesseract 是借助高斯低通濾波加以處理,提高圖像質量。高斯低通濾波裝置是基于高斯函數的線性平滑裝置,而所謂的高斯函數屬于密度函數,為正態分布。因此,該裝置面對服從正態分布的噪聲,有著姣好的處理效果。一維與二維的高斯函數如下:

式中,δ 是標準差。因為檔案圖像一般是二維內容,所以圖像去噪一般應用二維高斯函數。鑒于高斯函數存在可分離性,因而需對行實施高斯濾波,而后處理列的部分,利用該種處理方式,把二維高斯函數調整成一維的高斯濾波。在此函數中,標準差提高,整條曲線會更加平滑;降噪處理程度更高,圖像會更加模糊。

最后,二值化。圖像二值化過程,是把像素點灰度值處理成0 及255,讓最后保存的圖像僅包含黑白兩個顏色。根據自適應閾值的算法,按照像素灰度值,把圖像分成前景與背景,經過計算確定二者方差,以此得出差異的顯著性,最終通過篩選對應方差實現最佳類別劃分的界限,將此視為最佳預制。將灰度圖像大小設成w*h,這與像素數量對應。類別劃分的閾值是threshold,將小于此閾值的全部像素,當成前景,超過的部分則是背景。圖像總體平均灰度的表達式是:

式中,μ 是圖像總體平均灰度;ω0是前景像素數目的比例,對應的平均灰度是μ0;ω1是背景像素數目的比例,對應平均灰度是μ1。在系統分析中,會對比圖像所有灰度值,得出相應的方差,繼而確定出最佳閾值,由于方差在整個處理環節中,僅是用于對比,因此,直接將其用像素數量代替。通過二值化處理后的掃描件,能得到黑白分明的表格如下:

表1 二值化處理后的表格

4 城市規劃檔案數字化識別系統分析

4.1 系統概述

針對某城市規劃中的建筑項目進行整合,既有紙質檔案中僅有界址點。倘若在轉化成電子檔案中,只利用人工錄入,顯然是不夠高效的,對此依托于OCR 技術與其他有關手段,設計識別系統。硬件上,為準確識別出紙質資料里的界址點,配置掃描儀等設備。開發及運行平臺選擇戴爾z230,而高拍儀選擇寶 碁·點易拍E1200DS,此款儀器的主攝像頭與副攝像頭,像素分別是1000 萬與200 萬,能運用自然光線與LED等。根據基本參數來說,能適應檔案成像需要。系統軟件方面的配置,見表2。

表2 軟件配置

城市規劃檔案的數字化處理過程是:利用文字識別手段,提取界址點內容,由此得到地圖。使用高拍儀把紙質檔案文件中所有包括界址點內容的頁面,經過掃描保存,而后讀取圖像內容,根據檔案基礎版面,確定X與Y的數據。通過文本進行切割,提取X和Y。基于特征分析與神經網絡,把X和Y轉化相應的坐標,保存在Excel 表格。而后利用圖像生成軟件,讀取表格內容,最終取得圖像。

圖2 系統運行流程圖

4.2 系統功能

基于前文對檔案文字識別系統的概述,整體可分出幾個模塊,即圖像裁剪、版面分析、字符處理、生成表格等模塊。

4.2.1 圖像裁剪

由于檔案圖像中的多余內容,會對提取坐標信息的準確度有干擾,所以在分析版面以前,需全面處理,確保圖像里僅包含界址點的內容。高拍儀最初拍到的圖像信息見表3。經過圖像識別,把圖像進行分割。在紙質版檔案中,序號位置通常是有裝訂孔,而邊長對地圖沒有價值,因而,可直接把二者切掉,最終得到圖像信息。

表3 包含界址點的圖像內容

4.2.2 版面分析

保存于Excel 表格中的版面結構,使用幾何結構與邏輯結構表示。其中,前者是對各個單元格位置實現定位與切分。而版面分析便是對掃描件實施分割,進一步識別X與Y坐標。本文此處以top-down 為例,基于對圖像所有數據實施分析,根據得到的結果對文件實行切分。此種處理方式比較簡便,主要用在只包括界址點內容的檔案。

4.2.3 字符處理

字符切分環節視為把掃描件所示的所有數字均提取出來,得到若干數字圖像,假設不能正確切分,在后續環節中就無法確定數字特征,這會影響文字識別的準確度。檔案數字化處理中,會由于某些問題干燥,導致切分處理更加復雜,比如手寫字體差異、大小不同等。目前可用在字符切分中的算法角度,此處以按照連通域進行切分的方法為例。簡言之,一個數字可以形成相應的連通圖像域,在確定各自行、列的起止位置,便能提取出一個矩形,實現字符切分。此處采用CFS分割法,整個運行流程為:把經過二值化處理的圖像,由左至右,由上到下全面掃描遍歷,假設存在黑色像素,而且從未被訪問過,可直接將其標記成“已訪問”;假設棧不為空,需要向周圍據需探測其他像素,重復以上步驟,但如果棧可以是空的,說明當前已經探測好一個字符塊;探測任務完成后,便能得到相應數量的字符。目前,AI 發展迅猛,該領域內的諸多廠商,都已經推出比較完善的文字識別計劃,此處以百度OCR 為例,分析其識別的過程,針對數字部分,運用表格文字識別的方法。

4.2.4 生成表格

提取到的界址點坐標數據要借助Python 保存,支持生成地圖。此處選用該項技術中的xlwt(xls 文件,write 庫)保存表格。整個處理流程為:導入界址點坐標數據;創建工作表;填寫數據;保存。(圖3)

圖3 生成表格流程圖

4.2.5 生成地圖

在城市規劃檔案管理機構中,計算機配置相近,既有軟件也基本相同,如果原本的ArcGIS Desktop 均是10.0,使用C#比較合適,再加上操作頁面具有可視化的特點,能支持大部分工作者使用。在城市規劃檔案的處理中,此文所述系統主要涉及到兩個類庫:Geometry類庫與System 類庫。前者可以處理保存于特征類以及其他圖像要素里的geometry與shape。大部分用戶涉及到的幾何對象包含Point、Polygon等。在此類頂層實體意外,還存在各類幾何體。GIS采集到的的實體均具備現實存在的特點,其方位是按照所在空間參照的幾何體進行定義。在Geometry 庫內,含有投影與地理系統的相應參考對象。在研究系統中,可以選擇從空間參考方向入手,逐漸拓展空間參考的范圍,由此保障儲存內容的完整性與全面性。而后者屬于ArcGIS系統,并未與最底層。該類庫可提供所在系統內其他類庫服務功能的相應組件,在此類庫下,定義出大多數開發人員能實現的接口,例如,AoInitializer 對象,開發者應運用此對象,實現初始化。但開發者不可將該類庫進行拓展,可以選擇利用此類庫內包括的接口,把ArcGIS系統進行有效拓展。在系統運行后,讀取經過OCR 識別的全部表格文件,提取其中的界址點內容。建立SHAPE 圖層,根據地號設置名稱。因為通過OCR識別得到的表格已經用地號命名,所以此處無需更改。而后定義坐標系、創建圖層,呈現出經緯度。在點繪制成線后,利用ring函數,得到Polygon,保存在相應的文件夾內。

綜上所述,AI 文字識別能為檔案工作提供技術幫助,將紙質檔案快速轉化成電子文件。實踐中,在保障檔案文字識別、糾錯準確的技術上,還需保證檔案資料安全,針對數字化內容開展全面保密檢查,為城市規劃檔案管理夯實基礎。

主站蜘蛛池模板: 午夜激情福利视频| 国产美女在线观看| 黄色网站在线观看无码| 亚洲天堂日韩在线| 国产精品妖精视频| 亚洲va精品中文字幕| 欧美亚洲日韩中文| 国产主播一区二区三区| 亚洲国产成人麻豆精品| 亚洲天堂久久久| 蜜芽一区二区国产精品| 国产精品亚洲五月天高清| 国产一区在线视频观看| 亚洲欧美日韩高清综合678| 幺女国产一级毛片| 99中文字幕亚洲一区二区| 国产9191精品免费观看| 久久久久国产一级毛片高清板| 国产女人18水真多毛片18精品| 久久男人资源站| 国产91久久久久久| 在线欧美一区| 免费A级毛片无码无遮挡| 9久久伊人精品综合| 亚洲嫩模喷白浆| 在线无码九区| 91极品美女高潮叫床在线观看| 四虎影视无码永久免费观看| 国产免费看久久久| 欧洲一区二区三区无码| 波多野结衣在线se| julia中文字幕久久亚洲| 在线播放精品一区二区啪视频 | 57pao国产成视频免费播放| 欧美成人免费| 久久国产亚洲偷自| 2020久久国产综合精品swag| 亚洲成人手机在线| 99热这里只有精品免费国产| 欧美视频在线不卡| 91在线丝袜| 亚洲av无码人妻| 四虎国产永久在线观看| 国产黄在线免费观看| 国产剧情一区二区| 97se亚洲综合在线天天| 亚洲欧美自拍中文| 视频在线观看一区二区| 精品自拍视频在线观看| 香蕉蕉亚亚洲aav综合| 免费观看国产小粉嫩喷水| 国产成人精品18| 狠狠干欧美| 国产美女91呻吟求| 国产真实自在自线免费精品| 日韩AV无码一区| 成人91在线| 国产美女在线免费观看| 91一级片| 国产精品无码一二三视频| 午夜国产在线观看| 伊人色天堂| 青草视频免费在线观看| 国产精品男人的天堂| 91成人在线观看视频| 毛片国产精品完整版| 国产精品视频观看裸模| 玖玖精品视频在线观看| 国产丰满成熟女性性满足视频| 亚洲一级色| 蜜桃臀无码内射一区二区三区 | 亚洲日韩Av中文字幕无码| 欧美国产精品不卡在线观看 | 国产综合精品日本亚洲777| a在线观看免费| 99久久免费精品特色大片| 欧美综合在线观看| 99久久这里只精品麻豆 | 久久久久国色AV免费观看性色| 国产毛片高清一级国语| 无码久看视频| 青青操国产视频|