999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據中拼寫錯誤的檢查與糾正

2018-05-30 11:00:12鐘聲黎苗苗
報刊薈萃(上) 2018年5期
關鍵詞:數據庫

鐘聲 黎苗苗

摘 要:隨著我們社會信息的日趨復雜,人們在制作個人信息時難免出現一些拼寫格式上的錯誤。這些錯誤雖小,但常常給人們帶來不必要的損失。隨著科學技術的發展和統計學習方法的有效應用,近年來,自然語言處理技術已經成為語義搜索以及人工智能的重要研究方向。自然語言處理的重難點是對英文文本中單詞與語法的錯誤進行檢測與糾正。本論文基于kettle這個最新軟件,通過將數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程,對數據進行統一的格式處理。

關鍵詞:數據庫;JAVA;kettle

一、系統背景

近些年隨著科學技術的日益發展,新的技術更新換代,眾多領域如語音識別、OCR識別都對拼寫錯誤展開了迫切的研究。令人欣慰的是已經有部分成果轉換成了商品。在全球范圍內,我們能看到Expert Ease公司推出的Deal Proof產品。這款產品嵌入了英文拼寫檢查功能。與此同時,Newton公司推出的Proofread產品也同樣具有英文單詞拼寫檢查系統。

本文首先介紹英文拼寫檢查中的錯誤類型以及檢錯糾錯方法,并利用一種方法及其改進算法實現一簡單的英文拼寫檢查系統。

二、系統目標

三、應用技術介紹

(1)java技術。Java語言以它獨特的魅力贏得了世界上大部分程序員的認可,他良好的跨平臺性,可移植性,安全性等優點使之風靡全球。SUN公司(2009年4月并入甲骨文公司)最初開發Java語言是為了解決智能家用電器的控制和通信問題。隨著Internet的發展,Sun公司逐步將Java語言改造成適合計算機網絡應用的程序設計語言。目前Java語言已經成為網絡程序設計的主流編程語言之一,在全球云計算和移動互聯網的產業環境下,Java更具備了顯著的優勢和廣闊的發展前景。

(2)Kettle技術。Kettle這個單詞翻譯成中文名字為茶壺的意思,是BI為解決pentaho項目設計的一個子項目,作為一項專業的ETL工具,目前的易用性不是特別好,但是相對于其他的ETL工具,Kettle工具除了開源免費以外,它的功能性,穩定性還是很不錯的。此外,由于整個pentaho平臺都是使用java語言進行開發,所以Kettle本身就具備了跨平臺性的特點,編輯出來的成果也能在各個操作系統上正常運行,這是Kettle軟件最大的優點。同時,ETL工具采用JDBC標準,對數據庫的兼容性要比ODBC、OLE/DB工具要好得多。Kettle工具由四個部分:Chef,Spoon,Kitchen,Pan組成。這四個部分聽起來名字有點奇怪,更像是一些廚房用具,那么組成Kettle工具的四個部分分別是什么東西呢,官方文檔給出了這樣的解釋:

kettle是一個ETL工具,名字是“Kettle E.T.T.L. Environment”的首字母組成的縮寫,chef是用來設計job的一個圖形用戶界面,設計出來的job是用放到ketchen里面執行的,spoon是來設計transformation的GUI,然后transformation是放到pan里面執行的,kitchen和pan說白了就是執行我們編出來的ETL包的工具,因為kettle是跨平臺的嘛,所以把執行環境獨立出來,我是這樣理解的。

上面提到了transformation和job這兩樣東西,在Kettle中的一個ETL包其實就是一個job,而一個job則由一個或者多個transformation組合而成。在transformation中則包含了數據的輸入輸出、轉換、連接、聚合等各種判斷處理綜合在一起。而我們實現FTP/HTTP傳輸、外部程序調用和執行Ttransformation等都是我們的job的組件。

(3)SQL數據庫。簡單的來說數據庫就是指數據倉庫的意思,即一個存放數據的地方。我們周圍有很多東西都是有數據庫的蹤跡。例如我們手機的通訊錄就是一個小的數據庫,而我們的圖書館則更像一個大型數據庫。較小的數據庫可以用手工實現增刪改查的應用,但是大型數據庫的管理必須依托計算機的高精準計算。目前計算機主要應用的三大領域:數據處理、科學計算、過程控制中,數據處理所占的比重達到了70%。數據庫技術也在20世紀60年代作為最新技術應運而生。

(4)項目管理工具。Microsoft Project 2003 里面所有的項目信息都是集中有序的管理的,進而為所有的項目提供一個精準的描繪。Microsoft Project 2003可以分別支持企業級別和項目組級別的項目管理,常用的包括資源管理、任務調度、跟蹤、報表、小組協議等, 同時強有力的標準化數據定義。

四、系統分析

(1)用戶特點.用戶一般為有部分計算機使用經驗的管理員,對計算機有一定使用技能,熟悉計算機操作。

(2)假定和:約束。假定數據庫容量夠大,所有的數據中拼寫問題都能得到糾正。

(3)環境支持:

①運行環境支持:瀏覽器,計算機(CPU PII以上,內存1G上)。

②軟件環境

③硬件環境:CPU PII以上,內存1G上,聯網支持,印機。

五、功能實現

數據中拼寫錯誤的檢查與糾正這個課題,就是在數據中錯誤信息進行糾錯。本次我就常出現的拼寫錯誤中大小寫問題和拼寫過程中的格式問題,進行演示糾正。首先準備了有錯誤信息的表格,導入到kettle中,經過以excel導入程序,發現錯誤信息,糾正錯誤信息,以excel導出程序。從而完成拼寫錯誤的糾正。

六、設計心得

本次設計中,實現了數據中拼寫錯誤的檢查與糾正。操作演示的過程中,也用到了最新相關的軟件,這大大節約了編寫代碼的時間。用戶在運用此軟件進行操作時,容易上手,這大大節約了時間,提高辦事效率。

新技術的不斷產生,需要我們不斷鞥信自己的知識,以最簡單的方法,解決問題,以最小的投資獲得最大的回報。

作者簡介:鐘聲(1990—),男,江西萍鄉人,研究生,助教,主要研究方向:數字媒體。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 国产亚洲高清视频| 免费毛片网站在线观看| 精品无码一区二区三区在线视频 | 国产精品无码久久久久久| 国产精品免费电影| 又爽又大又光又色的午夜视频| 伊人色婷婷| 亚洲Av综合日韩精品久久久| 亚洲AV无码久久天堂| 热九九精品| 亚洲第七页| 成人免费一级片| 国产精品视频导航| 国产精品冒白浆免费视频| 四虎影视国产精品| 免费精品一区二区h| 色综合热无码热国产| 亚洲欧美综合在线观看| 亚洲二区视频| 在线观看网站国产| 伊人久久大线影院首页| 好紧好深好大乳无码中文字幕| 国国产a国产片免费麻豆| 国产精品区网红主播在线观看| 一级看片免费视频| 国产视频资源在线观看| 高清不卡一区二区三区香蕉| 狠狠色成人综合首页| 精品亚洲国产成人AV| 99久久性生片| 亚洲性网站| 三级视频中文字幕| 亚洲国产成人精品一二区| 国产区在线看| 国产亚洲精品无码专| 在线视频亚洲欧美| 免费观看亚洲人成网站| 国产在线专区| 国产精品丝袜在线| 丁香五月婷婷激情基地| 成人午夜精品一级毛片| 成人免费午间影院在线观看| 伊人色综合久久天天| 国产一二三区视频| 在线免费亚洲无码视频| 国产91导航| 狠狠色噜噜狠狠狠狠奇米777| 东京热一区二区三区无码视频| 97成人在线观看| 国产91在线|日本| 中文字幕在线欧美| 97视频在线精品国自产拍| 网友自拍视频精品区| 被公侵犯人妻少妇一区二区三区| 亚洲成人网在线播放| 成人av手机在线观看| 欧美成人一级| 美女视频黄频a免费高清不卡| 国产精品视频3p| 一级香蕉人体视频| 婷婷色狠狠干| 日韩在线视频网站| 亚洲另类第一页| 国产自无码视频在线观看| 国产日本欧美在线观看| 国产成人AV大片大片在线播放 | 欧美日韩专区| 国产在线精彩视频二区| 五月天久久综合| 亚洲欧美另类专区| 五月天久久综合| 亚洲最大情网站在线观看| 成人午夜在线播放| 欧美日韩国产成人高清视频| 久久香蕉国产线看观看式| 欧美中文字幕在线二区| 亚洲一级色| 久久一日本道色综合久久 | 国产幂在线无码精品| 国产高清在线丝袜精品一区| 99久久99视频| 国产9191精品免费观看|