王洪香
摘要:從編碼出發(fā),分析了在Java中可能會(huì)產(chǎn)生編碼問(wèn)題的兩個(gè)環(huán)節(jié),并對(duì)不同情況給出了有效的解決方法。
關(guān)鍵詞:Java漢字編碼字符集
在Java語(yǔ)言的應(yīng)用中,對(duì)字符的支持并非如同Java Soft的標(biāo)準(zhǔn)規(guī)范中所宣稱的那樣完美,尤其是中文字符集,所以在開發(fā)過(guò)程涉及到對(duì)漢字的處理時(shí)經(jīng)常會(huì)出現(xiàn)亂碼,給開發(fā)人員帶來(lái)諸多不便。
1常見的字符編碼
計(jì)算機(jī)中存儲(chǔ)、處理和傳送的數(shù)據(jù)是二進(jìn)制的形式。各種文字、符號(hào)也必須用二進(jìn)制數(shù)編碼來(lái)表示,因此出現(xiàn)了一些不同形式的字符編碼。
(1)IS08859-1碼
IS08859-1碼屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。由于是單字節(jié)編碼,和計(jì)算機(jī)內(nèi)表示單位一致,所以很多時(shí)候,仍舊使用IS08859-1編碼來(lái)表示。而且在很多協(xié)議上,默認(rèn)使用該編碼。
(2)GB2312編碼
GB2312編碼是中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)漢字信息交換用編碼,是由國(guó)家標(biāo)準(zhǔn)總局發(fā)布的關(guān)于簡(jiǎn)化漢字的編碼,通行于中國(guó)大陸地區(qū)及新加坡,簡(jiǎn)稱國(guó)標(biāo)碼。兩個(gè)字節(jié)中,第一個(gè)字節(jié)(高字節(jié))的值為區(qū)號(hào)值加32(20H),第二個(gè)字符(低字節(jié))的值為位號(hào)值32(20H),用這兩個(gè)值來(lái)表示一個(gè)漢字的編碼。該字符集是一般中文操作系統(tǒng)默認(rèn)的字符集。
(3)GBK編碼
GBK編碼是GB2312的擴(kuò)展,是向上兼容的。它的編碼范圍是0x8140至0xfefe,其所有字符都可以一一映射至U-nicode2.0,實(shí)際上Java提供了對(duì)GBK字符集的支持。
(4)Unicode編碼
Unicode編碼是微軟提出的解決多國(guó)字符問(wèn)題的多字節(jié)等長(zhǎng)16位編碼,它對(duì)英文字符采取前面加“O”字節(jié)的策略實(shí)現(xiàn)等長(zhǎng)兼容。如“A”字符的ASCII碼為0x41,Unicode碼為0x00,0x41。所以如果將高位字節(jié)去除,可以近似地將Uni-code轉(zhuǎn)換為IS08859-1,它是Java內(nèi)碼的編碼方式。
2 Java程序運(yùn)行中出現(xiàn)的“?”和一些亂碼的由來(lái)
(1)將字符的Unicode碼轉(zhuǎn)換成本地字符集碼
下面的程序在將Unicode字符集轉(zhuǎn)換成“IS08859-1”字符集時(shí)出現(xiàn)了“?”號(hào)。
程序1:
從上面程序中可以看出。由于Java中的字符采用是的Unicode編碼,每個(gè)字符都占用兩個(gè)字節(jié),直接把每個(gè)字符中的內(nèi)容對(duì)應(yīng)著的整數(shù)打印出來(lái),顯示的結(jié)果就是這字符的Unicode碼。String類中的getBytes方法,是將Unicode碼的字符串中的每個(gè)字符數(shù)字,轉(zhuǎn)換成該字符在指定的字符集下的數(shù)字,最后將這些數(shù)字存放到一個(gè)字節(jié)數(shù)組中返回。將一個(gè)字符的Unicode碼轉(zhuǎn)換成某種本地字符集碼的過(guò)程叫編碼。程序中的byte[]buf=strChina.getBytes(“is08859-1”)語(yǔ)句就是將Unicode碼轉(zhuǎn)換成了“IS08859-1”了。由于目標(biāo)代碼集中不存在對(duì)應(yīng)代碼,則得到的結(jié)果都是“3t”Hex值中的“3t”在Java中的用System.out.println(“u0031”)語(yǔ)句輸出的結(jié)果就是“?”,這就是我們?cè)贘ava程序中經(jīng)常看到的“?”號(hào)的由來(lái)。
(2)將本地字符集碼轉(zhuǎn)換成Unicode碼
在下面的程序中完成的是將鍵盤字節(jié)輸入流中的每個(gè)字節(jié)讀到一個(gè)字節(jié)數(shù)組中,然后將字節(jié)數(shù)組中的數(shù)據(jù)當(dāng)作某種本地字符集碼轉(zhuǎn)換成Unicode碼的字符串,此過(guò)程為解碼。
程序2:
從程序中看出,存有“遼工大”三個(gè)字符的GB2312碼的字節(jié)數(shù)組,使用IS08859-1解碼后的Unicode字符串的字符并不是原來(lái)的三個(gè)字符的Unicode碼,而是被解碼成了六個(gè)字符,每個(gè)字符的低字節(jié)的內(nèi)容都是原來(lái)字節(jié)數(shù)組中的數(shù)據(jù),而高字節(jié)都是0。程序中打印的b4所對(duì)應(yīng)的字符在內(nèi)容中實(shí)際上是兩個(gè)字節(jié)00b4。因此在解碼時(shí)出現(xiàn)了一些除“?”以外的亂碼。
3解決的方法
對(duì)于程序1,由于當(dāng)前系統(tǒng)默認(rèn)的編碼方式是GB2312碼,將程序中的語(yǔ)句:

4結(jié)束語(yǔ)
對(duì)于前面提到的字符編碼的轉(zhuǎn)換不僅存在于Java應(yīng)用中,也存在于JSP和Servlet的應(yīng)用中,有時(shí)還會(huì)出現(xiàn)這兩個(gè)過(guò)程的疊加。甚至是兩個(gè)過(guò)程的反復(fù)疊加,因此Java應(yīng)用中會(huì)產(chǎn)生一些與平臺(tái)相關(guān)的問(wèn)題,在程序的開發(fā)過(guò)程一定要引起注意。