Java在創(chuàng)建文件時(shí)指定編碼的實(shí)現(xiàn)方法
前言:最近,學(xué)習(xí)了Java IO流的相關(guān)的知識(shí),想通過(guò)讀寫(xiě)文件的方式練習(xí)和鞏固所學(xué)知識(shí)。在使用File類(lèi)創(chuàng)建文件時(shí),突然想到,我該如何指定文件使用的編碼呢? 進(jìn)而想到,應(yīng)該如何查看一個(gè)文件的編碼呢?
一、問(wèn)題分析
先去互聯(lián)網(wǎng)上查找答案,結(jié)果如下:
FileInputStream fis=new FileInputStream(“xxxx.txt”); OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);
上面的代碼大概意思是在寫(xiě)入文件時(shí),寫(xiě)入的字符使用UTF-8編碼,和我預(yù)想的不一樣,我想在創(chuàng)建文件的同時(shí)指定編碼。像下面這樣,
File myfile = new File("test.txt”, “UTF-8”); if (!myfile.exists()) myfile.createNewFile();
于是,我去查看Java API 8官方文檔,F(xiàn)ile沒(méi)有提供可以指定字符編碼的構(gòu)造函數(shù)。
同時(shí)也沒(méi)提供set或者get等其他訪問(wèn)字符字符編碼的方法,說(shuō)明字符編碼不是文件的固有屬性。像文件創(chuàng)建時(shí)間,文件修改時(shí)間,是否可讀、可寫(xiě)、可執(zhí)行,這些都是文件的固有屬性,或者說(shuō)元信息,它們是文件的一部分。
二、字符編碼
我們知道,計(jì)算機(jī)中存儲(chǔ)的任何信息都是01串,文字也不例外。
對(duì)于字符的處理包括兩個(gè)過(guò)程:編碼和解碼
編碼:把字符"映射“到01串
解碼:把01串"映射“到字符
不同的字符編碼,例如GBK、UTF-8,編碼和解碼使用的規(guī)則不同。
對(duì)于同樣的文本字符串:“中國(guó)”,使用UTF-8編碼保存,一般使用三個(gè)字節(jié)保存一個(gè)漢字,(底層的01字符串的16進(jìn)制形式)。
使用GBK編碼保存,使用兩個(gè)字節(jié)表示一個(gè)漢字。
當(dāng)我們?cè)谖谋揪庉嬈髦袑?xiě)好文字保存時(shí),編輯器會(huì)根據(jù)你設(shè)置的字符編碼類(lèi)型將文本”映射“成01串。
你設(shè)置的字符類(lèi)型,僅僅是編輯器把文字編碼成成10串的轉(zhuǎn)換規(guī)則而已,并不是文本的屬性。
在編輯器打開(kāi)文本文件時(shí),顯示的不是底層的01串,而是文字,是因?yàn)榫庉嬈魇褂媚撤N文字編碼,把01串解碼為字符。如果,解碼時(shí),使用的字符編碼和編碼時(shí)的一致或者兼容,就可以正確顯示文本。如果解碼時(shí),使用的字符編碼和編碼時(shí)的不一致或者不兼容,就會(huì)亂碼。
例如,我有一個(gè)文本文件使用的是GBK編碼,內(nèi)容是”明月幾時(shí)有“,
我使用VS code (微軟的一款非常好用的文本編輯器)打開(kāi)文件,用術(shù)語(yǔ)說(shuō),就是解碼文件。其默認(rèn)使用的文字編碼是UTF-8,解碼相同。但是,因?yàn)槲业奈谋镜讓邮荊BK編碼的01串(兩個(gè)字節(jié)一個(gè)字符),使用UTF-8解碼01串,由于編碼,解碼不一致,必然會(huì)導(dǎo)致亂碼。這時(shí),只要手動(dòng)選擇對(duì)應(yīng)的GBK編碼,解碼文件就不會(huì)亂碼了。
亂碼也從側(cè)面說(shuō)明了,字符編碼不是文件的固有屬性。
扯了這么多,就是為了說(shuō)明這一點(diǎn):字符編碼就是解碼和編碼時(shí)用的規(guī)則,不是文件的固有屬性。
我不禁產(chǎn)生疑惑,為什么當(dāng)初不把字符編碼設(shè)置為文件屬性的一部分呢?
假設(shè)可以設(shè)置,并且設(shè)置為GBK,那么操作系統(tǒng)需要維護(hù)改功能。像一個(gè)文件是不可寫(xiě)的,那么有程序試圖寫(xiě)文件,操作系統(tǒng)會(huì)拒絕寫(xiě)入一樣,操作系統(tǒng)必須寫(xiě)入的字節(jié)必須是滿足GBK編碼要求,那么每次寫(xiě)入字節(jié),操作系統(tǒng)都需要檢查該字節(jié)的合法性,這需要非常大的性能開(kāi)銷(xiāo),甚至是無(wú)法實(shí)現(xiàn)的,因?yàn)橛行┨厥庾止?jié)即可以表示GBK,也可以表示UTF-8,是有歧義的。在說(shuō),做這一些的意義是什么,為了編輯器可以在打開(kāi)文件的時(shí)候,可以根據(jù)編碼屬性選擇正確的編碼嗎?沒(méi)有必要,智能的編輯器,可以根據(jù)內(nèi)容的前幾個(gè)字節(jié),推斷出你的01串使用了什么編碼。另外,你也可以手動(dòng)設(shè)置解碼所用的字符編碼。
三 、問(wèn)題解決
在創(chuàng)建文件的時(shí)候,無(wú)法指定文件的編碼。在將文字寫(xiě)入(例如文本編輯器的Ctrl + S
保存,本質(zhì)執(zhí)行的就是寫(xiě)入操作)文件時(shí),可以選擇將文字轉(zhuǎn)換為01串的編碼規(guī)則。
針對(duì)Java程序,代碼如下,正是文章最開(kāi)始提及的代碼:
FileInputStream fis=new FileInputStream(“xxxx.txt”); OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);
到此這篇關(guān)于Java在創(chuàng)建文件時(shí)指定編碼的實(shí)現(xiàn)方法的文章就介紹到這了,更多相關(guān)Java創(chuàng)建文件時(shí)指定編碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
java實(shí)現(xiàn)圖片縮放、旋轉(zhuǎn)和馬賽克化
這篇文章主要為大家詳細(xì)介紹了java實(shí)現(xiàn)圖片縮放、旋轉(zhuǎn)和馬賽克化,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-03-03Java設(shè)計(jì)模式之工廠模式實(shí)現(xiàn)方法詳解
這篇文章主要介紹了Java設(shè)計(jì)模式之工廠模式實(shí)現(xiàn)方法,結(jié)合實(shí)例形式較為詳細(xì)的分析了工廠模式的分類(lèi)、原理、實(shí)現(xiàn)方法與相關(guān)注意事項(xiàng),需要的朋友可以參考下2017-12-12如何使用spring ResponseEntity處理http響應(yīng)
這篇文章主要介紹了如何使用spring ResponseEntity處理http響應(yīng)的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-07-07SpringBoot如何使用@Aspect注解實(shí)現(xiàn)AOP
這篇文章主要介紹了SpringBoot如何使用@Aspect注解實(shí)現(xiàn)AOP問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-07-07java父子節(jié)點(diǎn)parentid樹(shù)形結(jié)構(gòu)數(shù)據(jù)的規(guī)整
這篇文章主要介紹了java父子節(jié)點(diǎn)parentid樹(shù)形結(jié)構(gòu)數(shù)據(jù)的規(guī)整,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-07-07