快捷導(dǎo)航

R語(yǔ)言編碼問(wèn)題的解決

更新時(shí)間：2021年04月17日 09:37:59 作者：rokia_xmu

這篇文章主要介紹了R語(yǔ)言編碼問(wèn)題的解決，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

今天博客主要是解決一個(gè)學(xué)R語(yǔ)言里面最最痛苦的問(wèn)題（嗯，python2.x里面也有），就是中文亂碼問(wèn)題：

一般用R語(yǔ)言的同學(xué)，多半遇見(jiàn)過(guò)以下這個(gè)問(wèn)題：

反正蝦神我每次遇見(jiàn)這個(gè)問(wèn)題，立刻就是：

實(shí)際上這個(gè)問(wèn)題寫(xiě)代碼的人一般都能遇見(jiàn)，不同字符編碼的問(wèn)題，如果是從文件里面讀的還好說(shuō)，可以帶這個(gè)字符編碼集一起讀，但是如果這個(gè)數(shù)據(jù)是來(lái)自于數(shù)據(jù)庫(kù)的，如果經(jīng)驗(yàn)的話，那就真得各種涼拌了。

下面我簡(jiǎn)單把我今天通過(guò)R語(yǔ)言從Postgresql數(shù)據(jù)庫(kù)中處理中文問(wèn)題的整個(gè)流程說(shuō)說(shuō)，如果哪位同學(xué)也遇上了，可以參考我的整個(gè)解決方式。

下面這個(gè)代碼是簡(jiǎn)單的從R連接Postgresql獲取數(shù)據(jù)的過(guò)程，如果沒(méi)有中文，就一切ok:

library(ggplot2)
library(RPostgreSQL)
drv= dbDriver("PostgreSQL")
pgCon=dbConnect(drv,user="sde",password="sde",host="127.0.0.1")
s ="select * from chinapop"
rs = dbSendQuery(pgdb, statement = s)
df = fetch(rs, n = -1)

數(shù)據(jù)是我SDE庫(kù)里面的，內(nèi)容如下：

在數(shù)據(jù)庫(kù)里面表現(xiàn)如下：

結(jié)構(gòu)非常簡(jiǎn)單，大部分字段都是數(shù)字型，只有name這個(gè)字段是中文的，當(dāng)我們運(yùn)行連接和查詢之后，在R語(yǔ)言里面就變成了這個(gè)一個(gè)dataframe：

然后我們?nèi)绻脒M(jìn)行一下查詢，比如要查一下以“南”在結(jié)尾的?。ê?、河南、海南、云南），那么sql語(yǔ)句變成：

一下就讓我們抓狂了……生無(wú)可戀啊……

然后我們來(lái)看看為什么會(huì)出現(xiàn)這個(gè)問(wèn)題，首先當(dāng)然看看你的R語(yǔ)言的環(huán)境，這個(gè)可以通過(guò)sessionInfo()來(lái)實(shí)現(xiàn)

原來(lái)R語(yǔ)言默認(rèn)使用的是你系統(tǒng)的字符集——我這里win7中文版，默認(rèn)的字符集就是cp936,也就是所謂的gb2312編碼。

然后再來(lái)看看我們數(shù)據(jù)庫(kù)用的編碼，我這里是Postgersql，其他的數(shù)據(jù)庫(kù)查看方式自己百度：

字符編碼是UTF-8……好吧，知道這個(gè)問(wèn)題就好解決了。

首先，從數(shù)據(jù)庫(kù)里面獲取的數(shù)據(jù)，回來(lái)的是UTF8的，那么我們可以轉(zhuǎn)成R的字符編碼，轉(zhuǎn)換的函數(shù)R語(yǔ)言里面已經(jīng)提供了，叫做iconv(), 如下：

將df里面的name數(shù)列，從UTF8的編碼，轉(zhuǎn)換為CP936，這樣就變成了中文了。

下面就可以用同樣的方式來(lái)處理中文查詢的問(wèn)題：

這次是從CP936轉(zhuǎn)換為UTF8來(lái)執(zhí)行，語(yǔ)句如下：

s =paste("select * from chinapop where name like '%",iconv("南","CP936","UTF8"),"'",sep = "")

paster函數(shù)，是R語(yǔ)言里面的字符串連接函數(shù)。

下面拋出了一個(gè)警告，所里面有個(gè)字段類型是st_geometry類型的，R語(yǔ)言讀不了……這個(gè)是ArcGIS的東西，直接不管。

然后我們可以看出，查出來(lái)4條數(shù)據(jù)，說(shuō)明SQL語(yǔ)句執(zhí)行成功了，但是回來(lái)的還是亂碼，接下去用上面說(shuō)的iconv()函數(shù)轉(zhuǎn)換一下就行：

到此，中文問(wèn)題解決.

后面就是R語(yǔ)言老本行分析&可視化了，我們把這4個(gè)省的2008年的GDP做一個(gè)柱狀圖，代碼如下（用的是ggplot2)

qplot(name,gdp_2008,data=df,fill=gdp_2008)+geom_bar(stat='identity')

如果還需要其他的各種分析可視化，敲命令就可以了，打完收工。

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

R語(yǔ)言編碼問(wèn)題的解決

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具