快捷導(dǎo)航

基于python的漢字轉(zhuǎn)GBK碼實(shí)現(xiàn)代碼

更新時(shí)間：2012年02月19日 20:24:47 作者：

今天想用python調(diào)用百度框計(jì)算的搜過(guò)結(jié)果，看到了URL里面的漢字用GBK編碼，雖然可以直接在URL里面加入中文，之前也做過(guò)一個(gè)簡(jiǎn)體字轉(zhuǎn)GBK碼的python函數(shù)，但還是略嫌麻煩，今天改了一下

如圖，“廣”的編碼為%B9%E3，暫且把%B9稱(chēng)為節(jié)編碼，%E3為字符編碼（第二編碼）。

思路：
從GBK編碼頁(yè)面收集漢字 http://ff.163.com/newflyff/gbk-list/
從實(shí)用角度下手，只選取“● GBK/2: GB2312 漢字”這一節(jié)，共3755個(gè)漢字。
看規(guī)律：小節(jié)編碼從B0-D7，而針對(duì)漢字的編碼從A1-FE，即16*6-2=94，非常有規(guī)律性。
第一步：把常用的漢字用python提取出來(lái)，按順序存到一個(gè)字典文件里面，漢字用空格分隔。
第二步：根據(jù)編碼從A1-FE，每節(jié)94個(gè)漢字的規(guī)律，先定位節(jié)編碼，利用漢字在某一節(jié)的位置定位字符編碼

實(shí)施：
第一步：提取漢字

復(fù)制代碼代碼如下:

 
with open('E:/GBK.txt') as f: 
s=f.read().splitlines().split() 

分割得到的list里面有重復(fù)的節(jié)編碼，要去掉B0/B1……類(lèi)似的符號(hào)和中文的0-9/A-F字符
把獲取到的字符解碼看：

刪除掉這些字符：
先把分割得到的list全部解碼，然后

復(fù)制代碼代碼如下:

gbk.remove(u'\uff10')

這里刪除字符的時(shí)候，用range生成一系列字符串，然后用notepad++處理了一下，并沒(méi)有找到簡(jiǎn)單的辦法

復(fù)制代碼代碼如下:

 
for t in [u'\uff10',u'\uff11',u'\uff12',u'\uff13',u'\uff14',u'\uff15',u'\uff16',u'\uff17',u'\uff18',u'\uff19',u'\uff21',u'\uff22',u'\uff23',u'\uff24',u'\uff25',u'\uff26']: 
gbk.remove(t) 

然后去除B0-D7這樣的小節(jié)編碼，同時(shí)提取字符編碼的時(shí)候也要用到類(lèi)似的A1-FE這樣的編碼，于是就想生成這樣一個(gè)list，方便做刪除和索引操作。

生成編碼系列：
行編碼為0-9 A-F，列編碼為A-F
從A1開(kāi)始遞增，遇到邊界（A9-AA）要手動(dòng)處理，用到了ord()和chr()函數(shù)，在ASCII編碼和數(shù)字之間轉(zhuǎn)換。

復(fù)制代碼代碼如下:

 
t=['A1'] 
while True: 
if t[-1]=='FE': 
break 
if (ord(t[-1][1])>=48 and ord(t[-1][1])<57) or (ord(t[-1][1])>=65 and ord(t[-1][1])<70): 
t.append(t[-1][0]+chr(ord(t[-1][1])+1)) 
continue 
if ord(t[-1][1])>=57 and ord(t[-1][1])<65: 
t.append(t[-1][0]+chr(65)) 
continue 
if ord(t[-1][1])>=70: 
t.append(chr(ord(t[-1][0])+1)+chr(48)) 
continue 

得到的列表：

有了這個(gè)編碼序列后，就可以從gbk庫(kù)中刪除B0-D7字符了。
最后檢查到還有空格未刪除，空格的unicode碼是\u3000
gbk.remove(u'\u3000')
最后encode成UTF-8編碼保存到字典文件。

我把這個(gè)字典文件放到網(wǎng)盤(pán)上了，外鏈：http://dl.dbank.com/c0m9selr6h

第二步：索引漢字

索引就是個(gè)簡(jiǎn)單算法，因?yàn)樽值淅锩娴臐h子是按照原先順序存儲(chǔ)的，而且GBK編碼表2的3755個(gè)漢字嚴(yán)格遵守每節(jié)94個(gè)漢字的規(guī)律，那就來(lái)個(gè)簡(jiǎn)單的除數(shù)取整+1來(lái)定位小節(jié)編碼，再用漢字索引-節(jié)索引*94得到漢字在這一小節(jié)中的索引，然后利用上面生成的A1-FE list和索引來(lái)定位第二編碼。
算法思路有了，編碼，然后調(diào)試
附上python代碼和注釋?zhuān)?

復(fù)制代碼代碼如下:

 
def getGBKCode(gbkFile='E:/GBK1.1.txt',s=''): 
#gbkFile字典文件 共3755個(gè)漢字 
#s為要轉(zhuǎn)換的漢字，暫且為gb2312編碼，即從IDLE輸入的漢字編碼 

#讀入字典 
with open(gbkFile) as f: 
gbk=f.read().split() 

#生成A1-FE的索引編碼 
t=['A1'] 
while True: 
if t[-1]=='FE': 
break 
if (ord(t[-1][1])>=48 and ord(t[-1][1])<57) or (ord(t[-1][1])>=65 and ord(t[-1][1])<70): 
t.append(t[-1][0]+chr(ord(t[-1][1])+1)) 
continue 
if ord(t[-1][1])>=57 and ord(t[-1][1])<65: 
t.append(t[-1][0]+chr(65)) 
continue 
if ord(t[-1][1])>=70: 
t.append(chr(ord(t[-1][0])+1)+chr(48)) 
continue 
#依次索引每個(gè)漢字 
l=list() 
for st in s.decode('gb2312'): 
st=st.encode('utf-8') 
i=gbk.index(st)+1 
#小節(jié)編碼從B0開(kāi)始，獲取漢字的小節(jié)編碼 
t1='%'+t[t.index('B0'):][i/94] 
#漢字在節(jié)點(diǎn)中的索引號(hào) 
i=i-(i/94)*94 
t2='%'+t[i-1] 
l.append(t1+t2) 
#最后用空格分隔輸出 
return ' '.join(l)