欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實現(xiàn)全角半角字符互轉(zhuǎn)的方法

 更新時間:2016年11月28日 11:14:29   作者:標點符  
大家都知道在自然語言處理過程中,全角、半角的的不一致會導致信息抽取不一致,因此需要統(tǒng)一。這篇文章通過示例代碼給大家詳細的介紹了Python實現(xiàn)全角半角字符互轉(zhuǎn)的方法,有需要的朋友們可以參考借鑒,下面跟著小編一起學習學習吧。

前言

相信對于每一個編程人員來說,在文本處理的時候,經(jīng)常會遇到全角半角不一致的問題。于是需要程序能夠快速的在兩者之間互轉(zhuǎn)。由于全角半角本身存在著映射關(guān)系,所以處理起來并不復雜。

具體規(guī)則為:

      全角字符unicode編碼從65281~65374 (十六進制 0xFF01 ~ 0xFF5E)

      半角字符unicode編碼從33~126 (十六進制 0x21~ 0x7E)

      空格比較特殊,全角為 12288(0x3000),半角為 32(0x20)

      而且除空格外,全角/半角按unicode編碼排序在順序上是對應(yīng)的(半角 + 65248 = 全角)

所以可以直接通過用+-法來處理非空格數(shù)據(jù),對空格單獨處理。

用到的一些函數(shù)

      chr()函數(shù)用一個范圍在range(256)內(nèi)的(就是0~255)整數(shù)作參數(shù),返回一個對應(yīng)的字符。

      unichr()跟它一樣,只不過返回的是Unicode字符。

      ord()函數(shù)是chr()函數(shù)或unichr()函數(shù)的配對函數(shù),它以一個字符(長度為1的字符串)作為參數(shù),返回對應(yīng)的ASCII數(shù)值,或者Unicode數(shù)值。

先來打印下映射關(guān)系:

for i in xrange(33,127):
 print i,chr(i),i+65248,unichr(i+65248)

返回結(jié)果

33 ! 65281 !
34 " 65282 "
35 # 65283 #
36 $ 65284 $
37 % 65285 %
38 & 65286 &
39 ' 65287 '
40 ( 65288 (
41 ) 65289 )
42 * 65290 *
43 + 65291 +
44 , 65292 ,
45 - 65293 -
46 . 65294 .
47 / 65295 /
48 0 65296 0
49 1 65297 1
50 2 65298 2
51 3 65299 3
52 4 65300 4
53 5 65301 5
54 6 65302 6
55 7 65303 7
56 8 65304 8
57 9 65305 9
58 : 65306 :
59 ; 65307 ;
60 < 65308 <
61 = 65309 =
62 > 65310 >
63 ? 65311 ?
64 @ 65312 @
65 A 65313 A
66 B 65314 B
67 C 65315 C
68 D 65316 D
69 E 65317 E
70 F 65318 F
71 G 65319 G
72 H 65320 H
73 I 65321 I
74 J 65322 J
75 K 65323 K
76 L 65324 L
77 M 65325 M
78 N 65326 N
79 O 65327 O
80 P 65328 P
81 Q 65329 Q
82 R 65330 R
83 S 65331 S
84 T 65332 T
85 U 65333 U
86 V 65334 V
87 W 65335 W
88 X 65336 X
89 Y 65337 Y
90 Z 65338 Z
91 [ 65339 [
92 \ 65340 \
93 ] 65341 ]
94 ^ 65342 ^
95 _ 65343 _
96 ` 65344 `
97 a 65345 a
98 b 65346 b
99 c 65347 c
100 d 65348 d
101 e 65349 e
102 f 65350 f
103 g 65351 g
104 h 65352 h
105 i 65353 i
106 j 65354 j
107 k 65355 k
108 l 65356 l
109 m 65357 m
110 n 65358 n
111 o 65359 o
112 p 65360 p
113 q 65361 q
114 r 65362 r
115 s 65363 s
116 t 65364 t
117 u 65365 u
118 v 65366 v
119 w 65367 w
120 x 65368 x
121 y 65369 y
122 z 65370 z
123 { 65371 {
124 | 65372 |
125 } 65373 }
126 ~ 65374 ~

把全角轉(zhuǎn)成半角:

def full2half(s):
 n = []
 s = s.decode('utf-8')
 for char in s:
 num = ord(char)
 if num == 0x3000:
  num = 32
 elif 0xFF01 <= num <= 0xFF5E:
  num -= 0xfee0
 num = unichr(num)
 n.append(num)
return ''.join(n)

把半角轉(zhuǎn)成全角:

def half2full(s):
 n = []
 s = s.decode('utf-8')
 for char in s:
 num = char(char)
 if num == 320:
  num = 0x3000
 elif 0x21 <= num <= 0x7E:
  num += 0xfee0
 num = unichr(num)
 n.append(num)
return ''.join(n)

上面的實現(xiàn)方式非常的簡單,但是現(xiàn)實情況下可能并不會把所以的字符統(tǒng)一進行轉(zhuǎn)換,比如中文文章中我們期望將所有出現(xiàn)的字母和數(shù)字全部轉(zhuǎn)化成半角,而常見標點符號統(tǒng)一使用全角,上面的轉(zhuǎn)化就不適合了。

解決方案,是自定義詞典。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
 
FH_SPACE = FHS = ((u" ", u" "),)
FH_NUM = FHN = (
 (u"0", u"0"), (u"1", u"1"), (u"2", u"2"), (u"3", u"3"), (u"4", u"4"),
 (u"5", u"5"), (u"6", u"6"), (u"7", u"7"), (u"8", u"8"), (u"9", u"9"),
)
FH_ALPHA = FHA = (
 (u"a", u"a"), (u"b", u"b"), (u"c", u"c"), (u"d", u"d"), (u"e", u"e"),
 (u"f", u"f"), (u"g", u"g"), (u"h", u"h"), (u"i", u"i"), (u"j", u"j"),
 (u"k", u"k"), (u"l", u"l"), (u"m", u"m"), (u"n", u"n"), (u"o", u"o"),
 (u"p", u"p"), (u"q", u"q"), (u"r", u"r"), (u"s", u"s"), (u"t", u"t"),
 (u"u", u"u"), (u"v", u"v"), (u"w", u"w"), (u"x", u"x"), (u"y", u"y"), (u"z", u"z"),
 (u"A", u"A"), (u"B", u"B"), (u"C", u"C"), (u"D", u"D"), (u"E", u"E"),
 (u"F", u"F"), (u"G", u"G"), (u"H", u"H"), (u"I", u"I"), (u"J", u"J"),
 (u"K", u"K"), (u"L", u"L"), (u"M", u"M"), (u"N", u"N"), (u"O", u"O"),
 (u"P", u"P"), (u"Q", u"Q"), (u"R", u"R"), (u"S", u"S"), (u"T", u"T"),
 (u"U", u"U"), (u"V", u"V"), (u"W", u"W"), (u"X", u"X"), (u"Y", u"Y"), (u"Z", u"Z"),
)
FH_PUNCTUATION = FHP = (
 (u".", u"."), (u",", u","), (u"!", u"!"), (u"?", u"?"), (u"”", u'"'),
 (u"'", u"'"), (u"‘", u"`"), (u"@", u"@"), (u"_", u"_"), (u":", u":"),
 (u";", u";"), (u"#", u"#"), (u"$", u"$"), (u"%", u"%"), (u"&", u"&"),
 (u"(", u"("), (u")", u")"), (u"‐", u"-"), (u"=", u"="), (u"*", u"*"),
 (u"+", u"+"), (u"-", u"-"), (u"/", u"/"), (u"<", u"<"), (u">", u">"),
 (u"[", u"["), (u"¥", u"\\"), (u"]", u"]"), (u"^", u"^"), (u"{", u"{"),
 (u"|", u"|"), (u"}", u"}"), (u"~", u"~"),
)
FH_ASCII = HAC = lambda: ((fr, to) for m in (FH_ALPHA, FH_NUM, FH_PUNCTUATION) for fr, to in m)
 
HF_SPACE = HFS = ((u" ", u" "),)
HF_NUM = HFN = lambda: ((h, z) for z, h in FH_NUM)
HF_ALPHA = HFA = lambda: ((h, z) for z, h in FH_ALPHA)
HF_PUNCTUATION = HFP = lambda: ((h, z) for z, h in FH_PUNCTUATION)
HF_ASCII = ZAC = lambda: ((h, z) for z, h in FH_ASCII())
 
 
def convert(text, *maps, **ops):
 """ 全角/半角轉(zhuǎn)換
 args:
 text: unicode string need to convert
 maps: conversion maps
 skip: skip out of character. In a tuple or string
 return: converted unicode string
 """
 
 if "skip" in ops:
 skip = ops["skip"]
 if isinstance(skip, basestring):
  skip = tuple(skip)
 
 def replace(text, fr, to):
  return text if fr in skip else text.replace(fr, to)
 else:
 def replace(text, fr, to):
  return text.replace(fr, to)
 
 for m in maps:
 if callable(m):
  m = m()
 elif isinstance(m, dict):
  m = m.items()
 for fr, to in m:
  text = replace(text, fr, to)
 return text
 
 
if __name__ == '__main__':
 text = u"成田空港—【JR特急成田エクスプレス號・橫浜行,2站】—東京—【JR新幹線はやぶさ號・新青森行,6站 】—新青森—【JR特急スーパー白鳥號・函館行,4站 】—函館"
print convert(text, FH_ASCII, {u"【": u"[", u"】": u"]", u",": u",", u".": u"。", u"?": u"?", u"!": u"!"}, spit=",。?!“”")

特別注意:引號在英語體系中引號是不區(qū)分前引號和后引號。

總結(jié)

以上就是關(guān)于Python實現(xiàn)全角半角字符互轉(zhuǎn)的方法,希望本文的內(nèi)容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流。

相關(guān)文章

  • python使用pymongo操作mongo的完整步驟

    python使用pymongo操作mongo的完整步驟

    這篇文章主要給大家介紹了關(guān)于python使用pymongo操作mongo的完整步驟,文中通過示例代碼介紹的非常詳細,對大家學習或者使用python具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧
    2019-04-04
  • 使用Python實現(xiàn)獲取Apollo配置

    使用Python實現(xiàn)獲取Apollo配置

    Apollo是一款可靠的分布式配置管理中心,能夠集中化管理應(yīng)用不同環(huán)境、不同集群的配置,本文將介紹如何在Python項目中輕松獲取和使用Apollo配置中心的配置信息,需要的可以參考下
    2024-11-11
  • python urllib庫的使用詳解

    python urllib庫的使用詳解

    這篇文章主要介紹了python urllib庫的使用詳解,幫助大家更好的利用python學習爬蟲,感興趣的朋友可以了解下
    2021-04-04
  • python3中超級好用的日志模塊-loguru模塊使用詳解

    python3中超級好用的日志模塊-loguru模塊使用詳解

    loguru默認的輸出格式是上面的內(nèi)容,有時間、級別、模塊名、行號以及日志信息,不需要手動創(chuàng)建?logger,直接使用即可,另外其輸出還是彩色的,看起來會更加友好,這篇文章主要介紹了python3中超級好用的日志模塊-loguru模塊使用詳解,需要的朋友可以參考下
    2022-11-11
  • Python tkinter的grid布局及Text動態(tài)顯示方法

    Python tkinter的grid布局及Text動態(tài)顯示方法

    今天小編就為大家分享一篇Python tkinter的grid布局及Text動態(tài)顯示方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • Django3.2 自動發(fā)現(xiàn)所有路由代碼詳解

    Django3.2 自動發(fā)現(xiàn)所有路由代碼詳解

    這篇文章主要為大家介紹了Django自動發(fā)現(xiàn)所有路由的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2021-12-12
  • numpy.reshape(-1,1)的具體使用

    numpy.reshape(-1,1)的具體使用

    本文主要介紹了numpy.reshape(-1,1)的具體使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2022-07-07
  • 淺析Python中的多進程與多線程的使用

    淺析Python中的多進程與多線程的使用

    這篇文章主要介紹了Python中的多進程與多線程,線程與進程一直是Python學習和運用當中的重點和難點,本文采用簡單的例子進行講解,需要的朋友可以參考下
    2015-04-04
  • python numpy linspace函數(shù)使用詳解

    python numpy linspace函數(shù)使用詳解

    本文介紹了Python Numpy庫中的linspace函數(shù),該函數(shù)用于生成均勻分布的數(shù)值序列,通過示例和詳細參數(shù)解釋,幫助讀者理解如何使用linspace函數(shù),最后,對比了linspace和arange函數(shù)之間的主要差異,感興趣的朋友跟隨小編一起看看吧
    2024-12-12
  • 淺談python多線程和隊列管理shell程序

    淺談python多線程和隊列管理shell程序

    這篇文章主要給大家簡單介紹了python多線程和隊列管理shell程序的方法和簡單示例,有需要的小伙伴可以參考下。
    2015-08-08

最新評論