python實現(xiàn)去掉字符串中的\xa0、\t、\n

更新時間：2023年08月22日 09:29:23 作者：wangbowj123

這篇文章主要介紹了python實現(xiàn)去掉字符串中的\xa0、\t、\n方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教

python去掉字符串中的\xa0、\t、\n

幫女朋友從網(wǎng)絡(luò)上收集一些信息，但是發(fā)現(xiàn)提取出的信息中有“\xa0”，并且無法去掉，查閱了相關(guān)資料，后發(fā)現(xiàn)該字符表示空格。

\xa0 是不間斷空白符  

我們通常所用的空格是 \x20 ，是在標(biāo)準(zhǔn)ASCII可見字符 0x20~0x7e 范圍內(nèi)。

而 \xa0 屬于 latin1 （ISO/IEC_8859-1）中的擴展字符集字符，代表空白符nbsp(non-breaking space)。

latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我們見到的字符多數(shù)是 latin1 的，比如在 MySQL 數(shù)據(jù)庫中。

有如下信息：

'T-shirt\xa0\xa0短袖圓領(lǐng)衫,體恤衫\xa0,', 'V-neck\xa0\xa0V型領(lǐng)\xa0sleeve\xa0\xa0袖子\xa0,',

我們?nèi)绾螌⑵渲械腬xz0去掉呢，試了re模塊的sub方法，發(fā)現(xiàn)沒有作用，于是又開始查閱相關(guān)資料，終于解決了該問題。

方法如下：

>>> inputstring = u'\n                      Door:\xa0Novum          \t      '
>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))
>>> output = inputstring.translate(move)
>>> output
'                      Door:Novum                '

另外還有一種更簡單的方法，利用split方法：

>>> s
'T-shirt\xa0\xa0短袖圓領(lǐng)衫,體恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圓領(lǐng)衫,體恤衫'

可以發(fā)現(xiàn)利用translate方法、split()可以完美解決，并且還可以替換\t \n字符，由此又學(xué)到了新知識！

關(guān)于ord函數(shù)：

ord()函數(shù)是chr()函數(shù)（對于8位的ASCII字符串）或unichr()函數(shù)（對于Unicode對象）的配對函數(shù)，它以一個字符（長度為1的字符串）作為參數(shù)，返回對應(yīng)的ASCII數(shù)值，或者Unicode數(shù)值，如果所給的Unicode字符超出了你的Python定義范圍，則會引發(fā)一個TypeError的異常。

關(guān)于fromkeys方法：

dict中的fromkeys方法目的是創(chuàng)建一個只有key的字典，內(nèi)部利用for循環(huán)，使三個字符的asii碼值成為可迭代對象（本來的整數(shù)是不可迭代的），分別對其迭代，存入字典。

關(guān)于translate方法：

Python translate() 方法根據(jù)參數(shù)table給出的表(包含 256 個字符)轉(zhuǎn)換字符串的字符, 要過濾掉的字符放到 del 參數(shù)中。接收到move返回的表（字典），之后對字符串進行替換。

join()方法：

join()：連接字符串?dāng)?shù)組。將字符串、元組、列表中的元素以指定的字符(分隔符)連接生成一個新的字符串?？梢娫撎幱胘oin方法真的是神來之筆，可謂絕妙！

值得注意的是，split方法中不帶參數(shù)時，表示分割所有換行符、制表符、空格。

去除字符串中的\xa0不間斷空白符

記錄幾個python解析頁面時遇到的小問題解決方法

去除字符串中的\xa0不間斷空白符

? ? # 方法一：用編碼轉(zhuǎn)換的方式
? ? ?import unicodedata
? ? ?s = unicodedata.normalize("NFKD", s)
? ? # 方法二：直接去除所有空白
? ? s= ''.join(s.split())
? ? # 方法三：自己轉(zhuǎn)換編碼ord方式，或替換replace等（不推薦）

xpath解析取標(biāo)簽下所有文字

? ? # 取出標(biāo)簽下所有文字，有3種方法：
? ? # 1.用//text()取所有文字然后join；
? ? remediation = cve_page.xpath("http://h2[@id='remediation']/following-sibling::p[1]//text()")
? ? remediation = ''.join(remediation).strip()
? ? # 2.用xpath('string(.)')解析；
? ? remediation = cve_page.xpath("http://h2[@id='remediation']/following-sibling::p[1]")
? ? remediation=remediation[0].xpath('string(.)').strip()
? ? # 3.轉(zhuǎn)換為str后用正則（不推薦）