欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

數據清洗之如何用一行Python代碼去掉文本中的各種符號

 更新時間:2022年11月23日 10:31:16   作者:coder1479  
我們在處理文本的時候往往需要對標點符號進行處理,下面這篇文章主要給大家介紹了關于數據清洗之如何用一行Python代碼去掉文本中的各種符號的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下

前言

在搜集了很多文本語料之后,會開始漫長的數據清洗過程,通常要不斷迭代。

1. 問題描述

有些文本數據中,會包含一些特殊符號。

猜想可能是從某些富文本編輯器中直接粘貼到了網頁。

如果要清除這些特殊符號,就需要專門的工具。

2. 相關知識

Unicode標準把符號分為四大類,分別是:

縮寫詳情
[Sc]Symbol, Currency
[Sk]Symbol, Modifier
[Sm]Symbol, Math
[So]Symbol, Other

一般需要清理掉的符號會是So類型的,但還是要根據自己的數據情況具體分析

3. 解決方案

在數據清洗過程中遇到的符號可能包括:雜項符號、幾何形狀、箭頭、心形、星形、表情Emoji、貨幣符號等。

如果以上這些符號都要刪除,可以用下面的代碼。

text = "".join(ch for ch in text if unicodedata.category(ch)[0]!= 'S')

如果需要單獨去除某一類,或者希望知道某個符號所屬的具體類別,就需要到這個網站:

https://www.unicode.org/charts/charindex.html

查找對應的符號類型。

以箭頭符號為例。

先用Arrow搜索上面的網頁,找到純粹的箭頭項Arrows,對應的文檔是:https://www.unicode.org/charts/PDF/U2190.pdf

找到自己需要的箭頭,并查看對應的名字。

舉例:箭頭

RIGHTWARDS ARROW,然后用python提供的unicodedata標準庫,查找這個符號的類別。

unicodedata.lookup('RIGHTWARDS ARROW')
'→'
unicodedata.category('→')
'Sm'

這樣,就知道要查找的箭頭符號,屬于Sm類別(數學符號)。

舉例:黑色方塊

BLACK SQUARE ■ U+25A0

unicodedata.lookup('BLACK SQUARE')
'■'
unicodedata.category('■')
'So'

舉例:黑色心形

unicodedata.lookup('BLACK HEART SUIT')
'?'
unicodedata.category('?')
'So'

舉例:黑色星形

unicodedata.lookup('BLACK FOUR POINTED STAR')
'?'
unicodedata.category('?')
'So'

如果只需要去除雜項符號,可以用下面的python代碼。

text = "".join(ch for ch in text if unicodedata.category(ch) != 'So')

另一個有用的網址:

https://www.fileformat.info/info/unicode/category/index.htm

總結

到此這篇關于數據清洗之如何用一行Python代碼去掉文本中的各種符號的文章就介紹到這了,更多相關Python去掉文本各種符號內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Python+pyftpdlib實現局域網文件互傳

    Python+pyftpdlib實現局域網文件互傳

    這篇文章主要介紹了Python+pyftpdlib實現局域網文件互傳,需要的朋友可以參考下
    2020-08-08
  • Python灰度變換中位圖切割分析實現

    Python灰度變換中位圖切割分析實現

    灰度變換是指根據某種目標條件按一定變換關系逐點改變源圖像中每個像素灰度值的方法。目的是改善畫質,使圖像顯示效果更加清晰。圖像的灰度變換處理是圖像增強處理技術中的一種非?;A、直接的空間域圖像處理方法,也是圖像數字化軟件和圖像顯示軟件的一個重要組成部分
    2022-10-10
  • Python可執(zhí)行文件反編譯教程(exe轉py)

    Python可執(zhí)行文件反編譯教程(exe轉py)

    python的便利性,使得如今許多軟件開發(fā)者、黑客都開始使用python打包成exe的方式進行程序的發(fā)布,那么Python如何反編譯可執(zhí)行文件,本文就來介紹一下,感興趣的可以了解一下
    2021-12-12
  • Python實現從log日志中提取ip的方法【正則提取】

    Python實現從log日志中提取ip的方法【正則提取】

    這篇文章主要介紹了Python實現從log日志中提取ip的方法,涉及Python文件讀取、數據遍歷、正則匹配等相關操作技巧,需要的朋友可以參考下
    2018-03-03
  • Keras SGD 隨機梯度下降優(yōu)化器參數設置方式

    Keras SGD 隨機梯度下降優(yōu)化器參數設置方式

    這篇文章主要介紹了Keras SGD 隨機梯度下降優(yōu)化器參數設置方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • python dataframe實現統(tǒng)計行列中零值的個數

    python dataframe實現統(tǒng)計行列中零值的個數

    這篇文章主要介紹了python dataframe實現統(tǒng)計行列中零值的個數,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-02-02
  • python中的列表推導淺析

    python中的列表推導淺析

    這篇文章主要介紹了python中的列表推導,需要的朋友可以參考下
    2014-04-04
  • Python中判斷語句入門指南(if?elif?else語句)

    Python中判斷語句入門指南(if?elif?else語句)

    if elif else語句是Python中的控制語句,用于根據條件執(zhí)行不同的操作,下面這篇文章主要給大家介紹了關于Python中判斷語句入門指南(if?elif?else語句)的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2023-05-05
  • Python使用matplotlib繪制Logistic曲線操作示例

    Python使用matplotlib繪制Logistic曲線操作示例

    這篇文章主要介紹了Python使用matplotlib繪制Logistic曲線操作,結合實例形式詳細分析了Python基于matplotlib庫繪制Logistic曲線相關步驟與實現技巧,需要的朋友可以參考下
    2019-11-11
  • Python+OpenCV六種實時圖像處理詳細講解

    Python+OpenCV六種實時圖像處理詳細講解

    OpenCV常用的圖像處理為閾值二值化、邊緣檢測、輪廓檢測、高斯濾波、色彩轉換、調節(jié)對比度。本文主要介紹了利用Python和OpenCV對實時圖像進行上述六種操作的詳細講解,感興趣的可以了解一下。
    2021-11-11

最新評論