Python使用read_csv讀數(shù)據(jù)遇到分隔符問題的2種解決方式
用read_csv讀數(shù)據(jù)遇到分隔符問題的兩種解決方式
import pandas as pd
1.更改read_csv函數(shù)中的傳參“sep”
1.1缺省sep參數(shù)
默認(rèn)分隔符為‘,’
1.2不缺省sep參數(shù)
1.2.1要讀入的文檔中分隔符為一位字符
用單引號(hào)括起文本中的分隔符
例:sep = '|'
1.2.2要讀入的文檔中分隔符為多位字符
多位字符在python中被識(shí)別為正則式
此時(shí)可用為sep = ‘\s+’
(不論多位分隔符有什么組成,比如幾個(gè)空格、\r\t)
此時(shí),python將用自己的語法分析器來對(duì)多位字符進(jìn)行識(shí)別
2.利用記事本功能進(jìn)行分隔符替換
因?yàn)樽约涸诰幊痰臅r(shí)候用正則表達(dá)式出現(xiàn)了一些問題,故找到了另一種更改文本中分隔符,以便于設(shè)定sep參數(shù)的方法,現(xiàn)記錄如下。
2.1利用txt中的“編輯”—>“替換”操作
當(dāng)前分隔符為‘,’
替換為‘ | ’,并單擊全部替換
替換后,分隔符為‘ | ’
2.2小tips
選擇分隔符的時(shí)候有可能面臨
“這么大空擋是幾個(gè)空格?”
“這個(gè)逗號(hào)是中文的還是英文的?”
…
所以建議直接用鼠標(biāo)拉著兩個(gè)數(shù)據(jù)之間的分割區(qū)域,復(fù)制,然后粘貼填入要替換的框中。(像我這種手殘眼花的人就喜歡這種方式。。。)
補(bǔ)充:Python read_csv 報(bào)錯(cuò):‘gbk‘ codec can‘t decode byte 0xb4 in position 8: illegal multibyte sequence
在我們使用pandas.read_csv()讀取文件時(shí) 經(jīng)常會(huì)遇到UnicodeDecodeError 的錯(cuò)誤
我遇到的主要有兩種:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 8: illegal multibyte sequence
或者
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte
嘗試過改encoding="gbk",encoding="utf-8"或者GB2312、gbk、ISO-8859-1的方法,有時(shí)候能夠起效果,有時(shí)候不行
介紹一種最有效的方法:??????
1.找到csv文件–>右鍵–>打開方式–>記事本
2.打開記事本之后,在右下角可以看到文件的默認(rèn)編碼格式為ANSI,選擇頭部菜單的“文件–>另存為”,
3.選擇編碼下拉框,選擇需要的編碼格式UTF-8,重新保存即可
4.使用 read_csv('./test.csv', encoding="utf-8") 即可
下面我遇到過錯(cuò)誤可以嘗試的解決辦法如下(推薦使用上面的,下面的有時(shí)候也不行):
1. csvdata = pd.read_csv(file, keep_default_na=False, encoding="gbk")
報(bào)錯(cuò):
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 8: illegal multibyte sequence
解決:將 encoding="gbk" 改為encoding="utf-8" 或者刪掉
2. csvdata = pd.read_csv(file, keep_default_na=False)
報(bào)錯(cuò):
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte
解決:加上 encoding="gbk" 試試看
總結(jié)
到此這篇關(guān)于Python使用read_csv讀數(shù)據(jù)遇到分隔符問題的2種解決方式的文章就介紹到這了,更多相關(guān)Python read_csv讀數(shù)據(jù)分隔符問題內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python?列表套json字典根據(jù)相同的key篩選數(shù)據(jù)
這篇文章主要介紹了python?列表套json字典根據(jù)相同的key篩選數(shù)據(jù),文章基于python的相關(guān)資料展開詳細(xì)的內(nèi)容介紹需要的小伙伴可以參考一下2022-04-04python 利用matplotlib在3D空間中繪制平面的案例
這篇文章主要介紹了python 利用matplotlib在3D空間中繪制平面的案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2021-02-02Python中使用urllib2模塊編寫爬蟲的簡(jiǎn)單上手示例
這篇文章主要介紹了Python中使用urllib2模塊編寫爬蟲的簡(jiǎn)單上手示例,文中還介紹到了相關(guān)異常處理功能的添加,需要的朋友可以參考下2016-01-01Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能示例
這篇文章主要介紹了Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能,結(jié)合實(shí)例形式分析了scrapy框架proxy代理設(shè)置技巧與相關(guān)問題注意事項(xiàng),需要的朋友可以參考下2018-08-08python return邏輯判斷表達(dá)式實(shí)現(xiàn)解析
這篇文章主要介紹了python return邏輯判斷表達(dá)式實(shí)現(xiàn)解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-12-12Python讀取配置文件(config.ini)以及寫入配置文件
這篇文章主要介紹了Python讀取配置文件(config.ini)以及寫入配置文件,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-04-04Python下singleton模式的實(shí)現(xiàn)方法
這篇文章主要介紹了Python下singleton模式的實(shí)現(xiàn)方法,有一定的借鑒價(jià)值,需要的朋友可以參考下2014-07-07