欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python pandas讀取CSV文件的注意事項(適合新手)

 更新時間:2021年06月20日 12:22:11   作者:郝偉博士  
這篇文章主要給大家介紹了關(guān)于Python pandas讀取CSV文件的注意事項,非常適合新手,csv是我接觸的比較早的一種文件,比較好的是這種文件既能夠以電子表格的形式查看又能夠以文本的形式查看,需要的朋友可以參考下

前言

本文是給使用pandas的新手而寫,主要列出一些常見的問題,根據(jù)筆者所踩過的坑,進(jìn)行歸納總結(jié),希望對讀者有所幫助。

示例文件

將以下內(nèi)容保存為文件 people.csv。

id,姓名,性別,出生日期,出生地,職業(yè),愛好
1,張小三,m,1992-10-03,北京,工程師,足球
2,李云義,m,1995-02-12,上海,程序員,讀書 下棋
3,周娟,女,1998-03-25,合肥,護(hù)士,音樂,跑步
4,趙盈盈,Female,2001-6-32,,學(xué)生,畫畫
5,鄭強(qiáng)強(qiáng),男,1991-03-05,南京(nanjing),律師,歷史-政治

如果一切正常的話,在Jupyter Notebook 中應(yīng)該顯示以下內(nèi)容:

文件編碼

文件編碼格式是最容易出錯的問題之一。如果編碼格式不正確,就會完全讀取不出文件內(nèi)容,出現(xiàn)類似于以下的錯誤, 讓人完全不知所措:

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-6-8659adefcfa6> in <module>
----> 1 pd.read_csv('people.csv', encoding='gb2312')

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
    683         )
    684
--> 685         return _read(filepath_or_buffer, kwds)
    686
    687     parser_f.__name__ = name

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
    455
    456     # Create the parser.
--> 457     parser = TextFileReader(fp_or_buf, **kwds)
    458
    459     if chunksize or iterator:

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in __init__(self, f, engine, **kwds)
    893             self.options["has_index_names"] = kwds["has_index_names"]
    894
--> 895         self._make_engine(self.engine)
    896
    897     def close(self):

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _make_engine(self, engine)
   1133     def _make_engine(self, engine="c"):
   1134         if engine == "c":
-> 1135             self._engine = CParserWrapper(self.f, **self.options)
   1136         else:
   1137             if engine == "python":

C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in __init__(self, src, **kwds)
   1915         kwds["usecols"] = self.usecols
   1916
-> 1917         self._reader = parsers.TextReader(src, **kwds)
   1918         self.unnamed_cols = self._reader.unnamed_cols
   1919

pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader.__cinit__()

pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader._get_header()

UnicodeDecodeError: 'gb2312' codec can't decode byte 0x93 in position 2: illegal multibyte sequence

目前對于中文而言,最常使用的有 utf-8 和 gb2312 兩種格式,只需要指定正確的編碼。在不知道編碼的情況下,只需要嘗試兩次即可。padas默認(rèn)的文件編碼格式是 utf-8,所以如果出現(xiàn)以上錯誤,只需使用 encoding=gb2312 再嘗試一下即可,如 pd.read_csv(file, encoding='gb2312')。

空值

空值是csv中也非常常見,比如以下內(nèi)容:

import pandas as pd
df = pd.read_csv('people.csv')
v1=df['出生地'][3]
print(v1, type(v1))

輸出為:

nan <class 'float'>

由此可見,空值也是有數(shù)據(jù)類型的,為 float 類型。

如何判斷空值有兩種方法,可以使用 math.isnan(x) 也可以使用 isinstance(float)。我們知道,DateFrame對象是包括Series對象,而在一個Series對象中,所有的數(shù)據(jù)類型默認(rèn)是一樣的,所以如果其數(shù)據(jù)類型推斷為字符串(str),那么直接使用 math.isnan(x) 則會報錯 TypeError: must be real number, not str 錯誤,即必需為實數(shù),不能是字符串。所以,這時我們還需要使用 isinstance(x, flaot) 方法。
具體請看這個示例:

df.出生地=df.出生地.map(lambda x: '其他' if isinstance(x, float) else x)
df


日期錯誤

出生日期中,有的數(shù)據(jù)錯誤,如趙盈盈的出生日期是6月32號,所以報錯了。對于這樣類似的錯誤,我們可以使用函數(shù)判斷的方式進(jìn)行處理,具體如下。

首先,編寫 isDate 函數(shù)用于判斷日期是否合法。

def isDate(adate):
    try:
        sects = adate.split('-')
        year = int(sects[0])
        month = int(sects[1])
        day = int(sects[2])
        days = [0, 31, 29 if year % 4 == 0 else 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31]
        return year > 0 and year < 9999 and month > 0 and month <= 12 and day > 0 and day <= days[month]
    except:
        return False

然后使用以下代碼進(jìn)行判斷:

for id in df.index:
    if not isDate(df.loc[id, '出生日期']):
        print(df.loc[id, '出生日期'])
        df.loc[id, '出生日期'] = '2000-01-01'

輸出結(jié)果如下,可見錯誤的日期被修改成了2020年1月1日。

2001-6-32
   id   姓名      性別        出生日期          出生地   職業(yè)     愛好 
0   1  張小三       m  1992-10-03           北京  工程師     足球  
1   2  李云義       m  1995-02-12           上海  程序員  讀書 下棋  
2   3   周娟       女  1998-03-25           合肥   護(hù)士  音樂,跑步  
3   4  趙盈盈  Female  2000-01-01          NaN   學(xué)生     畫畫   
4   5  鄭強(qiáng)強(qiáng)       男  1991-03-05  南京(nanjing)   律師  歷史-政治  

函數(shù)映射

方法1:直接使用labmda表達(dá)式

需要對數(shù)據(jù)列進(jìn)行復(fù)雜操作的時候,我們可以使用以下函數(shù)時行相應(yīng)的操作。

df=df.fillna('未知')
df.愛好=df.愛好.map(lambda x: x.split(' ')[0].split('-')[0].split(',')[0])
df

方法二:使用自定義函數(shù)

在進(jìn)行映射時,如果操作比較簡單,可以使用字典的方式進(jìn)行數(shù)值映射映射(參見下文)。但是如果操作比較復(fù)雜,則需要使用函數(shù)進(jìn)行映射。請看這個示例,讀取到性別時,內(nèi)容有 ‘m', ‘M', ‘Female' 等內(nèi)容,現(xiàn)在需要其全部轉(zhuǎn)換為 男 或 女:

def set_sex(s):
    if s.lower() == 'm' or s.lower() == 'male':
        return '男'
    elif s.lower() == 'female':
        return '女'        
    return s

df = pd.read_csv('people.csv', converters={'性別': lambda x : set_sex(x)})
df

方法三:使用數(shù)值字典映射

在數(shù)據(jù)處理時,數(shù)值型往往比字符串效率更高,所以在可能的情況下,我們希望將數(shù)據(jù)轉(zhuǎn)換成字符串處理。請看這個示例,將輸入的數(shù)據(jù)的性別中的男性轉(zhuǎn)換為1 女性轉(zhuǎn)換為0。操作如下:

總結(jié)

到此這篇關(guān)于Python pandas讀取CSV文件注意事項的文章就介紹到這了,更多相關(guān)pandas讀取CSV文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python利用神經(jīng)網(wǎng)絡(luò)解決非線性回歸問題實例詳解

    Python利用神經(jīng)網(wǎng)絡(luò)解決非線性回歸問題實例詳解

    這篇文章主要介紹了Python利用神經(jīng)網(wǎng)絡(luò)解決非線性回歸問題,結(jié)合實例形式詳細(xì)分析了Python使用神經(jīng)網(wǎng)絡(luò)解決非線性回歸問題的相關(guān)原理與實現(xiàn)技巧,需要的朋友可以參考下
    2019-07-07
  • 教你利用Python破解ZIP或RAR文件密碼

    教你利用Python破解ZIP或RAR文件密碼

    常常會從網(wǎng)絡(luò)上下載一些帶密碼的壓縮包,想要獲取里面的內(nèi)容,往往就要給提供商支付一些費(fèi)用.想要白嫖其中的內(nèi)容,常見的做法是百度搜索一些壓縮包密碼破解軟件,但后果相信體驗過的人都知道.本文詳細(xì)介紹了怎么破解壓縮包,需要的朋友可以參考下
    2021-05-05
  • 使用Python設(shè)置tmpfs來加速項目的教程

    使用Python設(shè)置tmpfs來加速項目的教程

    這篇文章主要介紹了使用Python設(shè)置tmpfs來加速項目的教程,文中給出方法使用Python腳本將tmpfs保存于內(nèi)存中的程序存儲到本地硬盤上,需要的朋友可以參考下
    2015-04-04
  • python的命名規(guī)則知識點總結(jié)

    python的命名規(guī)則知識點總結(jié)

    在本篇文章里小編給大家分享的是關(guān)于python的命名規(guī)則知識點總結(jié),有需要的朋友們可以參考下。
    2019-10-10
  • 詳解pandas.DataFrame.plot() 畫圖函數(shù)

    詳解pandas.DataFrame.plot() 畫圖函數(shù)

    這篇文章主要介紹了詳解pandas.DataFrame.plot()畫圖函數(shù),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-06-06
  • python 實現(xiàn)Requests發(fā)送帶cookies的請求

    python 實現(xiàn)Requests發(fā)送帶cookies的請求

    這篇文章主要介紹了python 實現(xiàn)Requests發(fā)送帶cookies請求的方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-02-02
  • Python史上最全種類數(shù)據(jù)庫操作方法分享

    Python史上最全種類數(shù)據(jù)庫操作方法分享

    本文將詳細(xì)探討如何在Python中連接全種類數(shù)據(jù)庫以及實現(xiàn)相應(yīng)的CRUD(創(chuàng)建,讀取,更新,刪除)操作,文中的示例代碼講解詳細(xì),需要的可以參考一下
    2023-07-07
  • Python登錄接口如何獲取token并保存到文件中

    Python登錄接口如何獲取token并保存到文件中

    這篇文章主要介紹了Python登錄接口如何獲取token并保存到文件中問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • python使用MkDocs自動生成文檔的操作方法

    python使用MkDocs自動生成文檔的操作方法

    python代碼注釋風(fēng)格有很多,比較主流的有 reStructuredText風(fēng)格、numpy風(fēng)格、Google風(fēng)格,自動生成文檔的工具也有很多,常見的有:Pydocs,Sphinx和MkDocs,本文給大家介紹了python使用MkDocs自動生成文檔的操作方法,需要的朋友可以參考下
    2024-06-06
  • Python List列表對象內(nèi)置方法實例詳解

    Python List列表對象內(nèi)置方法實例詳解

    這篇文章主要介紹了Python List列表對象內(nèi)置方法,結(jié)合實例形式詳細(xì)分析了Python列表list各種常用內(nèi)置方法的功能與使用技巧,需要的朋友可以參考下
    2019-10-10

最新評論