Pandas數(shù)據(jù)類型自行變換及數(shù)據(jù)類型轉(zhuǎn)換失敗問題分析與解決
Pandas數(shù)據(jù)類型自行變換及數(shù)據(jù)類型轉(zhuǎn)換失敗
最近,在進行數(shù)據(jù)處理過程中,頻繁使用Pandas進行DataFrame關聯(lián)、合并、數(shù)據(jù)類型變換操作,當?shù)阶詈髷?shù)據(jù)入庫(MongoDB)時,出現(xiàn)部分整型數(shù)據(jù)變成浮點型,以及時間轉(zhuǎn)字符串存儲時,偶爾出現(xiàn)少部分存儲為時間戳整型數(shù)據(jù)(也就是說偶爾出現(xiàn)時間轉(zhuǎn)換為字符串轉(zhuǎn)換失敗的情況),
如下圖所示。
1. 整型變浮點型情況
1.1. 問題情況再現(xiàn)
1.1.1. 空值情況
在DataFrame表間關聯(lián)(merge)、合并(concat)過程中,容易出現(xiàn)數(shù)據(jù)為空的情況,則其對應的數(shù)據(jù)列將為float64。
import pandas as pd df1 = pd.DataFrame({'yearmonth': ['202201','202202','202203'], 'monthnum': [1,2,3]}) df2 = pd.DataFrame({'yearmonth': ['202201','202202'], 'testint': [11,12]}) print('df2數(shù)據(jù)類型\n',df2.dtypes) df = pd.merge(left=df1,right=df2,how='left',on=['yearmonth']) print('連接合并后數(shù)據(jù)類型\n',df.dtypes) df
運行程序輸出結果如下所示,“testint”列的數(shù)據(jù)類型由int64變成float64。
1.1.2. 正負無窮情況(除數(shù)為0)
在DataFrame表中,進行數(shù)據(jù)計算過程中,如果出現(xiàn)除數(shù)為零,則表示為正負無窮,對應的列為float64類型。
import pandas as pd df1 = pd.DataFrame({'yearmonth': ['202201','202202','202203'], 'monthnum': [1,2,3]}) print('df1數(shù)據(jù)類型\n',df1.dtypes) df1.loc[:,'monthnum'] = df1['monthnum']/0 print('除零后,df1數(shù)據(jù)類型\n',df1.dtypes) df1
1.1.3. 讀取含有空值的數(shù)據(jù)源
以讀取簡單的csv數(shù)據(jù)文件為例:
import pandas as pd df = pd.read_csv('nan.csv') print('數(shù)據(jù)類型\n',df.dtypes) df
數(shù)據(jù)表nan.csv中,B列有個空值,則讀取數(shù)據(jù)后,B列為float64類型。
1.2. 小結
對于DataFrame表,在數(shù)據(jù)處理過程中,如果出現(xiàn)空值(nan)、正負無窮(inf),pandas將轉(zhuǎn)換為默認的float64數(shù)據(jù)類型。
1.3. 解決方案
在關鍵點,例如存儲、計算前,如有必要,按數(shù)據(jù)字典定義類型,強制統(tǒng)一轉(zhuǎn)換為定義類型。
注意:
- 首先,把空值處理掉,例如填充0,或其他需要的值;
- 如果,一列存在多種類型數(shù)據(jù),需要單獨處理,詳見后續(xù)介紹。
2. 時間類型轉(zhuǎn)字符串失敗情況
2.1. 關于pandas時間類型與整型、字符串型轉(zhuǎn)換
序號 | 功能 | 原數(shù)據(jù)類型 | 目標數(shù)據(jù)類型 | 方法 |
---|---|---|---|---|
1 | 時間轉(zhuǎn)整型 | datetime[ns] | int64 | df[‘列名’].astype(‘int64’) |
2 | 時間轉(zhuǎn)字符串 | datetime[ns] | str(object) | df[‘列名’].dt.strftime(‘%Y-%m-%d’) |
3 | 整型轉(zhuǎn)時間 | int64 | datetime[ns] | df[‘列名’].astype(‘datetime64[ns]’) |
4 | 字符串轉(zhuǎn)時間 | str(object) | datetime[ns] | df[‘列名’]…astype(‘datetime64’) |
其中:時間類型單個數(shù)據(jù)的類型為
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
對象,其他為正常python數(shù)據(jù)類型,例如int、str等。
import pandas as pd import time df = pd.DataFrame({'yearmonth': ['202201','202202','202202'], 'monthnum': [1,2,1], 'datetime': [pd.Timestamp('2018-03-10 21:00:01'),pd.Timestamp('2019-03-10 12:02:00'),pd.Timestamp('2019-09-10 12:02:00')]}) df['datetimenum'] = df['datetime'].astype('int64') df
df.loc[:,'datetimenum'] = df['datetimenum'].astype('datetime64[ns]') df['datetimestr'] = df['datetime'].dt.strftime('%Y-%m-%d') df.loc[:,'datetimestr'] = df['datetimestr'].astype('datetime64')
2.2. 單列復雜數(shù)據(jù)類型情況及解決方法
由于很難模擬出時間類型轉(zhuǎn)字符串失敗情況,文中僅僅采用按行強制賦值方式構建分析樣本。
分別直接賦值整型時間戳和字符串時間,如下列所示。
df.loc[1,'datetimenum'] = 1611532800000 df.loc[2,'datetimestr'] = '2022-08-10' df.dtypes # 下面代碼報錯! df.loc[:,'datetimenum'] = df['datetimenum'].astype('datetime64') df.loc[:,'datetimenum'] = df['datetimenum'].astype('datetime64[ns]')
對于目標為時間類型的列(本例中的datetimenum),如果某行存儲一個整型數(shù)據(jù),即使是時間戳整數(shù),這種混合情況,表現(xiàn)類型為“Object”,在類型轉(zhuǎn)換時將會報錯。
ValueError: mixed datetimes and integers in passed array
對于這種復雜混合類型的列,可以采用逐行按具體數(shù)據(jù)類型轉(zhuǎn)換到目標類型,如下文把混合時間、字符串、時間戳整數(shù)的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為字符串類型。
import numpy as np import time def f(timeNum): if type(timeNum) == type(1): timeTemp = float(timeNum/1000) tupTime = time.localtime(timeTemp) #stadardTime = time.strftime("%Y-%m-%d %H:%M:%S", tupTime) stadardTime = time.strftime("%Y-%m-%d", tupTime) elif type(timeNum) == type('2022-08-18'): stadardTime = timeNum else: print(type(timeNum)) #stadardTime = timeNum.strftime("%Y-%m-%d %H:%M:%S") stadardTime = timeNum.strftime("%Y-%m-%d") print(timeNum) return pd.Series([stadardTime]) df['datetimestr'] = df['datetimestr'].apply(lambda x:f(x)) df
2.3. 相關內(nèi)容,數(shù)據(jù)類型識別
Python中常用isinstance()和type()內(nèi)置函數(shù)判斷數(shù)據(jù)類型:
isinstance()
是Python中的一個內(nèi)建函數(shù)。是用來判斷一個對象的變量類型。
isinstance(object, classinfo)
- 如果參數(shù)object是classinfo的實例,或者object是classinfo類的子類的一個實例, 返回True。
- 如果object不是一個給定類型的的對象, 則返回結果總是False。
type
函數(shù)是Python的內(nèi)置函數(shù),返回參數(shù)的類型。
# type函數(shù) variateint = 100 variatestr = '100' if type(variateint) == type(1): print('int') if type(variatestr) == type('hello'): print('str') # isinstance函數(shù) if isinstance(variateint,int): print('int') if isinstance(variatestr,str): print('str')
補充:
type只接收一個參數(shù),不但可以判斷變量是否屬于某個類型,而且可以得到參數(shù)變量未知的所屬的類型;
而isinstance只能判斷是否屬于某個已知類型,不能直接得到變量未知的所屬的類型
總結
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
python-docx修改已存在的Word文檔的表格的字體格式方法
今天小編就為大家分享一篇python-docx修改已存在的Word文檔的表格的字體格式方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05python+pygame實現(xiàn)代碼雨(黑客帝國既視感)
這篇文章主要介紹了python+pygame實現(xiàn)代碼雨(黑客帝國既視感),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-03-03PyTorch中tensor.backward()函數(shù)的詳細介紹及功能實現(xiàn)
backward()?函數(shù)是PyTorch框架中自動求梯度功能的一部分,它負責執(zhí)行反向傳播算法以計算模型參數(shù)的梯度,這篇文章主要介紹了PyTorch中tensor.backward()函數(shù)的詳細介紹,需要的朋友可以參考下2024-02-02