Python中Pandas庫的數據處理與分析
一、Pandas的數據結構
Pandas主要有兩種數據結構:Series
和DataFrame
。
1. Series
Series
是一種類似于一維數組的對象,它由一組數據和一組與之相關的數據標簽(即索引)組成。
import pandas as pd s = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s)
2. DataFrame
DataFrame
是一種二維的表格型數據結構,每列可以是不同的值類型(數值、字符串、布爾值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個索引)。
import pandas as pd data = {'Country': ['Belgium', 'India', 'Brazil'], 'Capital': ['Brussels', 'New Delhi', 'Brasília'], 'Population': [11190846, 1303171035, 207847528]} df = pd.DataFrame(data, columns=["Country", "Capital", "Population"]) print(df)
二、數據讀取與寫入
Pandas提供了一些用于將表格型數據讀取為DataFrame對象的函數,支持多種格式的數據,如csv、excel、json、html、sql等。
import pandas as pd # 從CSV文件中讀取數據 df = pd.read_csv('file.csv') # 將數據寫入CSV文件中 df.to_csv('file.csv')
三、數據選擇與操作
Pandas提供了多種方式進行數據的選擇與操作。
import pandas as pd # 創(chuàng)建一個數據集 data = {'Name': ['Tom', 'Nick', 'John', 'Tom'], 'Age': [20, 21, 19, 20], 'Country':['US', 'UK', 'US', 'UK']} df = pd.DataFrame(data) # 選擇'Name'列 df['Name'] # 選擇第0行 df.iloc[0] # 選擇滿足條件的行 df[df.Age > 20] # 對'Age'列進行求和 df['Age'].sum() # 對'Country'列進行計數 df['Country'].value_counts()
Pandas的功能遠不止這些,還包括合并、分組、缺失數據處理、數據透視表等高級功能,為數據處理和分析提供了強大的工具。
到此這篇關于Python中Pandas庫的數據處理與分析的文章就介紹到這了,更多相關Python Pandas庫內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!