Pandas執(zhí)行SQL操作的實現(xiàn)

更新時間：2024年07月26日 11:54:14 作者：qwy715229258163

使用SQL語句能夠完成對table的增刪改查操作,Pandas同樣也可以實現(xiàn)SQL語句的基本功能,本文就來介紹一下,具有一檔的參考價值,感興趣的可以了解一下

EMPNO ENAME JOB MGR HIREDATE SAL COMM DEPTNO
0 7369 SMITH CLERK 7902.0 1980-12-17 800 NaN 20
1 7499 ALLEN SALESMAN 7698.0 1981-02-20 1600 300.0 30
2 7521 WARD SALESMAN 7698.0 1981-02-22 1250 500.0 30
3 7566 JONES MANAGER 7839.0 1981-04-02 2975 NaN 20
4 7654 MARTIN SALESMAN 7698.0 1981-09-28 1250 1400.0 30
5 7698 BLAKE MANAGER 7839.0 1981-05-01 2850 NaN 30
6 7782 CLARK MANAGER 7839.0 1981-06-09 2450 NaN 10
7 7788 SCOTT ANALYST 7566.0 1987-04-19 3000 NaN 20
8 7839 KING PRESIDENT NaN 1981-11-17 5000 NaN 10
9 7844 TURNER SALESMAN 7698.0 1981-09-08 1500 0.0 30
10 7876 ADAMS CLERK 7788.0 1987-05-23 1100 NaN 20
11 7900 JAMES CLERK 7698.0 1981-12-03 950 NaN 30
12 7902 FORD ANALYST 7566.0 1981-12-03 3000 NaN 20
13 7934 MILLER CLERK 7782.0 1982-01-23 1300 NaN 10

SELECT

在 SQL 中，SELECT 查詢語句使用,把要查詢的每個字段分開，當然您也可以使用*來選擇所有的字段。如下所示：

SELECT EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,COMM,DEPTNO FROM emp LIMIT 5;

對于 Pandas 而言，要完成 SELECT 查詢，需要把數(shù)據(jù)集每一列（columns）的名稱傳遞給 DataFrame 對象。如下所示：

df[['EMPNO','ENAME','JOB','MGR','HIREDATE','SAL','COMM' , 'DEPTNO']].head(5)

下面代碼是 Pandas 執(zhí)行 SELECT 查詢的完整程序：

import pandas as pd
df = pd.read_excel("C:\\Users\\qwy\\Desktop\\data\\empdata.xlsx")
emp = df[['EMPNO','ENAME','JOB','MGR','HIREDATE','SAL','COMM' , 'DEPTNO']].head(5)
print(emp)

輸出結果如下：

EMPNO ENAME JOB MGR HIREDATE SAL COMM DEPTNO
0 7369 SMITH CLERK 7902.0 1980-12-17 800 NaN 20
1 7499 ALLEN SALESMAN 7698.0 1981-02-20 1600 300.0 30
2 7521 WARD SALESMAN 7698.0 1981-02-22 1250 500.0 30
3 7566 JONES MANAGER 7839.0 1981-04-02 2975 NaN 20
4 7654 MARTIN SALESMAN 7698.0 1981-09-28 1250 1400.0 30

假如您傳入的是一個空列表，那最終結果將輸出所有的行索引標簽。

WHERE

SQL 中的條件查詢是通過 WHERE 子句完成的。格式如下所示：

SELECT * FROM EMP WHERE DEPTNO = '30';

然而 DataFrame 可以通過多種方式實現(xiàn)條件篩選，最直觀的方法是通過布爾索引：

df[df['DEPTNO'] == 30]

完整程序如下：

import pandas as pd
df = pd.read_excel("C:\\Users\\qwy\\Desktop\\data\\empdata.xlsx")
emp = df[df['DEPTNO'] == 30]
print(emp)

輸出結果如下：

EMPNO ENAME JOB MGR HIREDATE SAL COMM DEPTNO
1 7499 ALLEN SALESMAN 7698.0 1981-02-20 1600 300.0 30
2 7521 WARD SALESMAN 7698.0 1981-02-22 1250 500.0 30
4 7654 MARTIN SALESMAN 7698.0 1981-09-28 1250 1400.0 30
5 7698 BLAKE MANAGER 7839.0 1981-05-01 2850 NaN 30
9 7844 TURNER SALESMAN 7698.0 1981-09-08 1500 0.0 30
11 7900 JAMES CLERK 7698.0 1981-12-03 950 NaN 30

上面的語句通過布爾運算將 True 或 False 對象傳遞給 DataFrame 對象，然后返回所有為 True 的行。

GroupBy

在 SQL 語句中，通過 GroupBy 操作可以獲取 table 中一組記錄的計數(shù)。示例如下：

SELECT id, count(*) FROM EMP GROUP BY DEPTNO;

而 Pandas 可通過以下代碼實現(xiàn)：

df.groupby('DEPTNO').size()

完整的程序如下所示：

import pandas as pd
import numpy as np
df = pd.read_excel("C:\\Users\\qwy\\Desktop\\data\\empdata.xlsx")
emp_count = df.groupby('DEPTNO').size()
# 或者使用agg或aggregate函數(shù)
# emp_count = df.groupby('DEPTNO').aggregate({'EMPNO':np.size,'SAL':np.mean})
print(emp_count)

輸出結果：

DEPTNO
10 3
20 5
30 6
dtype: int64

LIMIT

在 SQL 中，LIMIT 語句主要起到限制作用，比如查詢前 n 行記錄：

SELECT * FROM EMP LIMIT n;

而在 Pandas 中，您可以通過 head() 來實現(xiàn)（默認前 5 行），示例如下：

import pandas as pd
df = pd.read_excel("C:\\Users\\qwy\\Desktop\\data\\empdata.xlsx")
emp = df[['EMPNO','ENAME','JOB','MGR','HIREDATE','SAL','COMM' , 'DEPTNO']].head(5)
print(emp)

輸出結果：

EMPNO ENAME JOB MGR HIREDATE SAL COMM DEPTNO
0 7369 SMITH CLERK 7902.0 1980-12-17 800 NaN 20
1 7499 ALLEN SALESMAN 7698.0 1981-02-20 1600 300.0 30
2 7521 WARD SALESMAN 7698.0 1981-02-22 1250 500.0 30
3 7566 JONES MANAGER 7839.0 1981-04-02 2975 NaN 20
4 7654 MARTIN SALESMAN 7698.0 1981-09-28 1250 1400.0 30

到此這篇關于Pandas執(zhí)行SQL操作的實現(xiàn)的文章就介紹到這了,更多相關Pandas執(zhí)行SQL操作內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: