Python 讀取千萬(wàn)級(jí)數(shù)據(jù)自動(dòng)寫(xiě)入 MySQL 數(shù)據(jù)庫(kù)
前言
Python 讀取數(shù)據(jù)自動(dòng)寫(xiě)入 MySQL 數(shù)據(jù)庫(kù),這個(gè)需求在工作中是非常普遍的,主要涉及到 python 操作數(shù)據(jù)庫(kù),讀寫(xiě)更新等,數(shù)據(jù)庫(kù)可能是 mongodb、 es,他們的處理思路都是相似的,只需要將操作數(shù)據(jù)庫(kù)的語(yǔ)法更換即可。本篇文章會(huì)給大家系統(tǒng)的分享千萬(wàn)級(jí)數(shù)據(jù)如何寫(xiě)入到 mysql,分為兩個(gè)場(chǎng)景,兩種方式。
場(chǎng)景一:數(shù)據(jù)不需要頻繁的寫(xiě)入mysql
使用 navicat 工具的導(dǎo)入向?qū)Чδ?。支持多種文件格式,可以根據(jù)文件的字段自動(dòng)建表,也可以在已有表中插入數(shù)據(jù),非??旖莘奖恪?/p>
場(chǎng)景二:數(shù)據(jù)是增量的,需要自動(dòng)化并頻繁寫(xiě)入mysql
測(cè)試數(shù)據(jù):csv 格式 ,大約 1200萬(wàn)行
import pandas as pd data = pd.read_csv('./tianchi_mobile_recommend_train_user.csv') data.shape
打印結(jié)果:
方式一:python ? pymysql 庫(kù)
安裝 pymysql 命令:
pip?install?pymysql
代碼實(shí)現(xiàn):
import pymysql # 數(shù)據(jù)庫(kù)連接信息 conn = pymysql.connect( host='127.0.0.1', user='root', passwd='wangyuqing', db='test01', port = 3306, charset="utf8") # 分塊處理 big_size = 100000 # 分塊遍歷寫(xiě)入到 mysql with pd.read_csv('./tianchi_mobile_recommend_train_user.csv',chunksize=big_size) as reader: for df in reader: datas = [] print('處理:',len(df)) # print(df) for i ,j in df.iterrows(): data = (j['user_id'],j['item_id'],j['behavior_type'], j['item_category'],j['time']) datas.append(data) _values = ",".join(['%s', ] * 5) sql = """insert into users(user_id,item_id,behavior_type ,item_category,time) values(%s)""" % _values cursor = conn.cursor() cursor.executemany(sql,datas) conn.commit() # 關(guān)閉服務(wù) conn.close() cursor.close() print('存入成功!')
方式二:pandas ? sqlalchemy:pandas需要引入sqlalchemy來(lái)支持sql,在sqlalchemy的支持下,它可以實(shí)現(xiàn)所有常見(jiàn)數(shù)據(jù)庫(kù)類型的查詢、更新等操作。
代碼實(shí)現(xiàn):
from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://root:wangyuqing@localhost:3306/test01') data = pd.read_csv('./tianchi_mobile_recommend_train_user.csv') data.to_sql('user02',engine,chunksize=100000,index=None) print('存入成功!')
總結(jié)
pymysql 方法用時(shí)12分47秒,耗時(shí)還是比較長(zhǎng)的,代碼量大,而 pandas 僅需五行代碼就實(shí)現(xiàn)了這個(gè)需求,只用了4分鐘左右。最后補(bǔ)充下,方式一需要提前建表,方式二則不需要。所以推薦大家使用第二種方式,既方便又效率高。如果還覺(jué)得速度慢的小伙伴,可以考慮加入多進(jìn)程、多線程。
最全的三種將數(shù)據(jù)存入到 MySQL 數(shù)據(jù)庫(kù)方法:
- 直接存,利用 navicat 的導(dǎo)入向?qū)Чδ?/li>
- Python pymysql
- Pandas sqlalchemy
到此這篇關(guān)于Python 讀取千萬(wàn)級(jí)數(shù)據(jù)自動(dòng)寫(xiě)入 MySQL 數(shù)據(jù)庫(kù)的文章就介紹到這了,更多相關(guān)Python 讀取數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python如何讀取MySQL數(shù)據(jù)庫(kù)表數(shù)據(jù)
- python3 pandas 讀取MySQL數(shù)據(jù)和插入的實(shí)例
- Python3讀取Excel數(shù)據(jù)存入MySQL的方法
- 使用python的pandas庫(kù)讀取csv文件保存至mysql數(shù)據(jù)庫(kù)
- python讀取word文檔,插入mysql數(shù)據(jù)庫(kù)的示例代碼
- python讀取mysql數(shù)據(jù)繪制條形圖
- python連接mysql數(shù)據(jù)庫(kù)并讀取數(shù)據(jù)的實(shí)現(xiàn)
相關(guān)文章
代碼詳解django中數(shù)據(jù)庫(kù)設(shè)置
在本篇文章里小編給大家分享了關(guān)于django中數(shù)據(jù)庫(kù)設(shè)置的相關(guān)實(shí)例內(nèi)容,有興趣的朋友們跟著學(xué)習(xí)下。2019-01-01基于Python實(shí)現(xiàn)體育彩票選號(hào)器功能代碼實(shí)例
這篇文章主要介紹了基于Python實(shí)現(xiàn)體育彩票選號(hào)器功能代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-09-09在python中寫(xiě)個(gè)自定義數(shù)據(jù)包協(xié)議的打包和解包測(cè)試
這篇文章主要介紹了在python中寫(xiě)個(gè)自定義數(shù)據(jù)包協(xié)議的打包和解包測(cè)試,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-09-09Python爬蟲(chóng)回測(cè)股票的實(shí)例講解
在本篇文章里小編給大家整理的是一篇關(guān)于Python爬蟲(chóng)回測(cè)股票的實(shí)例講解內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2021-01-01用什么庫(kù)寫(xiě) Python 命令行程序(示例代碼詳解)
這篇文章主要介紹了用什么庫(kù)寫(xiě) Python 命令行程序,這一篇文章給大家介紹的非常詳細(xì)全面看這一天足夠了,需要的朋友可以參考下2020-02-02python爬蟲(chóng)自動(dòng)創(chuàng)建文件夾的功能
這篇文章主要介紹了python爬蟲(chóng)自動(dòng)創(chuàng)建文件夾的功能,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2018-08-08