Rust?duckdb和polars讀csv文件比較情況
duckdb在數據分析上,有非常多不錯的特質。1、快;2、客戶體驗好,特別是可以同時批量讀csv(在一個目錄下的csv等文件)。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技術棧有很多相同之類。今天想比較一下兩者在csv數據讀寫的情況。
一、文件準備
csv樣本內容,是N行9列的csv標準格式,有字符串,有浮點數,有整型。具體如下:
本次準備了兩個csv文件,一個大約是2.1萬行、9列;一個是64萬行、9列;模式完全一樣。更大的類似百萬行或千萬行的數據目前暫不比較。這種數據量級較少。
二、toml文件
[package] name = "my_duckdb" version = "0.1.0" edition = "2021" # See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html [dependencies] duckdb = { version = "0.10.2", features = ["bundled"] } polars = {version ="0.39.0"}
三、main.rs
use duckdb::{ arrow::{record_batch::RecordBatch, util::pretty::print_batches}, Connection, Result, }; use polars::prelude::*; use std::time::Instant; fn main() { let time0 = Instant::now(); //test.csv:2w行;test2.csv:64w行 let csvs = ["test.csv","test2.csv"]; for csv in csvs{ println!("-----------{:?}-------------",csv); duckdb_read_csv(csv).unwrap(); polars_read_csv(csv); println!("-----------{:?}-------------",csv); } println!("duckdb和polars讀文件共花:{:?}秒!",time0.elapsed().as_secs_f32()); } fn duckdb_read_csv(filepath:&str) ->Result<()> { let duckdb_csv_time = Instant::now(); let db = Connection::open_in_memory()?; let sql_format = format!("SELECT * from read_csv('{}');",filepath); let rbs: Vec<RecordBatch> = db .prepare(&sql_format)? .query_arrow([])? .collect(); // 批量打印 //print_batches(&rbs).unwrap(); assert!(rbs.len()>0); println!("duckdb取出的行數:{:?} 列數:{:?}",rbs[0].num_rows(),rbs[0].num_columns()); println!("duckdb 讀csv花時: {:?} 秒!", duckdb_csv_time.elapsed().as_secs_f32()); let _ = db.close(); Ok(()) } fn polars_read_csv(filepath:&str){ let polars_csv_time = Instant::now(); let df = CsvReader::from_path(filepath) .unwrap() .has_header(true) .finish() .unwrap(); println!("polars讀出csv的行和列數:{:?}",df.shape()); println!("polars 讀csv 花時: {:?} 秒!", polars_csv_time.elapsed().as_secs_f32()); }
四、輸出
-----------"test.csv"-------------
duckdb取出的行數:2048 列數:9
duckdb 讀csv花時: 0.032244585 秒!
polars讀出csv的行和列數:(21357, 9)
polars 讀csv 花時: 0.006511025 秒!
-----------"test.csv"-------------
-----------"test2.csv"-------------
duckdb取出的行數:2048 列數:9
duckdb 讀csv花時: 0.1279175 秒!
polars讀出csv的行和列數:(640710, 9)
polars 讀csv 花時: 0.02369589 秒!
-----------"test2.csv"-------------
duckdb和polars讀文件共花:0.19441628秒!
結論:從上面的樣本來看,分別用duckdb和polars來讀csv兩個不同大小的文件,polars有優(yōu)勢。當然,也可能是duckdb庫封裝的問題,也可能是文件大小不同,測試代表性還不全。謹供參考!
五、問題
從輸出可以明顯看出,duckdb庫讀出來的num_rows是有問題的。這個問題還待查實。從print_batches(&rbs).unwrap(),打印出來的內容來看,并沒有少。
到此這篇關于Rust duckdb和polars讀csv文件比較的文章就介紹到這了,更多相關Rust讀csv文件比較內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!