parquet數(shù)據(jù):列式存儲結構,由Twitter和Cloudera合作開發(fā),相比于行式存儲,其特點是: 可以跳過不符合條件的數(shù)據(jù),只讀取需要的數(shù)據(jù),降低IO數(shù)據(jù)量;壓縮編碼可以降低磁盤存儲空間,使用更高效的壓縮編碼節(jié)約存儲空間;只讀取需要的列,支持向量運算,能夠獲取更好的掃描性能。 那么我們怎么在pyspark中讀取和使用parquet數(shù)據(jù)呢?我以...
www.dbjr.com.cn/article/1836...htm 2025-5-22