欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

pyspark操作hive分區(qū)表及.gz.parquet和part-00000文件壓縮問題

 更新時間:2021年08月25日 11:17:40   作者:土豆啊你個馬鈴薯  
這篇文章主要介紹了pyspark操作hive分區(qū)表及.gz.parquet和part-00000文件壓縮問題,針對問題整理了spark操作hive表的幾種方式,需要的朋友可以參考下

pyspark 操作hive表

pyspark 操作hive表,hive分區(qū)表動態(tài)寫入;最近發(fā)現(xiàn)spark動態(tài)寫入hive分區(qū),和saveAsTable存表方式相比,文件壓縮比大約 4:1。針對該問題整理了 spark 操作hive表的幾種方式。

1> saveAsTable寫入

saveAsTable(self, name, format=None, mode=None, partitionBy=None, **options)

示例:

df.write.saveAsTable("表名",mode='overwrite')

注意:

1、表不存在則創(chuàng)建表,表存在全覆蓋寫入;
2、表存在,數(shù)據(jù)字段有變化,先刪除后重新創(chuàng)建表;
3、當(dāng)正在存表時報(bào)錯或者終止程序會導(dǎo)致表丟失;
4、數(shù)據(jù)默認(rèn)采用parquet壓縮,文件名稱 part-00000-5efbfc08-66fe-4fd1-bebb-944b34689e70.gz.parquet

數(shù)據(jù)文件在hdfs上顯示:

2> insertInto寫入

insertInto(self, tableName, overwrite=False):
示例:

# append 寫入
df.repartition(1).write.partitionBy('dt').insertInto("表名")
# overwrite 寫入
df.repartition(1).write.partitionBy('dt').insertInto("表名",overwrite=True)
# 動態(tài)分區(qū)使用該方法

注意:

1、df.write.mode("overwrite").partitionBy("dt").insertInto("表名") 不會覆蓋數(shù)據(jù)
2、需要表必須存在且當(dāng)前DF的schema與目標(biāo)表的schema必須一致
3、插入的文件不會壓縮;文件以part-00....結(jié)尾。文件較大

數(shù)據(jù)文件在hdfs上顯示:

2.1> 問題說明

兩種方式存儲數(shù)據(jù)量一樣的數(shù)據(jù),磁盤文件占比卻相差很大,.gz.parquet 文件 相比 part-00000文件要小很多。想用spark操作分區(qū)表,又想讓文件壓縮,百度了一些方式,都沒有解決。
從stackoverflow中有一個類似的問題 Spark compression when writing to external Hive table 。用里面的方法并沒有解決。
最終從hive表數(shù)據(jù)文件壓縮角度思考,問題得到解決。

hive 建表指定壓縮格式
下面是hive parquet的幾種壓縮方式

-- 使用snappy
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT '測試'
PARTITIONED BY (`dt` string COMMENT '按天分區(qū)')
row format delimited fields terminated by '\001' 
STORED AS PARQUET 
TBLPROPERTIES ('parquet.compression'='SNAPPY');

-- 使用gzip
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT '測試'
PARTITIONED BY (`dt` string COMMENT '按天分區(qū)')
row format delimited fields terminated by '\001' 
STORED AS PARQUET 
TBLPROPERTIES ('parquet.compression'='GZIP');
 
-- 使用uncompressed
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT '測試'
PARTITIONED BY (`dt` string COMMENT '按天分區(qū)')
row format delimited fields terminated by '\001' 
STORED AS PARQUET 
TBLPROPERTIES ('parquet.compression'='UNCOMPRESSED');

 
-- 使用默認(rèn)
CREATE TABLE if not exists ods.table_test(
    id string,
    open_time string
	)
COMMENT '測試'
PARTITIONED BY (`dt` string COMMENT '按天分區(qū)')
row format delimited fields terminated by '\001' 
STORED AS PARQUET;
 
-- 設(shè)置參數(shù) set parquet.compression=SNAPPY;

2.2> 解決辦法

建表時指定TBLPROPERTIES,采用gzip 壓縮
示例:

drop table if exists ods.table_test
CREATE TABLE if not exists ods.table_test(
id string,
open_time string
)
COMMENT '測試'
PARTITIONED BY (`dt` string COMMENT '按天分區(qū)')
row format delimited fields terminated by '\001' 
STORED AS PARQUET 
TBLPROPERTIES ('parquet.compression'='GZIP');

執(zhí)行效果

數(shù)據(jù)文件在hdfs上顯示:

可以看到文件大小占比已經(jīng)和 *.gz.parquet 文件格式一樣了

3>saveAsTextFile寫入直接操作文件

saveAsTextFile(self, path, compressionCodecClass=None)
該方式通過rdd 以文件形式直接將數(shù)據(jù)存儲在hdfs上。
示例:

rdd.saveAsTextFile('hdfs://表全路徑')

文件操作更多方式見官方文檔

到此這篇關(guān)于pyspark操作hive分區(qū)表及.gz.parquet和part-00000文件壓縮問題的文章就介紹到這了,更多相關(guān)pyspark hive分區(qū)表parquet內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python 實(shí)現(xiàn)微信自動回復(fù)的方法

    Python 實(shí)現(xiàn)微信自動回復(fù)的方法

    這篇文章主要介紹了Python 實(shí)現(xiàn)微信自動回復(fù)的方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-09-09
  • 一道題學(xué)會Python函數(shù)中形參和實(shí)參

    一道題學(xué)會Python函數(shù)中形參和實(shí)參

    在Python編程中,函數(shù)的形參和實(shí)參是函數(shù)定義和調(diào)用的重要概念,本文主要介紹了一道題學(xué)會Python函數(shù)中形參和實(shí)參,具有一定的參考價值,感興趣的可以了解一下
    2024-01-01
  • 將.py文件轉(zhuǎn)化為.exe文件的詳細(xì)過程

    將.py文件轉(zhuǎn)化為.exe文件的詳細(xì)過程

    學(xué)Python那么久了,才知道自己不會把腳本編譯成可執(zhí)行exe文件,下面這篇文章主要給大家介紹了關(guān)于將.py文件轉(zhuǎn)化為.exe文件的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-09-09
  • 使用python PIL庫批量對圖片添加水印的過程詳解

    使用python PIL庫批量對圖片添加水印的過程詳解

    平常我們想給某些圖片添加文字水印,方法有很多,也有很多的工具可以方便的進(jìn)行,今天主要是對PIL庫的應(yīng)用,結(jié)合Python語言批量對圖片添加水印,文章通過代碼示例給大家介紹的非常詳細(xì),感興趣的同學(xué)可以參考一下
    2023-11-11
  • python算法學(xué)習(xí)之桶排序算法實(shí)例(分塊排序)

    python算法學(xué)習(xí)之桶排序算法實(shí)例(分塊排序)

    本代碼介紹了python算法學(xué)習(xí)中的桶排序算法實(shí)例,大家參考使用吧
    2013-12-12
  • numba提升python運(yùn)行速度的實(shí)例方法

    numba提升python運(yùn)行速度的實(shí)例方法

    在本篇文章里小編給大家整理的是一篇關(guān)于numba提升python運(yùn)行速度的實(shí)例方法,有興趣的朋友們可以參考下。
    2021-01-01
  • python 把列表轉(zhuǎn)化為字符串的方法

    python 把列表轉(zhuǎn)化為字符串的方法

    今天小編就為大家分享一篇python 把列表轉(zhuǎn)化為字符串的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • Python 中random 庫的詳細(xì)使用

    Python 中random 庫的詳細(xì)使用

    random庫是使用隨機(jī)數(shù)的Python標(biāo)準(zhǔn)庫,python中用于生成偽隨機(jī)數(shù)的函數(shù)庫是random,今天通過本文給大家分享Python 中random 庫的詳細(xì)使用,感興趣的朋友一起看看吧
    2021-06-06
  • python實(shí)現(xiàn)決策樹ID3算法的示例代碼

    python實(shí)現(xiàn)決策樹ID3算法的示例代碼

    這篇文章主要介紹了python實(shí)現(xiàn)決策樹ID3算法的示例代碼,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-05-05
  • Flask 入門Web 微框架Hello Flask

    Flask 入門Web 微框架Hello Flask

    這篇文章主要介紹了 Flask 入門Web 微框架Hello Flask,F(xiàn)lask 是一個 Python 實(shí)現(xiàn)的 Web 微框架,之所以稱之為微框架,是因?yàn)?nbsp;Flask 核心簡單且易于擴(kuò)展,有兩個主要依賴,WSGI工具集:Werkzeug和模板引擎:Jinja2,Flask 只保留了 Web 開發(fā)的核心功能,需要的朋友可以參考一下
    2021-11-11

最新評論