快捷導(dǎo)航

詳解SparkSql輸出數(shù)據(jù)的方式

更新時(shí)間：2024年11月07日 16:53:51 作者：jlting195

在處理數(shù)據(jù)時(shí),SparkSql提供了多種數(shù)據(jù)輸出方式,包括普通文件輸出、保存到數(shù)據(jù)庫和保存到Hive,普通文件輸出支持追加模式、覆寫模式、報(bào)錯(cuò)模式和忽略模式,本文介紹SparkSql輸出數(shù)據(jù)的方式,感興趣的朋友一起看看吧

一、普通文件輸出方式

方式一：給定輸出數(shù)據(jù)源的類型和地址

df.write.format("json").save(path)
df.write.format("csv").save(path)
df.write.format("parquet").save(path)

方式二：直接調(diào)用對(duì)應(yīng)數(shù)據(jù)源類型的方法

df.write.json(path)
df.write.csv(path)
df.write.parquet(path)

append: 追加模式，當(dāng)數(shù)據(jù)存在時(shí)，繼續(xù)追加
overwrite: 覆寫模式，當(dāng)數(shù)據(jù)存在時(shí)，覆寫以前數(shù)據(jù)，存儲(chǔ)當(dāng)前最新數(shù)據(jù)；
error/errorifexists: 如果目標(biāo)存在就報(bào)錯(cuò)，默認(rèn)的模式
ignore: 忽略，數(shù)據(jù)存在時(shí)不做任何操作

代碼編寫模板：

df.write.mode(saveMode="append").format("csv").save(path)

代碼演示普通的文件輸出格式：

import os
from pyspark.sql import SparkSession
if __name__ == '__main__':
    # 配置環(huán)境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_241'
    # 配置Hadoop的路徑，就是前面解壓的那個(gè)路徑
    os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1'
    # 配置base環(huán)境Python解析器的路徑
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base環(huán)境Python解析器的路徑
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'
    spark = SparkSession.builder.master("local[2]").appName("").config(
        "spark.sql.shuffle.partitions", 2).getOrCreate()
    df = spark.read.json("../../datas/person.json")
    # 獲取年齡最大的人的名字
    df.createOrReplaceTempView("persons")
    rsDf = spark.sql("""
       select name,age from persons where age = (select max(age) from persons)
    """)
    # 將結(jié)果打印到控制臺(tái)
    #rsDf.write.format("console").save()
    #rsDf.write.json("../../datas/result",mode="overwrite")
    #rsDf.write.mode(saveMode='overwrite').format("json").save("../../datas/result")
    #rsDf.write.mode(saveMode='overwrite').format("csv").save("../../datas/result1")
    #rsDf.write.mode(saveMode='overwrite').format("parquet").save("../../datas/result2")
    #rsDf.write.mode(saveMode='append').format("csv").save("../../datas/result1")
    # text 保存路徑為hdfs 直接報(bào)錯(cuò)，不支持
    #rsDf.write.mode(saveMode='overwrite').text("hdfs://bigdata01:9820/result")
    #rsDf.write.orc("hdfs://bigdata01:9820/result",mode="overwrite")
    rsDf.write.parquet("hdfs://bigdata01:9820/result", mode="overwrite")
    spark.stop()

二、保存到數(shù)據(jù)庫中

代碼演示：

import os
# 導(dǎo)入pyspark模塊
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
if __name__ == '__main__':
    # 配置環(huán)境
    os.environ['JAVA_HOME'] = 'D:\Download\Java\JDK'
    # 配置Hadoop的路徑，就是前面解壓的那個(gè)路徑
    os.environ['HADOOP_HOME'] = 'D:\\bigdata\hadoop-3.3.1\hadoop-3.3.1'
    # 配置base環(huán)境Python解析器的路徑
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base環(huán)境Python解析器的路徑
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'
    spark = SparkSession.builder.master('local[*]').appName('').config("spark.sql.shuffle.partitions", 2).getOrCreate()
    df5 = spark.read.format("csv").option("sep", "\t").load("../../datas/zuoye/emp.tsv")\
       .toDF('eid','ename','salary','sal','dept_id')
    df5.createOrReplaceTempView('emp')
    rsDf = spark.sql("select * from emp")
    rsDf.write.format("jdbc") \
        .option("driver", "com.mysql.cj.jdbc.Driver") \
        .option("url", "jdbc:mysql://bigdata01:3306/mysql") \
        .option("user", "root") \
        .option("password", "123456") \
        .option("dbtable", "emp1") \
        .save(mode="overwrite")
    spark.stop()
    # 使用完后，記得關(guān)閉

三、保存到hive中

代碼演示：

import os
# 導(dǎo)入pyspark模塊
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
if __name__ == '__main__':
    # 配置環(huán)境
    os.environ['JAVA_HOME'] = 'D:\Download\Java\JDK'
    # 配置Hadoop的路徑，就是前面解壓的那個(gè)路徑
    os.environ['HADOOP_HOME'] = 'D:\\bigdata\hadoop-3.3.1\hadoop-3.3.1'
    # 配置base環(huán)境Python解析器的路徑
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base環(huán)境Python解析器的路徑
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'
    os.environ['HADOOP_USER_NAME'] = 'root'
    spark = SparkSession \
        .builder \
        .appName("HiveAPP") \
        .master("local[2]") \
        .config("spark.sql.warehouse.dir", 'hdfs://bigdata01:9820/user/hive/warehouse') \
        .config('hive.metastore.uris', 'thrift://bigdata01:9083') \
        .config("spark.sql.shuffle.partitions", 2) \
        .enableHiveSupport() \
        .getOrCreate()
    df5 = spark.read.format("csv").option("sep", "\t").load("../../datas/zuoye/emp.tsv") \
        .toDF('eid', 'ename', 'salary', 'sal', 'dept_id')
    df5.createOrReplaceTempView('emp')
    rsDf = spark.sql("select * from emp")
    rsDf.write.saveAsTable("spark.emp")
    spark.stop()
    # 使用完后，記得關(guān)閉

到此這篇關(guān)于SparkSql輸出數(shù)據(jù)的方式的文章就介紹到這了,更多相關(guān)SparkSql輸出數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: