快捷導(dǎo)航

SparkSQL開窗函數(shù)分析使用示例

更新時間：2023年01月20日 10:49:37 作者：健鑫.

開窗函數(shù)的引入是為了既顯示聚集前的數(shù)據(jù)，又顯示聚集后的數(shù)據(jù)。即在每一行的最后一列添加聚合函數(shù)的結(jié)果。開窗用于為行定義一個窗口，它對一組值進行操作，不需要使用 GROUP BY 子句對數(shù)據(jù)進行分組，能夠在同一行中同時返回基礎(chǔ)行的列和聚合列

聚合函數(shù)和開窗函數(shù)

聚合函數(shù)是將多行變成一行，如果要顯示其他列，必須將列加入group by

開窗函數(shù)是將一行變成多行，將所有的信息顯示出來

開窗函數(shù)

聚合開窗函數(shù)

聚合函數(shù) over(partition by子句)

over關(guān)鍵字將聚合函數(shù)當(dāng)作聚合開窗函數(shù)

SQL標(biāo)準(zhǔn)允許所有的聚合函數(shù)用作聚合開窗函數(shù)

示例：

//    spark.sql("select id, name, age, count(name) from person").show 報錯
    spark.sql("select id, name, age, count(name)over() sum from person").show
/*
* +---+----+---+---+
| id|name|age|sum|
+---+----+---+---+
|  1|  jx| 20|  6|
|  2|  zx| 21|  6|
|  3|  wz| 33|  6|
|  4|  qw| 11|  6|
|  5|  aa| 22|  6|
|  6|  aq| 45|  6|
+---+----+---+---+
*
* */

over后面的括號還可以改變聚合函數(shù)的窗口范圍

如果over后面的括號為空，則開窗函數(shù)會對所有行進行聚合運算

over后面的括號里可以用partition by 來定義行的分區(qū)來進行聚合運算

partition by進行分區(qū)之后，計算當(dāng)前分區(qū)的聚合計算的結(jié)果

spark.sql("select id, name, age, area_id, count(name)over(partition by area_id) sum from person").show
/*
+---+----+---+-------+---+
| id|name|age|area_id|sum|
+---+----+---+-------+---+
|  1|  jx| 20|      1|  3|
|  2|  zx| 21|      1|  3|
|  3|  wz| 33|      1|  3|
|  5|  aa| 22|      3|  2|
|  6|  aq| 45|      3|  2|
|  4|  qw| 11|      2|  1|
+---+----+---+-------+---+
*
* */

排序開窗函數(shù)

ROW_NUMBER順序排序

row_number() over(order by score)

排序開窗函數(shù)中使用partition by 需要放置在order by之前

實例

spark.sql("select id, name, age, area_id, row_number() over(order by age) rank from person").show
spark.sql("select id, name, age, area_id, row_number() over(partition by area_id order by age) rank from person").show
/*
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  4|  qw| 11|      2|   1|
|  1|  jx| 20|      1|   2|
|  2|  zx| 21|      1|   3|
|  5|  aa| 22|      3|   4|
|  3|  wz| 33|      1|   5|
|  6|  aq| 45|      3|   6|
+---+----+---+-------+----+
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  1|  jx| 20|      1|   1|
|  2|  zx| 21|      1|   2|
|  3|  wz| 33|      1|   3|
|  5|  aa| 22|      3|   1|
|  6|  aq| 45|      3|   2|
|  4|  qw| 11|      2|   1|
+---+----+---+-------+----+
*
* */

RANK跳躍排序

rank() over(order by)

使用該函數(shù)排序求出來的結(jié)果可以并列

示例

spark.sql("select id, name, age, area_id, rank() over(order by age) rank from person").show
spark.sql("select id, name, age, area_id, rank() over(partition by area_id order by age) rank from person").show
/*
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  4|  qw| 10|      2|   1|
|  1|  jx| 20|      1|   2|
|  2|  zx| 20|      1|   2|
|  5|  aa| 22|      3|   4|
|  7|  qq| 22|      3|   4|
|  3|  wz| 33|      1|   6|
|  6|  aq| 45|      3|   7|
+---+----+---+-------+----+
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  1|  jx| 20|      1|   1|
|  2|  zx| 20|      1|   1|
|  3|  wz| 33|      1|   3|
|  5|  aa| 22|      3|   1|
|  7|  qq| 22|      3|   1|
|  6|  aq| 45|      3|   3|
|  4|  qw| 10|      2|   1|
+---+----+---+-------+----+
*
* */

DENSE_RANK連續(xù)排序

dense_rank() over(order by )

使用該函數(shù)，并列排名之后的排序+1

示例

spark.sql("select id, name, age, area_id, dense_rank() over(order by age) rank from person").show
spark.sql("select id, name, age, area_id, dense_rank() over(partition by area_id order by age) rank from person").show
/*
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  4|  qw| 10|      2|   1|
|  1|  jx| 20|      1|   2|
|  2|  zx| 20|      1|   2|
|  5|  aa| 22|      3|   3|
|  7|  qq| 22|      3|   3|
|  3|  wz| 33|      1|   4|
|  6|  aq| 45|      3|   5|
+---+----+---+-------+----+
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  1|  jx| 20|      1|   1|
|  2|  zx| 20|      1|   1|
|  3|  wz| 33|      1|   2|
|  5|  aa| 22|      3|   1|
|  7|  qq| 22|      3|   1|
|  6|  aq| 45|      3|   2|
|  4|  qw| 10|      2|   1|
+---+----+---+-------+----+
*
* */

NTILE分組排序

ntile(6) over(order by) // 表示分成六個組，顯示每個組的序號

spark.sql("select id, name, age, area_id, ntile(4) over(order by age) rank from person").show
spark.sql("select id, name, age, area_id, ntile(4) over(partition by area_id order by age) rank from person").show
/*
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  4|  qw| 10|      2|   1|
|  1|  jx| 20|      1|   1|
|  2|  zx| 20|      1|   2|
|  5|  aa| 22|      3|   2|
|  7|  qq| 22|      3|   3|
|  3|  wz| 33|      1|   3|
|  6|  aq| 45|      3|   4|
+---+----+---+-------+----+
+---+----+---+-------+----+
| id|name|age|area_id|rank|
+---+----+---+-------+----+
|  1|  jx| 20|      1|   1|
|  2|  zx| 20|      1|   2|
|  3|  wz| 33|      1|   3|
|  5|  aa| 22|      3|   1|
|  7|  qq| 22|      3|   2|
|  6|  aq| 45|      3|   3|
|  4|  qw| 10|      2|   1|
+---+----+---+-------+----+
*
* */

到此這篇關(guān)于SparkSQL開窗函數(shù)分析使用示例的文章就介紹到這了,更多相關(guān)SparkSQL開窗函數(shù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Spring Boot與React集成的示例代碼
這篇文章主要介紹了Spring Boot與React集成的示例代碼，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2018-11-11
Spring中@PropertySource的使用方法和運行原理詳解
這篇文章主要介紹了Spring中@PropertySource的使用方法和運行原理詳解,PropertySource注解可以方便和靈活的向Spring的環(huán)境容器(org.springframework.core.env.Environment?Environment)中注入一些屬性,這些屬性可以在Bean中使用,需要的朋友可以參考下
2023-11-11
Mybatis choose when用法實例代碼
本文通過實例代碼給大家介紹了Mybatis choose when用法，需要的的朋友參考下吧
2017-06-06
Java NIO實戰(zhàn)之聊天室功能詳解
這篇文章主要介紹了Java NIO實戰(zhàn)之聊天室功能,結(jié)合實例形式詳細分析了java NIO聊天室具體的服務(wù)端、客戶端相關(guān)實現(xiàn)方法與操作注意事項,需要的朋友可以參考下
2019-11-11
這篇文章主要介紹了Spring?Boot使用LocalDateTime、LocalDate作為入?yún)?本文基于Springboot2.0測試,如果無法生效可能是spring版本較低導(dǎo)致的,結(jié)合實例代碼給大家介紹的非常詳細,需要的朋友可以參考下
2023-09-09

Spring使用注解方式處理事務(wù)

這篇文章主要為大家詳細介紹了Spring使用注解方式處理事務(wù)，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下

2022-08-08

Java提示缺少返回語句的解決辦法

在本篇文章里小編給大家分享了關(guān)于Java提示缺少返回語句的解決辦法以及相關(guān)知識點，需要的朋友們參考下。

2019-07-07

springboot 設(shè)置局域網(wǎng)訪問的實現(xiàn)步驟

Spring Boot是一個開源Java-based框架,用于創(chuàng)建獨立的、生產(chǎn)級別的Spring應(yīng)用,它旨在簡化Spring應(yīng)用的初始搭建及開發(fā)過程,通過提供各種自動配置的starter包,Spring Boot使得項目配置變得簡單快速,感興趣的朋友一起看看吧

2024-02-02

java實現(xiàn)二分法的完整代碼

這篇文章主要為大家詳細介紹了java實現(xiàn)二分法的完整代碼，具有一定的參考價值，感興趣的小伙伴們可以參考一下

2018-11-11

Java多線程基本概念以及避坑指南

多線程之于進程的理解,可以類比多進程之于操作系統(tǒng),多線程指在單個程序中可以同時運行多個不同的線程執(zhí)行不同的任務(wù),這篇文章主要給大家介紹了關(guān)于Java多線程基本概念以及避坑指南的相關(guān)資料,需要的朋友可以參考下

2021-09-09

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

SparkSQL開窗函數(shù)分析使用示例

目錄

聚合函數(shù)和開窗函數(shù)

開窗函數(shù)

聚合開窗函數(shù)

排序開窗函數(shù)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具