淺談DataFrame和SparkSql取值誤區(qū)
1、DataFrame返回的不是對(duì)象。
2、DataFrame查出來的數(shù)據(jù)返回的是一個(gè)dataframe數(shù)據(jù)集。
3、DataFrame只有遇見Action的算子才能執(zhí)行
4、SparkSql查出來的數(shù)據(jù)返回的是一個(gè)dataframe數(shù)據(jù)集。
原始數(shù)據(jù)
scala> val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet") df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string]
代碼
package DataFrame import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by yuhui on 2016/6/14. */ object DataFrameTest { def main(args: Array[String]) { DataFrameInto() } def DataFrameInto() { val conf = new SparkConf() val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet") //df.map(line => printinfo(line.getString(0))) //df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15))) //df.select("timestamp","country","area").foreach(line=>printinfo(line.toString)) df.registerTempTable("infotable") sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString)) } def printinfo(msg: String) {println("printinfo函數(shù)-->" + msg) } }
代碼解析
1、df.map(line => printinfo(line.getString(0)))
這段代碼不行執(zhí)行printinfo()函數(shù),因?yàn)橹挥衜ap算子,沒有Action算子。
2、df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
通過Spark的Action算子接收數(shù)據(jù)進(jìn)行操作,執(zhí)行結(jié)果如下:
3、df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
通過DataFrame的API進(jìn)行操作,再通過Spark的Action算子打印出來,執(zhí)行結(jié)果如下:
4、sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
執(zhí)行結(jié)果如下:
以上這篇淺談DataFrame和SparkSql取值誤區(qū)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python列表list操作相關(guān)知識(shí)小結(jié)
今天,本喵帶大家仔細(xì)溫習(xí)一下Python的列表,溫故而知新,不亦說乎,需要的朋友可以參考下2020-01-01python關(guān)鍵字傳遞參數(shù)實(shí)例分析
在本篇文章里小編給大家整理的是一篇關(guān)于python關(guān)鍵字傳遞參數(shù)實(shí)例分析內(nèi)容,有需要的朋友們可以學(xué)習(xí)參考下。2021-06-0668行Python代碼實(shí)現(xiàn)帶難度升級(jí)的貪吃蛇
本文主要介紹了Python代碼實(shí)現(xiàn)帶難度升級(jí)的貪吃蛇,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-01-01Django中在xadmin中集成DjangoUeditor過程詳解
這篇文章主要介紹了Django中在xadmin中集成DjangoUeditor過程詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-07-07ubuntu在線服務(wù)器python?Package安裝到離線服務(wù)器的過程
這篇文章主要介紹了ubuntu在線服務(wù)器python?Package安裝到離線服務(wù)器,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-04-04python第三方包安裝路徑site-packages下.libs作用詳解
這篇文章主要為大家介紹了python?第三方包安裝路徑?site-packages?下面的以?.libs?結(jié)尾的路徑作用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-09-09tensorflow如何將one_hot標(biāo)簽和數(shù)字(整數(shù))標(biāo)簽進(jìn)行相互轉(zhuǎn)化
這篇文章主要介紹了tensorflow如何將one_hot標(biāo)簽和數(shù)字(整數(shù))標(biāo)簽進(jìn)行相互轉(zhuǎn)化問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06