欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python讀取hdfs并返回dataframe教程

 更新時間:2020年06月05日 14:55:43   作者:王發(fā)北  
這篇文章主要介紹了python讀取hdfs并返回dataframe教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

不多說,直接上代碼

from hdfs import Client
import pandas as pd
 
HDFSHOST = "http://xxx:50070"
FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路徑
COLUMNNAMES = [xx']
 
def readHDFS():
'''
讀取hdfs文件
 
Returns:
df:dataframe hdfs數(shù)據(jù)
'''
client = Client(HDFSHOST)
# 目前讀取hdfs文件采用方式:
# 1. 先從hdfs讀取二進(jìn)制數(shù)據(jù)流文件
# 2. 將二進(jìn)制文件另存為.csv
# 3. 使用pandas讀取csv文件
with client.read(FILENAME) as fs:
content = fs.read()
s = str(content, 'utf-8')
file = open("data/tmp/data.csv", "w")
file.write(s)
df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES)
return df

補(bǔ)充知識:Python連接HDFS實(shí)現(xiàn)文件上傳下載及Pandas轉(zhuǎn)換文本文件到CSV

1. 目標(biāo)

通過hadoop hive或spark等數(shù)據(jù)計(jì)算框架完成數(shù)據(jù)清洗后的數(shù)據(jù)在HDFS上

爬蟲和機(jī)器學(xué)習(xí)在Python中容易實(shí)現(xiàn)

在Linux環(huán)境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實(shí)現(xiàn)

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路徑,根目錄/
for r in res:
  line=str(r,encoding='utf8')#open后是二進(jìn)制,str()轉(zhuǎn)換為字符串并轉(zhuǎn)碼
  print(line)

寫文件代碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用戶擁有寫權(quán)限
str='hello world'
client.create('/py.txt',str)#創(chuàng)建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件絕對路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認(rèn)文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號,
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas調(diào)用讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#參數(shù)為源文件,編碼,分隔符
# 數(shù)據(jù)集to_csv方法轉(zhuǎn)換為csv
df.to_csv('demo.csv',encoding='gbk',index=None)#參數(shù)為目標(biāo)文件,編碼,是否要索引

以上這篇python讀取hdfs并返回dataframe教程就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python裝飾器原理與用法分析

    Python裝飾器原理與用法分析

    這篇文章主要介紹了Python裝飾器原理與用法,結(jié)合實(shí)例形式分析了Python裝飾器的概念、原理、使用方法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下
    2018-04-04
  • 解決tf.keras.models.load_model加載模型報錯問題

    解決tf.keras.models.load_model加載模型報錯問題

    這篇文章主要介紹了解決tf.keras.models.load_model加載模型報錯問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • Pandas的Apply函數(shù)具體使用

    Pandas的Apply函數(shù)具體使用

    這篇文章主要介紹了Pandas的Apply函數(shù)具體使用,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-07-07
  • Python中的pprint打印模塊

    Python中的pprint打印模塊

    這篇文章主要介紹了Python中的pprint打印模塊,??pprint()??采用分行打印輸出,下文關(guān)于其相關(guān)介紹,需要的小伙伴可以參考一下
    2022-05-05
  • pytorch  RNN參數(shù)詳解(最新)

    pytorch  RNN參數(shù)詳解(最新)

    這篇文章主要介紹了pytorch  RNN參數(shù)詳解,這個示例代碼展示了如何使用 PyTorch 定義和訓(xùn)練一個 LSTM 模型,并詳細(xì)解釋了每個類和方法的參數(shù)及其作用,需要的朋友可以參考下
    2024-06-06
  • python opencv實(shí)現(xiàn)信用卡的數(shù)字識別

    python opencv實(shí)現(xiàn)信用卡的數(shù)字識別

    這篇文章主要介紹了python opencv實(shí)現(xiàn)信用卡的數(shù)字識別,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-01-01
  • 使用Pandas修改DataFrame中某一列的值

    使用Pandas修改DataFrame中某一列的值

    DataFrame是Pandas中的主要數(shù)據(jù)結(jié)構(gòu)之一,下面這篇文章主要給大家介紹了關(guān)于使用Pandas修改DataFrame中某一列的值的相關(guān)資料,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2022-12-12
  • 使用pyQT5顯示網(wǎng)頁的實(shí)現(xiàn)步驟

    使用pyQT5顯示網(wǎng)頁的實(shí)現(xiàn)步驟

    本文主要介紹了使用pyQT5顯示網(wǎng)頁的實(shí)現(xiàn)步驟,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-10-10
  • 利用python獲取某年中每個月的第一天和最后一天

    利用python獲取某年中每個月的第一天和最后一天

    最近在做項(xiàng)目的時候,突然想到的這個問題,覺得比較有趣,就實(shí)際測試了一下,考慮到以后可能會有用,就總結(jié)下來寫了這篇文章,剛興趣的朋友們可以參考學(xué)習(xí)下,下面來跟著小編一起看看吧。
    2016-12-12
  • 離線狀態(tài)下在jupyter notebook中使用plotly實(shí)例

    離線狀態(tài)下在jupyter notebook中使用plotly實(shí)例

    這篇文章主要介紹了離線狀態(tài)下在jupyter notebook中使用plotly實(shí)例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04

最新評論