欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

讓python在hadoop上跑起來

 更新時間:2016年01月27日 10:48:43   作者:wing1995  
讓python在hadoop上跑起來,python如何在hadoop上跑起來?感興趣的小伙伴們可以參考一下

本文實(shí)例講解的是一般的hadoop入門程序“WordCount”,就是首先寫一個map程序用來將輸入的字符串分割成單個的單詞,然后reduce這些單個的單詞,相同的單詞就對其進(jìn)行計數(shù),不同的單詞分別輸出,結(jié)果輸出每一個單詞出現(xiàn)的頻數(shù)。

  注意:關(guān)于數(shù)據(jù)的輸入輸出是通過sys.stdin(系統(tǒng)標(biāo)準(zhǔn)輸入)和sys.stdout(系統(tǒng)標(biāo)準(zhǔn)輸出)來控制數(shù)據(jù)的讀入與輸出。所有的腳本執(zhí)行之前都需要修改權(quán)限,否則沒有執(zhí)行權(quán)限,例如下面的腳本創(chuàng)建之前使用“chmod +x mapper.py”

1.mapper.py

#!/usr/bin/env python
import sys

for line in sys.stdin: # 遍歷讀入數(shù)據(jù)的每一行
  
  line = line.strip() # 將行尾行首的空格去除
  words = line.split() #按空格將句子分割成單個單詞
  for word in words:
    print '%s\t%s' %(word, 1)

2.reducer.py

#!/usr/bin/env python

from operator import itemgetter
import sys

current_word = None # 為當(dāng)前單詞
current_count = 0 # 當(dāng)前單詞頻數(shù)
word = None

for line in sys.stdin:
  words = line.strip() # 去除字符串首尾的空白字符
  word, count = words.split('\t') # 按照制表符分隔單詞和數(shù)量
  
  try:
    count = int(count) # 將字符串類型的‘1'轉(zhuǎn)換為整型1
  except ValueError:
    continue

  if current_word == word: # 如果當(dāng)前的單詞等于讀入的單詞
    current_count += count # 單詞頻數(shù)加1
  else:
    if current_word: # 如果當(dāng)前的單詞不為空則打印其單詞和頻數(shù)
      print '%s\t%s' %(current_word, current_count) 
    current_count = count # 否則將讀入的單詞賦值給當(dāng)前單詞,且更新頻數(shù)
    current_word = word

if current_word == word:
  print '%s\t%s' %(current_word, current_count)

在shell中運(yùn)行以下腳本,查看輸出結(jié)果:

echo "foo foo quux labs foo bar zoo zoo hying" | /home/wuying/mapper.py | sort -k 1,1 | /home/wuying/reducer.py

# echo是將后面“foo ****”字符串輸出,并利用管道符“|”將輸出數(shù)據(jù)作為mapper.py這個腳本的輸入數(shù)據(jù),并將mapper.py的數(shù)據(jù)輸入到reducer.py中,其中參數(shù)sort -k 1,1是將reducer的輸出內(nèi)容按照第一列的第一個字母的ASCII碼值進(jìn)行升序排序

其實(shí),我覺得后面這個reducer.py處理單詞頻數(shù)有點(diǎn)麻煩,將單詞存儲在字典里面,單詞作為‘key',每一個單詞出現(xiàn)的頻數(shù)作為'value',進(jìn)而進(jìn)行頻數(shù)統(tǒng)計感覺會更加高效一點(diǎn)。因此,改進(jìn)腳本如下:

mapper_1.py

但是,貌似寫著寫著用了兩個循環(huán),反而效率低了。關(guān)鍵是不太明白這里的current_word和current_count的作用,如果從字面上老看是當(dāng)前存在的單詞,那么怎么和遍歷讀取的word和count相區(qū)別?

下面看一些腳本的輸出結(jié)果:

我們可以看到,上面同樣的輸入數(shù)據(jù),同樣的shell換了不同的reducer,結(jié)果后者并沒有對數(shù)據(jù)進(jìn)行排序,實(shí)在是費(fèi)解~

讓Python代碼在hadoop上跑起來!

一、準(zhǔn)備輸入數(shù)據(jù)

接下來,先下載三本書:

$ mkdir -p tmp/gutenberg
$ cd tmp/gutenberg
$ wget http://www.gutenberg.org/ebooks/20417.txt.utf-8
$ wget http://www.gutenberg.org/files/5000/5000-8.txt
$ wget http://www.gutenberg.org/ebooks/4300.txt.utf-8

 然后把這三本書上傳到hdfs文件系統(tǒng)上:

 $ hdfs dfs -mkdir /user/${whoami}/input # 在hdfs上的該用戶目錄下創(chuàng)建一個輸入文件的文件夾
 $ hdfs dfs -put /home/wuying/tmp/gutenberg/*.txt /user/${whoami}/input # 上傳文檔到hdfs上的輸入文件夾中

尋找你的streaming的jar文件存放地址,注意2.6的版本放到share目錄下了,可以進(jìn)入hadoop安裝目錄尋找該文件:

$ cd $HADOOP_HOME
$ find ./ -name "*streaming*"

然后就會找到我們的share文件夾中的hadoop-straming*.jar文件:

尋找速度可能有點(diǎn)慢,因此你最好是根據(jù)自己的版本號到對應(yīng)的目錄下去尋找這個streaming文件,由于這個文件的路徑比較長,因此我們可以將它寫入到環(huán)境變量:

$ vi ~/.bashrc # 打開環(huán)境變量配置文件
# 在里面寫入streaming路徑
export STREAM=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar

由于通過streaming接口運(yùn)行的腳本太長了,因此直接建立一個shell名稱為run.sh來運(yùn)行:

hadoop jar $STREAM \
-files ./mapper.py,./reducer.py \
-mapper ./mapper.py \
-reducer ./reducer.py \
-input /user/$(whoami)/input/*.txt \
-output /user/$(whoami)/output

然后"source run.sh"來執(zhí)行mapreduce。結(jié)果就響當(dāng)當(dāng)?shù)某鰜砝?。這里特別要提醒一下:

1、一定要把本地的輸入文件轉(zhuǎn)移到hdfs系統(tǒng)上面,否則無法識別你的input內(nèi)容;

2、一定要有權(quán)限,一定要在你的hdfs系統(tǒng)下面建立你的個人文件夾否則就會被denied,是的,就是這兩個錯誤搞得我在服務(wù)器上面痛不欲生,四處問人的感覺真心不如自己清醒對待來的好;

3、如果你是第一次在服務(wù)器上面玩hadoop,建議在這之前請在自己的虛擬機(jī)或者linux系統(tǒng)上面配置好偽分布式然后入門hadoop來的比較不那么頭疼,之前我并不知道我在服務(wù)器上面運(yùn)維沒有給我運(yùn)行的權(quán)限,后來在自己的虛擬機(jī)里面運(yùn)行一下example實(shí)例以及wordcount才找到自己的錯誤。

好啦,然后不出意外,就會complete啦,你就可以通過如下方式查看計數(shù)結(jié)果:

以上就是本文的全部內(nèi)容,希望對大家學(xué)習(xí)python軟件編程有所幫助。

相關(guān)文章

  • python 根據(jù)pid殺死相應(yīng)進(jìn)程的方法

    python 根據(jù)pid殺死相應(yīng)進(jìn)程的方法

    下面小編就為大家?guī)硪黄猵ython 根據(jù)pid殺死相應(yīng)進(jìn)程的方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-01-01
  • 利用python打印出菱形、三角形以及矩形的方法實(shí)例

    利用python打印出菱形、三角形以及矩形的方法實(shí)例

    最近在開發(fā)中遇到一個問題,需要利用python實(shí)現(xiàn)菱形、三角形以及矩形等形狀,發(fā)現(xiàn)網(wǎng)上這方面的資料較少,所以總結(jié)分享下,這篇文章主要給大家介紹了關(guān)于利用python打印出菱形、三角形以及矩形的相關(guān)資料,需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-08-08
  • Python locust工具使用詳解

    Python locust工具使用詳解

    這篇文章主要介紹了Python locust工具使用詳解,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下
    2021-03-03
  • python中進(jìn)程間通信詳細(xì)介紹

    python中進(jìn)程間通信詳細(xì)介紹

    大家好,本篇文章主要講的是python中進(jìn)程間通信詳細(xì)介紹,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下,方便下次瀏覽
    2021-12-12
  • python可迭代類型遍歷過程中數(shù)據(jù)改變會不會報錯

    python可迭代類型遍歷過程中數(shù)據(jù)改變會不會報錯

    這篇文章主要介紹了python可迭代類型遍歷過程中數(shù)據(jù)改變會不會報錯問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-12-12
  • pandas分組聚合詳解

    pandas分組聚合詳解

    這篇文章主要介紹了pandas分組聚合詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-04-04
  • Python常見庫matplotlib學(xué)習(xí)筆記之多個子圖繪圖

    Python常見庫matplotlib學(xué)習(xí)筆記之多個子圖繪圖

    Matplotlib是Python提供的一個繪圖庫,通過該庫我們可以很容易的繪制出折線圖、直方圖、散點(diǎn)圖、餅圖等豐富的統(tǒng)計圖,下面這篇文章主要給大家介紹了關(guān)于Python常見庫matplotlib學(xué)習(xí)筆記之多個子圖繪圖的相關(guān)資料,需要的朋友可以參考下
    2023-05-05
  • Pytorch使用transforms

    Pytorch使用transforms

    這篇文章主要介紹了Pytorch使用transforms,tansforms功能,通俗地講,類似于在計算機(jī)視覺流程里的圖像預(yù)處理部分的數(shù)據(jù)增強(qiáng)。下面來看看文章的具體內(nèi)容介紹吧,需要的朋友可以參考一下
    2021-12-12
  • 解決Django中調(diào)用keras的模型出現(xiàn)的問題

    解決Django中調(diào)用keras的模型出現(xiàn)的問題

    今天小編就為大家分享一篇解決Django中調(diào)用keras的模型出現(xiàn)的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • python庫h5py入門詳解

    python庫h5py入門詳解

    本文只是簡單的對h5py庫的基本創(chuàng)建文件,數(shù)據(jù)集和讀取數(shù)據(jù)的方式進(jìn)行介紹,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-03-03

最新評論