欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Hadoop?MapReduce實(shí)現(xiàn)單詞計(jì)數(shù)(Word?Count)

 更新時(shí)間:2023年05月22日 11:42:02   作者:orion-orion  
這篇文章主要為大家詳細(xì)介紹了如何利用Hadoop實(shí)現(xiàn)單詞計(jì)數(shù)(Word?Count)的MapReduce,文中的示例代碼講解詳細(xì),感興趣的可以跟隨小編一起學(xué)習(xí)一下

1.Map與Reduce過(guò)程

1.1 Map過(guò)程

首先,Hadoop會(huì)把輸入數(shù)據(jù)劃分成等長(zhǎng)的輸入分片(input split) 或分片發(fā)送到MapReduce。Hadoop為每個(gè)分片創(chuàng)建一個(gè)map任務(wù),由它來(lái)運(yùn)行用戶(hù)自定義的map函數(shù)以分析每個(gè)分片中的記錄。在我們的單詞計(jì)數(shù)例子中,輸入是多個(gè)文件,一般一個(gè)文件對(duì)應(yīng)一個(gè)分片,如果文件太大則會(huì)劃分為多個(gè)分片。map函數(shù)的輸入以<key, value>形式做為輸入,value為文件的每一行,key為該行在文件中的偏移量(一般我們會(huì)忽視)。這里map函數(shù)起到的作用為將每一行進(jìn)行分詞為多個(gè)word,并在context中寫(xiě)入<word, 1>以代表該單詞出現(xiàn)一次。

map過(guò)程的示意圖如下:

mapper代碼編寫(xiě)如下:

public static class TokenizerMapper
        extends Mapper<Object, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        //每次處理一行,一個(gè)mapper里的value為一行,key為該行在文件中的偏移量
        StringTokenizer iter = new StringTokenizer(value.toString());
        while (iter.hasMoreTokens()) {
            word.set(iter.nextToken());
            // 向context中寫(xiě)入<word, 1>
            context.write(word, one);
            System.out.println(word);
        }
    }
}

如果我們能夠并行處理分片(不一定是完全并行),且分片是小塊的數(shù)據(jù),那么處理過(guò)程將會(huì)有一個(gè)好的負(fù)載平衡。但是如果分片太小,那么管理分片與map任務(wù)創(chuàng)建將會(huì)耗費(fèi)太多時(shí)間。對(duì)于大多數(shù)作業(yè),理想分片大小為一個(gè)HDFS塊的大小,默認(rèn)是64MB。

map任務(wù)的執(zhí)行節(jié)點(diǎn)和輸入數(shù)據(jù)的存儲(chǔ)節(jié)點(diǎn)相同時(shí),Hadoop的性能能達(dá)到最佳,這就是計(jì)算機(jī)系統(tǒng)中所謂的data locality optimization(數(shù)據(jù)局部性?xún)?yōu)化)。而最佳分片大小與塊大小相同的原因就在于,它能夠保證一個(gè)分片存儲(chǔ)在單個(gè)節(jié)點(diǎn)上,再大就不能了。

1.2 Reduce過(guò)程

接下來(lái)我們看reducer的編寫(xiě)。reduce任務(wù)的多少并不是由輸入大小來(lái)決定,而是需要人工單獨(dú)指定的(默認(rèn)為1個(gè))。和上面map不同的是,reduce任務(wù)不再具有本地讀取的優(yōu)勢(shì)————一個(gè)reduce任務(wù)的輸入往往來(lái)自于所有mapper的輸出,因此map和reduce之間的數(shù)據(jù)流被稱(chēng)為 shuffle(洗牌) 。Hadoop會(huì)先按照key-value對(duì)進(jìn)行排序,然后將排序好的map的輸出通過(guò)網(wǎng)絡(luò)傳輸?shù)絩educe任務(wù)運(yùn)行的節(jié)點(diǎn),并在那里進(jìn)行合并,然后傳遞到用戶(hù)定義的reduce函數(shù)中。

reduce 函數(shù)示意圖如下:

reducer代碼編寫(xiě)如下:

 public static class IntSumReducer
            extends Reducer<Text, IntWritable, Text, IntWritable>{
        private IntWritable result = new IntWritable();
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException{
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

2.完整代碼

2.1 項(xiàng)目架構(gòu)

關(guān)于VSCode+Java+Maven+Hadoop開(kāi)發(fā)環(huán)境搭建,可以參見(jiàn)我的博客《VSCode+Maven+Hadoop開(kāi)發(fā)環(huán)境搭建》,此處不再贅述。這里展示我們的項(xiàng)目架構(gòu)如下:

Word-Count-Hadoop
├─ input
│  ├─ file1
│  ├─ file2
│  └─ file3
├─ output
├─ pom.xml
├─ src
│  └─ main
│     └─ java
│        └─ WordCount.java
└─ target

WordCount.java代碼如下:

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount{
    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        //每次處理一行,一個(gè)mapper里的value為一行,key為該行在文件中的偏移量
            StringTokenizer iter = new StringTokenizer(value.toString());
            while (iter.hasMoreTokens()) {
                word.set(iter.nextToken());
                // 向context中寫(xiě)入<word, 1>
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text, IntWritable, Text, IntWritable>{
        private IntWritable result = new IntWritable();
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException{
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word_count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(TokenizerMapper.class);
        //此處的Combine操作意為即第每個(gè)mapper工作完了先局部reduce一下,最后再全局reduce
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //第0個(gè)參數(shù)是輸入目錄,第1個(gè)參數(shù)是輸出目錄
        //先判斷output path是否存在,如果存在則刪除
        Path path = new Path(args[1]);// 
        FileSystem fileSystem = path.getFileSystem(conf);
        if (fileSystem.exists(path)) {
            fileSystem.delete(path, true);
        }

        //設(shè)置輸入目錄和輸出目錄
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

pom.xml中記得配置Hadoop的依賴(lài)環(huán)境:

    ...
  <!-- 集中定義版本號(hào) -->
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>17</maven.compiler.source>
    <maven.compiler.target>17</maven.compiler.target>
    <hadoop.version>3.3.1</hadoop.version>
  </properties>
  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <!-- 導(dǎo)入hadoop依賴(lài)環(huán)境 -->
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-yarn-api</artifactId>
        <version>${hadoop.version}</version>
    </dependency>
  </dependencies>
  ...
</project>

此外,因?yàn)槲覀兊某绦蜃詭л斎雲(yún)?shù),我們還需要在VSCode的launch.json中配置輸入?yún)?shù)intput(代表輸入目錄)和output(代表輸出目錄):

...
"args": [
    "input",
    "output"
],
...

編譯運(yùn)行完畢后,可以查看output文件夾下的part-r-00000文件:

David    1
Goodbye    1
Hello    3
Tom    1
World    2

可見(jiàn)我們的程序正確地完成了單詞計(jì)數(shù)的功能。

以上就是Hadoop MapReduce實(shí)現(xiàn)單詞計(jì)數(shù)(Word Count)的詳細(xì)內(nèi)容,更多關(guān)于Hadoop MapReduce的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • 深入了解Java中Synchronized的各種使用方法

    深入了解Java中Synchronized的各種使用方法

    在Java當(dāng)中synchronized關(guān)鍵字通常是用來(lái)標(biāo)記一個(gè)方法或者代碼塊。本文將通過(guò)示例為大家詳細(xì)介紹一下Synchronized的各種使用方法,需要的可以參考一下
    2022-08-08
  • Java 8 對(duì) HashSet 元素進(jìn)行排序的操作方法

    Java 8 對(duì) HashSet 元素進(jìn)行排序的操作方法

    Java 中HashSet是一個(gè)不保證元素順序的集合類(lèi),其內(nèi)部是基于 HashMap 實(shí)現(xiàn)的,HashSet不支持排序,我們?cè)谛枰獙?duì)HashSet 排序時(shí),必須將其轉(zhuǎn)換為支持排序的集合或數(shù)據(jù)結(jié)構(gòu),如 List,本文將詳細(xì)介紹在 Java 8 中如何對(duì) HashSet 中的元素進(jìn)行排序,感興趣的朋友一起看看吧
    2024-11-11
  • java 數(shù)據(jù)結(jié)構(gòu)與算法 (快速排序法)

    java 數(shù)據(jù)結(jié)構(gòu)與算法 (快速排序法)

    這篇文章主要介紹了java 數(shù)據(jù)結(jié)構(gòu)與算法(快速排序法),,快速排序法是實(shí)踐中的一種快速的排序算法,在c++或?qū)ava基本類(lèi)型的排序中特別有用,下面我們一起進(jìn)入文章學(xué)習(xí)更詳細(xì)的內(nèi)容吧,需要的朋友可以參考下
    2022-02-02
  • Java線(xiàn)程等待喚醒幾種方法小結(jié)

    Java線(xiàn)程等待喚醒幾種方法小結(jié)

    線(xiàn)程等待和喚醒有三種實(shí)現(xiàn)方法,分別是Object類(lèi)中的wait、notify,Condition類(lèi)中的await、signal,LockSupport類(lèi)中的park、unpark方法,感興趣的可以了解一下
    2023-10-10
  • Java設(shè)計(jì)模式之工廠(chǎng)模式案例詳解

    Java設(shè)計(jì)模式之工廠(chǎng)模式案例詳解

    工廠(chǎng)模式(Factory Pattern)是Java中最常用的設(shè)計(jì)模式之一。這種類(lèi)型的設(shè)計(jì)模式屬于創(chuàng)建型模式,它提供了一種創(chuàng)建對(duì)象的最佳方式。本文將通過(guò)案例詳細(xì)講解一下工廠(chǎng)模式,需要的可以參考一下
    2022-02-02
  • ThreadLocal數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)原理解析

    ThreadLocal數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)原理解析

    這篇文章主要為大家介紹了ThreadLocal數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)原理解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-10-10
  • Java中Stringbuilder和正則表達(dá)式示例詳解

    Java中Stringbuilder和正則表達(dá)式示例詳解

    Java語(yǔ)言為字符串連接運(yùn)算符(+)提供特殊支持,并為其他對(duì)象轉(zhuǎn)換為字符串,字符串連接是通過(guò)StringBuilder(或StringBuffer)類(lèi)及其append方法實(shí)現(xiàn)的,這篇文章主要給大家介紹了關(guān)于Java中Stringbuilder和正則表達(dá)式的相關(guān)資料,需要的朋友可以參考下
    2024-02-02
  • Java的反射機(jī)制之獲取class詳解

    Java的反射機(jī)制之獲取class詳解

    這篇文章主要介紹了Java的反射機(jī)制之獲取class詳解,Class類(lèi)表示一個(gè)類(lèi)或接口的元數(shù)據(jù),通過(guò)它可以獲取到類(lèi)或接口的構(gòu)造函數(shù)、方法、字段、注解等信息,也能夠創(chuàng)建對(duì)象、調(diào)用方法等,需要的朋友可以參考下
    2023-09-09
  • spring boot動(dòng)態(tài)切換數(shù)據(jù)源的實(shí)現(xiàn)

    spring boot動(dòng)態(tài)切換數(shù)據(jù)源的實(shí)現(xiàn)

    這篇文章主要介紹了spring boot動(dòng)態(tài)切換數(shù)據(jù)源的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • Spring如何自定義加載配置文件(分層次加載)

    Spring如何自定義加載配置文件(分層次加載)

    這篇文章主要介紹了Spring如何自定義加載配置文件(分層次加載)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-07-07

最新評(píng)論