MongoDB中的MapReduce簡介

更新時間：2015年05月07日 12:38:13 投稿：junjie

這篇文章主要介紹了MongoDB中的MapReduce簡介,MapReduce是一種計算模型,簡單的說就是將大批量的工作（數據）分解（MAP）執(zhí)行,然后再將結果合并成最終結果（REDUCE）,需要的朋友可以參考下

MongoDB MapReduce

MapReduce是一種計算模型，簡單的說就是將大批量的工作（數據）分解（MAP）執(zhí)行，然后再將結果合并成最終結果（REDUCE）。這樣做的好處是可以在任務被分解后，可以通過大量機器進行并行計算，減少整個操作的時間。

上面是MapReduce的理論部分，下面說實際的應用，下面以MongoDB MapReduce為例說明。

下面是MongoDB官方的一個例子：

復制代碼代碼如下:

> db.things.insert( { _id : 1, tags : ['dog', 'cat'] } );
> db.things.insert( { _id : 2, tags : ['cat'] } );
> db.things.insert( { _id : 3, tags : ['mouse', 'cat', 'dog'] } );
> db.things.insert( { _id : 4, tags : [] } );

> // map function
> map = function(){
...    this.tags.forEach(
...        function(z){
...            emit( z , { count : 1 } );
...        }
...    );
...};

> // reduce function
> reduce = function( key , values ){
...    var total = 0;
...    for ( var i=0; i<values.length; i++ )
...        total += values[i].count;
...    return { count : total };
...};

db.things.mapReduce(map,reduce,{out:'tmp'})
{
    "result" : "tmp",
    "timeMillis" : 316,
    "counts" : {
        "input" : 4,
        "emit" : 6,
        "output" : 3
    },
    "ok" : 1,
}
> db.tmp.find()
{ "_id" : "cat", "value" : { "count" : 3 } }
{ "_id" : "dog", "value" : { "count" : 2 } }
{ "_id" : "mouse", "value" : { "count" : 1 } }

例子很簡單，計算一個標簽系統(tǒng)中每個標簽出現(xiàn)的次數。

這里面，除了emit函數之外，所有都是標準的js語法,這個emit函數是非常重要的，可以這樣理解，當所有需要計算的文檔（因為在mapReduce時，可以對文檔進行過濾，接下來會講到）執(zhí)行完了map函數，map函數會返回key_values對，key即是emit中的第一個參數key，values是對應同一key的emit的n個第二個參數組成的數組。這個key_values會作為參數傳遞給reduce，分別作為第1.2個參數。

reduce函數的任務就是將key-values變成key-value，也就是把values數組變成一個單一的值value。當key-values中的values數組過大時，會被再切分成很多個小的key-values塊，然后分別執(zhí)行Reduce函數，再將多個塊的結果組合成一個新的數組，作為Reduce函數的第二個參數，繼續(xù)Reducer操作?？梢灶A見，如果我們初始的values非常大，可能還會對第一次分塊計算后組成的集合再次Reduce。這就類似于多階的歸并排序了。具體會有多少重，就看數據量了。

reduce一定要能被反復調用，不論是映射環(huán)節(jié)還是前一個簡化環(huán)節(jié)。所以reduce返回的文檔必須能作為reduce的第二個參數的一個元素。

（當書寫Map函數時，emit的第二個參數組成數組成了reduce函數的第二個參數，而Reduce函數的返回值，跟emit函數的第二個參數形式要一致，多個reduce函數的返回值可能會組成數組作為新的第二個輸入參數再次執(zhí)行Reduce操作。）

MapReduce函數的參數列表如下：

復制代碼代碼如下:

db.runCommand(

 { mapreduce : <collection>,

   map : <mapfunction>,

   reduce : <reducefunction>

   [, query : <query filter object>]

   [, sort : <sort the query.  useful for optimization>]

   [, limit : <number of objects to return from collection>]

   [, out : <output-collection name>]

   [, keeptemp: <true|false>]

   [, finalize : <finalizefunction>]

   [, scope : <object where fields go into javascript global scope >]

   [, verbose : true]

 }

);

或者這么寫：

復制代碼代碼如下:

db.collection.mapReduce(

                         <map>,

                         <reduce>,

                         {

                           <out>,

                           <query>,

                           <sort>,

                           <limit>,

                           <keytemp>,

                           <finalize>,

                           <scope>,

                           <jsMode>,

                           <verbose>

                         }

                       )

1.mapreduce：指定要進行mapreduce處理的collection
2.map：map函數
3.reduce：reduce函數
4.out：輸出結果的collection的名字，不指定會默認創(chuàng)建一個隨機名字的collection（如果使用了out選項，就不必指定keeptemp：true了，因為已經隱含在其中了）
5.query：一個篩選條件，只有滿足條件的文檔才會調用map函數。（query。limit，sort可以隨意組合）
6.sort：和limit結合的sort排序參數（也是在發(fā)往map函數前給文檔排序），可以優(yōu)化分組機制
7.limit：發(fā)往map函數的文檔數量的上限（要是沒有l(wèi)imit，單獨使用sort的用處不大）
8.keytemp：true或false，表明結果輸出到的collection是否是臨時的，如果想在連接關閉后仍然保留這個集合，就要指定keeptemp為true，如果你用的是MongoDB的mongo客戶端連接，那必須exit后才會刪除。如果是腳本執(zhí)行，腳本退出或調用close會自動刪除結果collection
9.finalize：是函數，它會在執(zhí)行完map、reduce后再對key和value進行一次計算并返回一個最終結果，這是處理過程的最后一步，所以finalize就是一個計算平均數，剪裁數組，清除多余信息的恰當時機
10.scope：javascript代碼中要用到的變量，在這里定義的變量在map，reduce，finalize函數中可見
11.verbose：用于調試的詳細輸出選項，如果想看MpaReduce的運行過程，可以設置其為true。也可以print把map，reduce，finalize過程中的信息輸出到服務器日志上。

執(zhí)行MapReduce函數返回的文檔結構如下：

復制代碼代碼如下:

{ result : <collection_name>,

timeMillis : <job_time>,

counts : {

input : <number of objects scanned>,

emit : <number of times emit was called>,

output : <number of items in output collection>

} ,

ok : <1_if_ok>,

[, err : <errmsg_if_error>]

}

1.result：儲存結果的collection的名字,這是個臨時集合，MapReduce的連接關閉后自動就被刪除了。
2.timeMillis：執(zhí)行花費的時間，毫秒為單位
3.input：滿足條件被發(fā)送到map函數的文檔個數
4.emit：在map函數中emit被調用的次數，也就是所有集合中的數據總量
5.ouput：結果集合中的文檔個數（count對調試非常有幫助）
6.ok：是否成功，成功為1
7.err：如果失敗，這里可以有失敗原因，不過從經驗上來看，原因比較模糊，作用不大

java代碼執(zhí)行MapReduce的方法：

復制代碼代碼如下:

public void MapReduce() {

        Mongo mongo = new Mongo("localhost",27017);

        DB db = mongo.getDB("qimiguangdb");

        DBCollection coll = db.getCollection("collection1");

        String map = "function() { emit(this.name, {count:1});}";

        String reduce = "function(key, values) {";  

        reduce=reduce+"var total = 0;";  

        reduce=reduce+"for(var i=0;i<values.length;i++){total += values[i].count;}";  

        reduce=reduce+"return {count:total};}";  

        String result = "resultCollection";  

        MapReduceOutput mapReduceOutput = coll.mapReduce(map,  

                reduce.toString(), result, null);  

        DBCollection resultColl = mapReduceOutput.getOutputCollection();  

        DBCursor cursor= resultColl.find();  

        while (cursor.hasNext()) {  

            System.out.println(cursor.next());  

        }  

    }