Java輕量級類隔離框架 SOFAArk Project v2.3.0
42.5MB / 01-19
SpringBlade微服務(wù)開發(fā)平臺 v4.4.0
197KB / 01-30
Diboot輕代碼開發(fā)平臺 v2.11.0
1.3MB / 07-20
RuoYi-activiti工作流平臺源碼 v4.1
24.79MB / 07-19
RuoYi若依權(quán)限管理系統(tǒng) v4.7.9
4.12MB / 06-28
Java Struts2漏洞復(fù)現(xiàn)工具
98KB / 06-26
java操作excel的jar包(jxl.jar包 源碼)
610KB / 06-26
springboot整合QuartJob實現(xiàn)定時器實時管理源代碼
29KB / 06-26
SOFABoot開源框架 v3.24.0
587KB / 08-31
基于SSM的應(yīng)急資源管理系統(tǒng)源碼 v1.0
80.7MB / 05-25
-
Pinpoint應(yīng)用性能管理工具 v3.0.2 java源碼 / 18.8MB
-
Presto大數(shù)據(jù)查詢引擎 v0.292 java源碼 / 10.89MB
-
-
-
Zotero文獻(xiàn)管理工具 v7.0.15 java源碼 / 6.8MB
-
Logstash日志管理系統(tǒng) v8.17.4 java源碼 / 18.9MB
-
Mybatis增強工具包(Mybatis plus) v3.5.11 java源碼 / 8.35MB
-
Mall4j商城系統(tǒng) v3.4 java源碼 / 14.2MB
-
Exchangis輕量級數(shù)據(jù)交換平臺 v1.1.7 java源碼 / 14.2MB
-
ReactNative移動開發(fā)工具 v0.78.1 java源碼 / 12.3MB
詳情介紹
Nutch的創(chuàng)始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創(chuàng)始人。
Nutch誕生于2002年8月,是Apache旗下的一個用Java實現(xiàn)的開源搜索引擎項目,自Nutch1.2版本之后,Nutch已經(jīng)從搜索引擎演化為網(wǎng)絡(luò)爬蟲,接著Nutch進(jìn)一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區(qū)別在于2.X對底層的數(shù)據(jù)存儲進(jìn)行了抽象以支持各種底層存儲技術(shù)。
在Nutch的進(jìn)化過程中,產(chǎn)生了Hadoop、Tika、Gora和Crawler Commons四個Java開源項目。如今這四個項目都發(fā)展迅速,極其火爆,尤其是Hadoop,其已成為大規(guī)模數(shù)據(jù)處理的事實上的標(biāo)準(zhǔn)。Tika使用多種現(xiàn)有的開源內(nèi)容解析項目來實現(xiàn)從多種格式的文件中提取元數(shù)據(jù)和結(jié)構(gòu)化文本,Gora支持把大數(shù)據(jù)持久化到多種存儲實現(xiàn),Crawler Commons是一個通用的網(wǎng)絡(luò)爬蟲組件。
大數(shù)據(jù)這個術(shù)語最早的引用可追溯到Nutch。當(dāng)時,大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時進(jìn)行批量處理或分析的大量數(shù)據(jù)集?,F(xiàn)在,大數(shù)據(jù)的含義已經(jīng)被極大地發(fā)展了,業(yè)界將大數(shù)據(jù)的特性歸納為4個“V”。Volume數(shù)據(jù)體量巨大,Variety數(shù)據(jù)類型繁多,Value價值密度低,商業(yè)價值高,Velocity處理速度快。
Hadoop是大數(shù)據(jù)的核心技術(shù)之一,而Nutch集Hadoop之大成,是Hadoop的源頭。學(xué)習(xí)Hadoop,沒有數(shù)據(jù)怎么辦?用Nutch抓!學(xué)了Hadoop的Map Reduce以及HDFS,沒有實用案例怎么辦?學(xué)習(xí)Nutch!Nutch的很多代碼是用Map Reduce和HDFS寫的,哪里還能找到比Nutch更好的Hadoop應(yīng)用案例呢?
下載地址
人氣源碼
若依后臺管理系統(tǒng) RuoYi v4.7.8
CryptoJS加密庫(crypto.js) v4.2.0
JetLinks開源物聯(lián)網(wǎng)平臺源碼 v2.2.0
Jeepay開源支付系統(tǒng) v2.4.0
JSH_ERP 開源版J2EE進(jìn)銷存系統(tǒng)代碼源碼 v1.0.2
QQ 聊天機器人小薇(XiaoV) v2.2.2
ECharts JavaScript圖表庫 v5.6.0
因酷時代(inxedu)在線教育系統(tǒng) V2.0.6
Javashop B2C開源電商系統(tǒng) v6.3.2
iBizEAM開源設(shè)備資產(chǎn)管理系統(tǒng)源碼 v1.0
相關(guān)文章
-
Java輕量級類隔離框架 SOFAArk Project v2.3.0
SOFAArk 是一款基于 Java 實現(xiàn)的動態(tài)熱部署和輕量級類隔離框架,由螞蟻集團開源貢獻(xiàn),主要提供應(yīng)用模塊的動態(tài)熱部署和類隔離能力。歡迎需要的朋友下載使用...
-
SpringBlade微服務(wù)開發(fā)平臺 v4.4.0
SpringBlade 是一個由商業(yè)級項目升級優(yōu)化而來的SpringCloud分布式微服務(wù)架構(gòu)、SpringBoot單體式微服務(wù)架構(gòu)并存的綜合型項目,采用Java8 API重構(gòu)了業(yè)務(wù)代碼,完全遵循阿里巴...
-
Diboot輕代碼開發(fā)平臺 v2.11.0
Diboot輕代碼開發(fā)平臺是一個面向開發(fā)人員的低代碼開發(fā)平臺,將重復(fù)性的工作自動化,提高質(zhì)量、效率、可維護(hù)性...
-
RuoYi-activiti工作流平臺源碼 v4.1
RuoYi-activiti是一款以若依開源權(quán)限管理系統(tǒng)為基礎(chǔ)開發(fā)平臺并集成了activiti框架完成的工作流系統(tǒng),旨在打造集流程設(shè)計、流程部署、流程執(zhí)行、任務(wù)辦理、流程監(jiān)控于一體的...
-
RuoYi若依權(quán)限管理系統(tǒng) v4.7.9
RuoYi若依權(quán)限管理系統(tǒng)是一個基于SpringBoot的權(quán)限管理系統(tǒng),代碼易讀易懂、界面簡潔美觀, 核心技術(shù)采用Spring、MyBatis、Shiro沒有任何其它重度依賴,喜歡的朋友快來下載...
-
Java Struts2漏洞復(fù)現(xiàn)工具
今天給大家分享Java Struts2漏洞復(fù)現(xiàn)工具,喜歡的朋友快來下載體驗吧...
-
java操作excel的jar包(jxl.jar包 源碼)
jxl.jar是通過java操作excel表格的工具類庫,能夠修飾單元格屬性,是由java語言開發(fā)而成的,接下來通過本文給大家介紹java操作excel的jar包(jxl.jar包 源碼),喜歡的朋友快...
-
springboot整合QuartJob實現(xiàn)定時器實時管理源代碼
Quartz是一個完全由java編寫的開源作業(yè)調(diào)度框架,形式簡易,功能強大,,下面給大家分享springboot整合QuartJob實現(xiàn)定時器實時管理源代碼,感興趣的朋友快來下載體驗吧...
-
SOFABoot開源框架 v3.24.0
SOFABoot 是螞蟻集團開源的基于 Spring Boot 的研發(fā)框架,它在 Spring Boot 的基礎(chǔ)上,提供了諸如 Readiness Check,上下文隔離,類隔離,日志空間隔離等等能力...
-
基于SSM的應(yīng)急資源管理系統(tǒng)源碼 v1.0
應(yīng)急資源管理系統(tǒng)用的是是比較流行的SSM和前端JSP技術(shù),用它來創(chuàng)建使用腳本語言,結(jié)合HTML代碼來制作動態(tài) 網(wǎng)頁,歡迎需要的朋友下載使用...
下載聲明
☉ 解壓密碼:www.dbjr.com.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
☉ 如果這個軟件總是不能下載的請在評論中留言,我們會盡快修復(fù),謝謝!
☉ 下載本站資源,如果服務(wù)器暫不能下載請過一段時間重試!或者多試試幾個下載地址
☉ 如果遇到什么問題,請評論留言,我們定會解決問題,謝謝大家支持!
☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請購買正版。
☉ 本站提供的Apache Nutch 網(wǎng)絡(luò)爬蟲 v1.20資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。