python中常見的5種框架解讀
python常見的框架有哪些
1.scrapy框架
scrapy框架是一套比較成熟的python爬蟲框架,是使用python開發(fā)的快速、高層次的信息爬取框架,可以高效率地爬取web頁面并提取出我們關(guān)注的結(jié)構(gòu)化數(shù)據(jù)。
scrapy框架的應(yīng)用領(lǐng)域有許多,比如網(wǎng)絡(luò)爬蟲,數(shù)據(jù)挖掘、數(shù)據(jù)監(jiān)測(cè)、自動(dòng)化測(cè)試等。
scrapy框架是一套開源的框架,開源也就意味著我們能夠看到并且免費(fèi)試用scrapy的所有代碼。
2.crawley框架
crawley也是使用python開發(fā)出來的一款爬蟲框架,該框架致力于改變?nèi)藗儚幕ヂ?lián)網(wǎng)中提取數(shù)據(jù)的方式,讓大家可以更高效地從互聯(lián)網(wǎng)中爬取對(duì)應(yīng)內(nèi)容。
crawley框架的主要特點(diǎn)有:
- 1>高速爬取對(duì)應(yīng)網(wǎng)站內(nèi)容
- 2> 可以將爬取到內(nèi)容輕松地存儲(chǔ)到數(shù)據(jù)庫中,比如:postgres,mysql,oracle,sqlite等數(shù)據(jù)庫
- 3>可以將爬取到的數(shù)據(jù)導(dǎo)出為json,xml等格式
- 4>支持非關(guān)系型數(shù)據(jù)庫,比如:mongodb,couchdb等
- 5>支持使用命令行工具
- 6>可以使用你喜歡的工具提取數(shù)據(jù),比如使用xpath或者pyquery等工具
- 7>支持使用cookie登陸并訪問哪些只有登陸才能夠訪問的網(wǎng)頁
- 8>簡(jiǎn)單易學(xué)
3.portia框架
portia框架是一款允許沒有任何編程基礎(chǔ)的用戶可視化地爬取網(wǎng)頁的爬蟲框架,給出你要爬取的網(wǎng)頁中感興趣的數(shù)據(jù)內(nèi)容,通過portia框架,可以將你所需要的信息從相似的網(wǎng)頁中自動(dòng)提取出來,如果需要,可以子啊github上的主頁進(jìn)行獲取。
如果需要,上百度自己查吧,具體的我就不寫了。
4.newspaper框架
newspaper框架是一種用來提取新聞、文章以及內(nèi)容分析的python爬蟲框架。
更準(zhǔn)確地說,newspaper是一個(gè)python的庫,只不過這個(gè)庫是由第三方開發(fā)的,可以歸為一種框架。
newspaper框架在的主要特點(diǎn):
- 1>比較簡(jiǎn)單
- 2>速度比較快
- 3>支持多線程
- 4>支持十多種語言
由此我們可以知道newspaper框架是輕量級(jí)框架,并且就爬取文章信息這一功能來說,使用起來很方便
5.Python-goose框架
coose本來是一款用java寫的文章提取工具,Xavier Grangier用python重寫了goose,并將重寫后goose命名為python-goose。
所以,python-coose框架實(shí)現(xiàn)的功能同樣是進(jìn)行文章提取。
總結(jié)
以上是python常用的5種框架,這是我知道,如果各位大神,還有其他的 ,也可以留言,相互溝通,學(xué)習(xí)。
另外后面3種框架可以再github上找到。希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python標(biāo)準(zhǔn)庫06之子進(jìn)程 (subprocess包) 詳解
本篇文章主要介紹了Python標(biāo)準(zhǔn)庫06之子進(jìn)程 (subprocess包) 詳解,具有一定的參考價(jià)值,有興趣的同學(xué)可以了解一下。2016-12-12判斷Threading.start新線程是否執(zhí)行完畢的實(shí)例
這篇文章主要介紹了判斷Threading.start新線程是否執(zhí)行完畢的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05使用Tensorflow將自己的數(shù)據(jù)分割成batch訓(xùn)練實(shí)例
今天小編就為大家分享一篇使用Tensorflow將自己的數(shù)據(jù)分割成batch訓(xùn)練實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01詳解TensorFlow2實(shí)現(xiàn)線性回歸
這篇文章主要介紹了TensorFlow2實(shí)現(xiàn)線性回歸的詳細(xì)解析,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-09-09Python使用gRPC實(shí)現(xiàn)數(shù)據(jù)分析能力的共享
gRPC是一個(gè)高性能、開源、通用的遠(yuǎn)程過程調(diào)用(RPC)框架,由Google推出,本文主要介紹了Python如何使用gRPC實(shí)現(xiàn)數(shù)據(jù)分析能力的共享,感興趣的可以了解下2024-02-02django為Form生成的label標(biāo)簽添加class方式
這篇文章主要介紹了django為Form生成的label標(biāo)簽添加class方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05Python中chinesecalendar簡(jiǎn)介、安裝、使用方法詳細(xì)講解
這篇文章主要介紹了Python中chinesecalendar簡(jiǎn)介、安裝、使用方法詳細(xì)講解,該庫是判斷某年某月某一天是不是工作日/節(jié)假日。 支持 2004年 至 2023年,包括 2020年 的春節(jié)延長(zhǎng),需要的朋友可以參考下2023-03-03Python爬蟲中urllib庫的進(jìn)階學(xué)習(xí)
本篇文章主要介紹了Python爬蟲中urllib庫的進(jìn)階學(xué)習(xí)內(nèi)容,對(duì)此有興趣的朋友趕緊學(xué)習(xí)分享下。2018-01-01