欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬取城市租房信息實(shí)戰(zhàn)分享

 更新時(shí)間:2022年04月11日 19:52:12   作者:程序員班長(zhǎng)  
這篇文章主要介紹了Python爬取城市房租房信息實(shí)戰(zhàn)分享,先單線(xiàn)程爬蟲(chóng),測(cè)試可以成功爬取之后再優(yōu)化為多線(xiàn)程,最后存入數(shù)據(jù)庫(kù),需要的小伙伴可以參考一下的相關(guān)資料

思路:先單線(xiàn)程爬蟲(chóng),測(cè)試可以成功爬取之后再優(yōu)化為多線(xiàn)程,最后存入數(shù)據(jù)庫(kù)

以爬取鄭州市租房信息為例

注意:本實(shí)戰(zhàn)項(xiàng)目?jī)H以學(xué)習(xí)為目的,為避免給網(wǎng)站造成太大壓力,請(qǐng)將代碼中的num修改成較小的數(shù)字,并將線(xiàn)程改小

一、單線(xiàn)程爬蟲(chóng)

# 用session取代requests
# 解析庫(kù)使用bs4
# 并發(fā)庫(kù)使用concurrent
import requests
# from lxml import etree ? ?# 使用xpath解析
from bs4 import BeautifulSoup
from urllib import parse
import re
import time
?
headers = {
? ? 'referer': 'https://zz.zu.fang.com/',
? ? 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
? ? 'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; city=zz; integratecover=1; __utma=147393320.427795962.1613371106.1613371106.1613371106.1; __utmc=147393320; __utmz=147393320.1613371106.1.1.utmcsr=zz.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; ASP.NET_SessionId=aamzdnhzct4i5mx3ak4cyoyp; Rent_StatLog=23d82b94-13d6-4601-9019-ce0225c092f6; Captcha=61584F355169576F3355317957376E4F6F7552365351342B7574693561766E63785A70522F56557370586E3376585853346651565256574F37694B7074576B2B34536C5747715856516A4D3D; g_sourcepage=zf_fy%5Elb_pc; unique_cookie=U_ffzvt3kztwck05jm6twso2wjw18kl67hqft*6; __utmb=147393320.12.10.1613371106'
}
data={
? ? 'agentbid':''
}
?
session = requests.session()
session.headers = headers
?
# 獲取頁(yè)面
def getHtml(url):
? ? try:
? ? ? ? re = session.get(url)
? ? ? ? re.encoding = re.apparent_encoding
? ? ? ? return re.text
? ? except:
? ? ? ? print(re.status_code)
?
# 獲取頁(yè)面總數(shù)量
def getNum(text):
? ? soup = BeautifulSoup(text, 'lxml')
? ? txt = soup.select('.fanye .txt')[0].text
? ? # 取出“共**頁(yè)”中間的數(shù)字
? ? num = re.search(r'\d+', txt).group(0)
? ? return num
?
# 獲取詳細(xì)鏈接
def getLink(tex):
? ? soup=BeautifulSoup(text,'lxml')
? ? links=soup.select('.title a')
? ? for link in links:
? ? ? ? href=parse.urljoin('https://zz.zu.fang.com/',link['href'])
? ? ? ? hrefs.append(href)
?
# 解析頁(yè)面
def parsePage(url):
? ? res=session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding=res.apparent_encoding
? ? ? ? soup=BeautifulSoup(res.text,'lxml')
? ? ? ? try:
? ? ? ? ? ? title=soup.select('div .title')[0].text.strip().replace(' ','')
? ? ? ? ? ? price=soup.select('div .trl-item')[0].text.strip()
? ? ? ? ? ? block=soup.select('.rcont #agantzfxq_C02_08')[0].text.strip()
? ? ? ? ? ? building=soup.select('.rcont #agantzfxq_C02_07')[0].text.strip()
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[2].text.strip()
? ? ? ? ? ? except:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[1].text.strip()
? ? ? ? ? ? detail1=soup.select('.clearfix')[4].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail2=soup.select('.clearfix')[5].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail=detail1+detail2
? ? ? ? ? ? name=soup.select('.zf_jjname')[0].text.strip()
? ? ? ? ? ? buserid=re.search('buserid: \'(\d+)\'',res.text).group(1)
? ? ? ? ? ? phone=getPhone(buserid)
? ? ? ? ? ? print(title,price,block,building,address,detail,name,phone)
? ? ? ? ? ? house = (title, price, block, building, address, detail, name, phone)
? ? ? ? ? ? info.append(house)
? ? ? ? except:
? ? ? ? ? ? pass
? ? else:
? ? ? ? print(re.status_code,re.text)
?
# 獲取代理人號(hào)碼
def getPhone(buserid):
? ? url='https://zz.zu.fang.com/RentDetails/Ajax/GetAgentVirtualMobile.aspx'
? ? data['agentbid']=buserid
? ? res=session.post(url,data=data)
? ? if res.status_code==200:
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
? ? ? ? return
?
if __name__ == '__main__':
? ? start_time=time.time()
? ? hrefs=[]
? ? info=[]
? ? init_url = 'https://zz.zu.fang.com/house/'
? ? num=getNum(getHtml(init_url))
? ? for i in range(0,num):
? ? ? ? url = f'https://zz.zu.fang.com/house/i3{i+1}/'
? ? ? ? text=getHtml(url)
? ? ? ? getLink(text)
? ? print(hrefs)
? ? for href in hrefs:
? ? ? ? parsePage(href)
?
? ? print("共獲取%d條數(shù)據(jù)"%len(info))
? ? print("共耗時(shí){}".format(time.time()-start_time))
? ? session.close()

二、優(yōu)化為多線(xiàn)程爬蟲(chóng)

# 用session取代requests
# 解析庫(kù)使用bs4
# 并發(fā)庫(kù)使用concurrent
import requests
# from lxml import etree ? ?# 使用xpath解析
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from urllib import parse
import re
import time
?
headers = {
? ? 'referer': 'https://zz.zu.fang.com/',
? ? 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
? ? 'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; integratecover=1; city=zz; keyWord_recenthousezz=%5b%7b%22name%22%3a%22%e6%96%b0%e5%af%86%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014868%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e4%ba%8c%e4%b8%83%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014864%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e9%83%91%e4%b8%9c%e6%96%b0%e5%8c%ba%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a0842%2f%22%2c%22sort%22%3a1%7d%5d; __utma=147393320.427795962.1613371106.1613558547.1613575774.5; __utmc=147393320; __utmz=147393320.1613575774.5.4.utmcsr=zz.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; ASP.NET_SessionId=vhrhxr1tdatcc1xyoxwybuwv; g_sourcepage=zf_fy%5Elb_pc; Captcha=4937566532507336644D6557347143746B5A6A6B4A7A48445A422F2F6A51746C67516F31357446573052634562725162316152533247514250736F72775566574A2B33514357304B6976343D; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; __utmb=147393320.9.10.1613575774; unique_cookie=U_0l0d1ilf1t0ci2rozai9qi24k1pkl9lcmrs*4'
}
data={
? ? 'agentbid':''
}
?
session = requests.session()
session.headers = headers
?
# 獲取頁(yè)面
def getHtml(url):
? ? res = session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding = res.apparent_encoding
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
?
# 獲取頁(yè)面總數(shù)量
def getNum(text):
? ? soup = BeautifulSoup(text, 'lxml')
? ? txt = soup.select('.fanye .txt')[0].text
? ? # 取出“共**頁(yè)”中間的數(shù)字
? ? num = re.search(r'\d+', txt).group(0)
? ? return num
?
# 獲取詳細(xì)鏈接
def getLink(url):
? ? text=getHtml(url)
? ? soup=BeautifulSoup(text,'lxml')
? ? links=soup.select('.title a')
? ? for link in links:
? ? ? ? href=parse.urljoin('https://zz.zu.fang.com/',link['href'])
? ? ? ? hrefs.append(href)
?
# 解析頁(yè)面
def parsePage(url):
? ? res=session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding=res.apparent_encoding
? ? ? ? soup=BeautifulSoup(res.text,'lxml')
? ? ? ? try:
? ? ? ? ? ? title=soup.select('div .title')[0].text.strip().replace(' ','')
? ? ? ? ? ? price=soup.select('div .trl-item')[0].text.strip()
? ? ? ? ? ? block=soup.select('.rcont #agantzfxq_C02_08')[0].text.strip()
? ? ? ? ? ? building=soup.select('.rcont #agantzfxq_C02_07')[0].text.strip()
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[2].text.strip()
? ? ? ? ? ? except:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[1].text.strip()
? ? ? ? ? ? detail1=soup.select('.clearfix')[4].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail2=soup.select('.clearfix')[5].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail=detail1+detail2
? ? ? ? ? ? name=soup.select('.zf_jjname')[0].text.strip()
? ? ? ? ? ? buserid=re.search('buserid: \'(\d+)\'',res.text).group(1)
? ? ? ? ? ? phone=getPhone(buserid)
? ? ? ? ? ? print(title,price,block,building,address,detail,name,phone)
? ? ? ? ? ? house = (title, price, block, building, address, detail, name, phone)
? ? ? ? ? ? info.append(house)
? ? ? ? except:
? ? ? ? ? ? pass
? ? else:
? ? ? ? print(re.status_code,re.text)
?
# 獲取代理人號(hào)碼
def getPhone(buserid):
? ? url='https://zz.zu.fang.com/RentDetails/Ajax/GetAgentVirtualMobile.aspx'
? ? data['agentbid']=buserid
? ? res=session.post(url,data=data)
? ? if res.status_code==200:
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
? ? ? ? return
?
if __name__ == '__main__':
? ? start_time=time.time()
? ? hrefs=[]
? ? info=[]
? ? init_url = 'https://zz.zu.fang.com/house/'
? ? num=getNum(getHtml(init_url))
? ? with ThreadPoolExecutor(max_workers=5) as t:
? ? ? ? for i in range(0,num):
? ? ? ? ? ? url = f'https://zz.zu.fang.com/house/i3{i+1}/'
? ? ? ? ? ? t.submit(getLink,url)
? ? print("共獲取%d個(gè)鏈接"%len(hrefs))
? ? print(hrefs)
? ? with ThreadPoolExecutor(max_workers=30) as t:
? ? ? ? for href in hrefs:
? ? ? ? ? ? t.submit(parsePage,href)
? ? print("共獲取%d條數(shù)據(jù)"%len(info))
? ? print("耗時(shí){}".format(time.time()-start_time))
? ? session.close()

三、使用asyncio進(jìn)一步優(yōu)化

# 用session取代requests
# 解析庫(kù)使用bs4
# 并發(fā)庫(kù)使用concurrent
import requests
# from lxml import etree ? ?# 使用xpath解析
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from urllib import parse
import re
import time
import asyncio
?
headers = {
? ? 'referer': 'https://zz.zu.fang.com/',
? ? 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
? ? 'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; integratecover=1; city=zz; keyWord_recenthousezz=%5b%7b%22name%22%3a%22%e6%96%b0%e5%af%86%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014868%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e4%ba%8c%e4%b8%83%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014864%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e9%83%91%e4%b8%9c%e6%96%b0%e5%8c%ba%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a0842%2f%22%2c%22sort%22%3a1%7d%5d; __utma=147393320.427795962.1613371106.1613558547.1613575774.5; __utmc=147393320; __utmz=147393320.1613575774.5.4.utmcsr=zz.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; ASP.NET_SessionId=vhrhxr1tdatcc1xyoxwybuwv; g_sourcepage=zf_fy%5Elb_pc; Captcha=4937566532507336644D6557347143746B5A6A6B4A7A48445A422F2F6A51746C67516F31357446573052634562725162316152533247514250736F72775566574A2B33514357304B6976343D; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; __utmb=147393320.9.10.1613575774; unique_cookie=U_0l0d1ilf1t0ci2rozai9qi24k1pkl9lcmrs*4'
}
data={
? ? 'agentbid':''
}
?
session = requests.session()
session.headers = headers
?
# 獲取頁(yè)面
def getHtml(url):
? ? res = session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding = res.apparent_encoding
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
?
# 獲取頁(yè)面總數(shù)量
def getNum(text):
? ? soup = BeautifulSoup(text, 'lxml')
? ? txt = soup.select('.fanye .txt')[0].text
? ? # 取出“共**頁(yè)”中間的數(shù)字
? ? num = re.search(r'\d+', txt).group(0)
? ? return num
?
# 獲取詳細(xì)鏈接
def getLink(url):
? ? text=getHtml(url)
? ? soup=BeautifulSoup(text,'lxml')
? ? links=soup.select('.title a')
? ? for link in links:
? ? ? ? href=parse.urljoin('https://zz.zu.fang.com/',link['href'])
? ? ? ? hrefs.append(href)
?
# 解析頁(yè)面
def parsePage(url):
? ? res=session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding=res.apparent_encoding
? ? ? ? soup=BeautifulSoup(res.text,'lxml')
? ? ? ? try:
? ? ? ? ? ? title=soup.select('div .title')[0].text.strip().replace(' ','')
? ? ? ? ? ? price=soup.select('div .trl-item')[0].text.strip()
? ? ? ? ? ? block=soup.select('.rcont #agantzfxq_C02_08')[0].text.strip()
? ? ? ? ? ? building=soup.select('.rcont #agantzfxq_C02_07')[0].text.strip()
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[2].text.strip()
? ? ? ? ? ? except:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[1].text.strip()
? ? ? ? ? ? detail1=soup.select('.clearfix')[4].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail2=soup.select('.clearfix')[5].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail=detail1+detail2
? ? ? ? ? ? name=soup.select('.zf_jjname')[0].text.strip()
? ? ? ? ? ? buserid=re.search('buserid: \'(\d+)\'',res.text).group(1)
? ? ? ? ? ? phone=getPhone(buserid)
? ? ? ? ? ? print(title,price,block,building,address,detail,name,phone)
? ? ? ? ? ? house = (title, price, block, building, address, detail, name, phone)
? ? ? ? ? ? info.append(house)
? ? ? ? except:
? ? ? ? ? ? pass
? ? else:
? ? ? ? print(re.status_code,re.text)
?
# 獲取代理人號(hào)碼
def getPhone(buserid):
? ? url='https://zz.zu.fang.com/RentDetails/Ajax/GetAgentVirtualMobile.aspx'
? ? data['agentbid']=buserid
? ? res=session.post(url,data=data)
? ? if res.status_code==200:
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
? ? ? ? return
?
# 獲取詳細(xì)鏈接的線(xiàn)程池
async def Pool1(num):
? ? loop=asyncio.get_event_loop()
? ? task=[]
? ? with ThreadPoolExecutor(max_workers=5) as t:
? ? ? ? for i in range(0,num):
? ? ? ? ? ? url = f'https://zz.zu.fang.com/house/i3{i+1}/'
? ? ? ? ? ? task.append(loop.run_in_executor(t,getLink,url))
?
# 解析頁(yè)面的線(xiàn)程池
async def Pool2(hrefs):
? ? loop=asyncio.get_event_loop()
? ? task=[]
? ? with ThreadPoolExecutor(max_workers=30) as t:
? ? ? ? for href in hrefs:
? ? ? ? ? ? task.append(loop.run_in_executor(t,parsePage,href))
?
if __name__ == '__main__':
? ? start_time=time.time()
? ? hrefs=[]
? ? info=[]
? ? task=[]
? ? init_url = 'https://zz.zu.fang.com/house/'
? ? num=getNum(getHtml(init_url))
? ? loop = asyncio.get_event_loop()
? ? loop.run_until_complete(Pool1(num))
? ? print("共獲取%d個(gè)鏈接"%len(hrefs))
? ? print(hrefs)
? ? loop.run_until_complete(Pool2(hrefs))
? ? loop.close()
? ? print("共獲取%d條數(shù)據(jù)"%len(info))
? ? print("耗時(shí){}".format(time.time()-start_time))
? ? session.close()

四、存入Mysql數(shù)據(jù)庫(kù)

(一)建表

from sqlalchemy import create_engine
from sqlalchemy import String, Integer, Column, Text
from sqlalchemy.orm import sessionmaker
from sqlalchemy.orm import scoped_session ?# 多線(xiàn)程爬蟲(chóng)時(shí)避免出現(xiàn)線(xiàn)程安全問(wèn)題
from sqlalchemy.ext.declarative import declarative_base
?
BASE = declarative_base() ?# 實(shí)例化
engine = create_engine(
? ? "mysql+pymysql://root:root@127.0.0.1:3306/pytest?charset=utf8",
? ? max_overflow=300, ?# 超出連接池大小最多可以創(chuàng)建的連接
? ? pool_size=100, ?# 連接池大小
? ? echo=False, ?# 不顯示調(diào)試信息
)
?
?
class House(BASE):
? ? __tablename__ = 'house'
? ? id = Column(Integer, primary_key=True, autoincrement=True)
? ? title=Column(String(200))
? ? price=Column(String(200))
? ? block=Column(String(200))
? ? building=Column(String(200))
? ? address=Column(String(200))
? ? detail=Column(Text())
? ? name=Column(String(20))
? ? phone=Column(String(20))
?
?
BASE.metadata.create_all(engine)
Session = sessionmaker(engine)
sess = scoped_session(Session)

(二)將數(shù)據(jù)存入數(shù)據(jù)庫(kù)中 

# 用session取代requests
# 解析庫(kù)使用bs4
# 并發(fā)庫(kù)使用concurrent
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from urllib import parse
from mysqldb import sess, House
import re
import time
import asyncio
?
headers = {
? ? 'referer': 'https://zz.zu.fang.com/',
? ? 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
? ? 'cookie': 'global_cookie=ffzvt3kztwck05jm6twso2wjw18kl67hqft; integratecover=1; city=zz; __utmc=147393320; ASP.NET_SessionId=vhrhxr1tdatcc1xyoxwybuwv; __utma=147393320.427795962.1613371106.1613575774.1613580597.6; __utmz=147393320.1613580597.6.5.utmcsr=zz.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; Rent_StatLog=c158b2a7-4622-45a9-9e69-dcf6f42cf577; keyWord_recenthousezz=%5b%7b%22name%22%3a%22%e4%ba%8c%e4%b8%83%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014864%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e9%83%91%e4%b8%9c%e6%96%b0%e5%8c%ba%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a0842%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e7%bb%8f%e5%bc%80%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a014871%2f%22%2c%22sort%22%3a1%7d%5d; g_sourcepage=zf_fy%5Elb_pc; Captcha=6B65716A41454739794D666864397178613772676C75447A4E746C657144775A347A6D42554F446532357649643062344F6976756E563450554E59594B7833712B413579506C4B684958343D; unique_cookie=U_0l0d1ilf1t0ci2rozai9qi24k1pkl9lcmrs*14; __utmb=147393320.21.10.1613580597'
}
data={
? ? 'agentbid':''
}
?
session = requests.session()
session.headers = headers
?
# 獲取頁(yè)面
def getHtml(url):
? ? res = session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding = res.apparent_encoding
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
?
# 獲取頁(yè)面總數(shù)量
def getNum(text):
? ? soup = BeautifulSoup(text, 'lxml')
? ? txt = soup.select('.fanye .txt')[0].text
? ? # 取出“共**頁(yè)”中間的數(shù)字
? ? num = re.search(r'\d+', txt).group(0)
? ? return num
?
# 獲取詳細(xì)鏈接
def getLink(url):
? ? text=getHtml(url)
? ? soup=BeautifulSoup(text,'lxml')
? ? links=soup.select('.title a')
? ? for link in links:
? ? ? ? href=parse.urljoin('https://zz.zu.fang.com/',link['href'])
? ? ? ? hrefs.append(href)
?
# 解析頁(yè)面
def parsePage(url):
? ? res=session.get(url)
? ? if res.status_code==200:
? ? ? ? res.encoding=res.apparent_encoding
? ? ? ? soup=BeautifulSoup(res.text,'lxml')
? ? ? ? try:
? ? ? ? ? ? title=soup.select('div .title')[0].text.strip().replace(' ','')
? ? ? ? ? ? price=soup.select('div .trl-item')[0].text.strip()
? ? ? ? ? ? block=soup.select('.rcont #agantzfxq_C02_08')[0].text.strip()
? ? ? ? ? ? building=soup.select('.rcont #agantzfxq_C02_07')[0].text.strip()
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[2].text.strip()
? ? ? ? ? ? except:
? ? ? ? ? ? ? ? address=soup.select('.trl-item2 .rcont')[1].text.strip()
? ? ? ? ? ? detail1=soup.select('.clearfix')[4].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail2=soup.select('.clearfix')[5].text.strip().replace('\n\n\n',',').replace('\n','')
? ? ? ? ? ? detail=detail1+detail2
? ? ? ? ? ? name=soup.select('.zf_jjname')[0].text.strip()
? ? ? ? ? ? buserid=re.search('buserid: \'(\d+)\'',res.text).group(1)
? ? ? ? ? ? phone=getPhone(buserid)
? ? ? ? ? ? print(title,price,block,building,address,detail,name,phone)
? ? ? ? ? ? house = (title, price, block, building, address, detail, name, phone)
? ? ? ? ? ? info.append(house)
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? house_data=House(
? ? ? ? ? ? ? ? ? ? title=title,
? ? ? ? ? ? ? ? ? ? price=price,
? ? ? ? ? ? ? ? ? ? block=block,
? ? ? ? ? ? ? ? ? ? building=building,
? ? ? ? ? ? ? ? ? ? address=address,
? ? ? ? ? ? ? ? ? ? detail=detail,
? ? ? ? ? ? ? ? ? ? name=name,
? ? ? ? ? ? ? ? ? ? phone=phone
? ? ? ? ? ? ? ? )
? ? ? ? ? ? ? ? sess.add(house_data)
? ? ? ? ? ? ? ? sess.commit()
? ? ? ? ? ? except Exception as e:
? ? ? ? ? ? ? ? print(e) ? ?# 打印錯(cuò)誤信息
? ? ? ? ? ? ? ? sess.rollback() ?# 回滾
? ? ? ? except:
? ? ? ? ? ? pass
? ? else:
? ? ? ? print(re.status_code,re.text)
?
# 獲取代理人號(hào)碼
def getPhone(buserid):
? ? url='https://zz.zu.fang.com/RentDetails/Ajax/GetAgentVirtualMobile.aspx'
? ? data['agentbid']=buserid
? ? res=session.post(url,data=data)
? ? if res.status_code==200:
? ? ? ? return res.text
? ? else:
? ? ? ? print(res.status_code)
? ? ? ? return
?
# 獲取詳細(xì)鏈接的線(xiàn)程池
async def Pool1(num):
? ? loop=asyncio.get_event_loop()
? ? task=[]
? ? with ThreadPoolExecutor(max_workers=5) as t:
? ? ? ? for i in range(0,num):
? ? ? ? ? ? url = f'https://zz.zu.fang.com/house/i3{i+1}/'
? ? ? ? ? ? task.append(loop.run_in_executor(t,getLink,url))
?
# 解析頁(yè)面的線(xiàn)程池
async def Pool2(hrefs):
? ? loop=asyncio.get_event_loop()
? ? task=[]
? ? with ThreadPoolExecutor(max_workers=30) as t:
? ? ? ? for href in hrefs:
? ? ? ? ? ? task.append(loop.run_in_executor(t,parsePage,href))
?
if __name__ == '__main__':
? ? start_time=time.time()
? ? hrefs=[]
? ? info=[]
? ? task=[]
? ? init_url = 'https://zz.zu.fang.com/house/'
? ? num=getNum(getHtml(init_url))
? ? loop = asyncio.get_event_loop()
? ? loop.run_until_complete(Pool1(num))
? ? print("共獲取%d個(gè)鏈接"%len(hrefs))
? ? print(hrefs)
? ? loop.run_until_complete(Pool2(hrefs))
? ? loop.close()
? ? print("共獲取%d條數(shù)據(jù)"%len(info))
? ? print("耗時(shí){}".format(time.time()-start_time))
? ? session.close()

五、最終效果圖 (已打碼)

到此這篇關(guān)于Python爬取城市租房信息實(shí)戰(zhàn)分享的文章就介紹到這了,更多相關(guān)Python爬取租房信息內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 如何使用Python進(jìn)行PDF圖片識(shí)別OCR

    如何使用Python進(jìn)行PDF圖片識(shí)別OCR

    這篇文章主要介紹了如何使用Python進(jìn)行PDF圖片識(shí)別OCR,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-01-01
  • Python?Pygame繪制直線(xiàn)實(shí)現(xiàn)光線(xiàn)反射效果

    Python?Pygame繪制直線(xiàn)實(shí)現(xiàn)光線(xiàn)反射效果

    這篇文章主要為大家詳細(xì)介紹了如何利用Python?Pygame繪制直線(xiàn)以實(shí)現(xiàn)光線(xiàn)反射效果,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
    2023-11-11
  • Python?ctypes庫(kù)底層交互秘籍實(shí)例探究

    Python?ctypes庫(kù)底層交互秘籍實(shí)例探究

    ctypes是Python標(biāo)準(zhǔn)庫(kù)中的外部函數(shù)庫(kù),允許Python調(diào)用動(dòng)態(tài)鏈接庫(kù)中的函數(shù),它提供了與C兼容的數(shù)據(jù)類(lèi)型和允許Python調(diào)用共享庫(kù)中的函數(shù),對(duì)系統(tǒng)級(jí)編程和與硬件交互非常有用
    2024-01-01
  • Python安裝模塊的常見(jiàn)問(wèn)題及解決方法

    Python安裝模塊的常見(jiàn)問(wèn)題及解決方法

    下面小編就為大家分享一篇Python安裝模塊的常見(jiàn)問(wèn)題及解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2018-02-02
  • Django通過(guò)自定義認(rèn)證后端實(shí)現(xiàn)多種登錄方式驗(yàn)證

    Django通過(guò)自定義認(rèn)證后端實(shí)現(xiàn)多種登錄方式驗(yàn)證

    Django提供了用戶(hù)認(rèn)證系統(tǒng),那么如何在項(xiàng)目中進(jìn)行應(yīng)用呢?在本文中小編將給大家介紹如何使用用戶(hù)認(rèn)證系統(tǒng),實(shí)現(xiàn)我們業(yè)務(wù)場(chǎng)景中常見(jiàn)的多種登錄方式驗(yàn)證。感興趣的小伙伴可以了解一下
    2021-12-12
  • python3實(shí)現(xiàn)單目標(biāo)粒子群算法

    python3實(shí)現(xiàn)單目標(biāo)粒子群算法

    這篇文章主要為大家詳細(xì)介紹了python3實(shí)現(xiàn)單目標(biāo)粒子群算法,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-11-11
  • python打包成so文件過(guò)程解析

    python打包成so文件過(guò)程解析

    這篇文章主要介紹了python打包成so文件過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-09-09
  • Python外星人入侵游戲編程完整版

    Python外星人入侵游戲編程完整版

    這篇文章主要為大家詳細(xì)介紹了Python外星人入侵游戲編程完整的實(shí)現(xiàn)思路,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-04-04
  • 解決Python 命令行執(zhí)行腳本時(shí),提示導(dǎo)入的包找不到的問(wèn)題

    解決Python 命令行執(zhí)行腳本時(shí),提示導(dǎo)入的包找不到的問(wèn)題

    今天小編就為大家分享一篇解決Python 命令行執(zhí)行腳本時(shí),提示導(dǎo)入的包找不到的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,一起跟隨小編過(guò)來(lái)看看吧
    2019-01-01
  • Python中的if判斷語(yǔ)句中包含or問(wèn)題

    Python中的if判斷語(yǔ)句中包含or問(wèn)題

    這篇文章主要介紹了Python中的if判斷語(yǔ)句中包含or問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-07-07

最新評(píng)論