使用Python程序抓取新浪在國內(nèi)的所有IP的教程
數(shù)據(jù)分析,特別是網(wǎng)站分析中需要對訪問者的IP進(jìn)行分析,分析IP中主要是區(qū)分來訪者的省份+城市+行政區(qū)數(shù)據(jù),考慮到目前純真IP數(shù)據(jù)庫并沒有把這些數(shù)據(jù)做很好的區(qū)分,于是尋找了另外一個(gè)可行的方案(當(dāng)然不是花錢買哈)。解決方案就是抓取新浪的IP數(shù)據(jù)。
新浪的IP數(shù)據(jù)接口為:
http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85
返回的數(shù)據(jù)為:
{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"\u4e2d\u56fd","province":"\u5317\u4eac","city":"\u5317\u4eac","district":"","isp":"\u8054\u901a","type":"","desc":""}
其返回的內(nèi)容中已經(jīng)包含了省份+城市+行政區(qū)信息了,這就是我們真實(shí)想要的。
下面就來說說如何來抓取這部分IP數(shù)據(jù),要抓取這部分?jǐn)?shù)據(jù)的主要工作就是枚舉,即將接口中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下范圍,只窮舉所有中國的IP段??紤]到新浪的IP接口返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最后一位及256個(gè)IP基本上都是在一個(gè)地區(qū),所以我們要窮舉的數(shù)據(jù)有少了很多。對于窮舉最重要的是把IP地址換成INT型。
具體國內(nèi)有多少IP地址段,可以到APNIC官方網(wǎng)站去查找或下面的文檔
http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst
下面就來看看窮舉程序如何寫:
import re
def ipv3_to_int(s):
l = [int(i) for i in s.split('.')]
return (l[0] << 16) | (l[1] << 8) | l[2]
def int_to_ipv3(s):
ip1 = s >> 16 & 0xFF
ip2 = s >> 8 & 0xFF
ip3 = s & 0xFF
return "%d.%d.%d" % (ip1, ip2, ip3)
i = open('ChinaIPAddress.csv', 'r')
list = i.readlines()
for iplist in list:
pattern = re.compile('(\d{1,3}\.\d{1,3}\.\d{1,3})\.\d{1,3}')
ips = pattern.findall(iplist)
x = ips[0]
y = ips[1]
for ip in range (ipv3_to_int(x),ipv3_to_int(y)):
ipadress=str(ip)
#ip_address = int_to_ipv3(ip)
o = open('ChinaIPAddress.txt','a')
o.writelines(ipadress)
o.writelines('\n')
o.close()
i.close()
當(dāng)上面的不走完成后就可以對新浪IP接口進(jìn)行抓取了,抓取代碼如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib,urllib2, simplejson, sqlite3, time
def ipv3_to_int(s):
l = [int(i) for i in s.split('.')]
return (l[0] << 16) | (l[1] << 8) | l[2]
def int_to_ipv4(s):
ip1 = s >> 16 & 0xFF
ip2 = s >> 8 & 0xFF
ip3 = s & 0xFF
return "%d.%d.%d.0" % (ip1, ip2, ip3)
def fetch(ipv4, **kwargs):
kwargs.update({
'ip': ipv4,
'format': 'json',
})
DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php"
url = DATA_BASE + '?' + urllib.urlencode(kwargs)
print url
fails = 0
try:
result = simplejson.load(urllib2.urlopen(url,timeout=20))
except (urllib2.URLError,IOError):
fails += 1
if fails < 10:
result = fetch(ipv4)
else:
sleep_download_time = 60*10
time.sleep(sleep_download_time)
result = fetch(ipv4)
return result
def dbcreate():
c = conn.cursor()
c.execute('''create table ipdata(
ip integer primary key,
ret integer,
start text,
end text,
country text,
province text,
city text,
district text,
isp text,
type text,
desc text
)''')
conn.commit()
c.close()
def dbinsert(ip,address):
c = conn.cursor()
c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc']))
conn.commit()
c.close()
conn = sqlite3.connect('ipaddress.sqlite3.db')
dbcreate()
i = open('ChinaIPAddress.txt','r')
list = [s.strip() for s in i.readlines()]
end = 0
for ip in list:
ip = int(ip)
if ip > end :
ipaddress = int_to_ipv4(ip)
info = fetch(ipaddress)
if info['ret'] == -1:
pass
else:
dbinsert(ip,info)
end = ipv3_to_int(info['end'])
print ip,end
else :
pass
i.close()
到此就能把新浪所有的國內(nèi)IP數(shù)據(jù)給抓取出來,然后在數(shù)據(jù)分析的工程中大派用場。~
相關(guān)文章
python 實(shí)現(xiàn)批量圖片識(shí)別并翻譯
這篇文章主要介紹了python 實(shí)現(xiàn)批量圖片識(shí)別并翻譯,幫助大家利用python處理圖片,感興趣的朋友可以了解下2020-11-11
python 隨機(jī)密碼生成器的實(shí)現(xiàn)示例
隨機(jī)密碼生成器是一種非常有用的工具,它可以幫助我們生成隨機(jī)的、復(fù)雜的密碼,提高我們的賬戶安全性,本文就來介紹一下python 隨機(jī)密碼生成器的實(shí)現(xiàn)示例,感興趣的可以了解一下2023-11-11
Python基礎(chǔ)之變量的相關(guān)知識(shí)總結(jié)
今天給大家?guī)淼氖顷P(guān)于Python的相關(guān)知識(shí),文章圍繞著Python變量展開,文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06
pandas中DataFrame檢測重復(fù)值的實(shí)現(xiàn)
本文主要介紹了pandas DataFrame檢測重復(fù)值,主要包括了檢查整行整列的檢測,以及多列是否重復(fù),需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-05-05
基于Python編寫一個(gè)圖片識(shí)別系統(tǒng)
本項(xiàng)目將使用python3去識(shí)別圖片是否為色情圖片,會(huì)使用到PIL這個(gè)圖像處理庫,并且編寫算法來劃分圖像的皮膚區(qū)域,感興趣的可以了解一下2022-06-06
利用python獲取當(dāng)前日期前后N天或N月日期的方法示例
最近在工作中遇到一個(gè)需求,查找資料發(fā)現(xiàn)了一個(gè)很好的時(shí)間組件,所以下面這篇文章主要給大家介紹了關(guān)于利用python獲取當(dāng)前日期前后N天或N月日期的方法示例,需要的朋友們可以參考借鑒,下面來一起看看吧。2017-07-07

