使用Python程序抓取新浪在國(guó)內(nèi)的所有IP的教程
數(shù)據(jù)分析,特別是網(wǎng)站分析中需要對(duì)訪問(wèn)者的IP進(jìn)行分析,分析IP中主要是區(qū)分來(lái)訪者的省份+城市+行政區(qū)數(shù)據(jù),考慮到目前純真IP數(shù)據(jù)庫(kù)并沒(méi)有把這些數(shù)據(jù)做很好的區(qū)分,于是尋找了另外一個(gè)可行的方案(當(dāng)然不是花錢買哈)。解決方案就是抓取新浪的IP數(shù)據(jù)。
新浪的IP數(shù)據(jù)接口為:
http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85
返回的數(shù)據(jù)為:
{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"\u4e2d\u56fd","province":"\u5317\u4eac","city":"\u5317\u4eac","district":"","isp":"\u8054\u901a","type":"","desc":""}
其返回的內(nèi)容中已經(jīng)包含了省份+城市+行政區(qū)信息了,這就是我們真實(shí)想要的。
下面就來(lái)說(shuō)說(shuō)如何來(lái)抓取這部分IP數(shù)據(jù),要抓取這部分?jǐn)?shù)據(jù)的主要工作就是枚舉,即將接口中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下范圍,只窮舉所有中國(guó)的IP段??紤]到新浪的IP接口返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最后一位及256個(gè)IP基本上都是在一個(gè)地區(qū),所以我們要窮舉的數(shù)據(jù)有少了很多。對(duì)于窮舉最重要的是把IP地址換成INT型。
具體國(guó)內(nèi)有多少IP地址段,可以到APNIC官方網(wǎng)站去查找或下面的文檔
http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst
下面就來(lái)看看窮舉程序如何寫:
import re def ipv3_to_int(s): l = [int(i) for i in s.split('.')] return (l[0] << 16) | (l[1] << 8) | l[2] def int_to_ipv3(s): ip1 = s >> 16 & 0xFF ip2 = s >> 8 & 0xFF ip3 = s & 0xFF return "%d.%d.%d" % (ip1, ip2, ip3) i = open('ChinaIPAddress.csv', 'r') list = i.readlines() for iplist in list: pattern = re.compile('(\d{1,3}\.\d{1,3}\.\d{1,3})\.\d{1,3}') ips = pattern.findall(iplist) x = ips[0] y = ips[1] for ip in range (ipv3_to_int(x),ipv3_to_int(y)): ipadress=str(ip) #ip_address = int_to_ipv3(ip) o = open('ChinaIPAddress.txt','a') o.writelines(ipadress) o.writelines('\n') o.close() i.close()
當(dāng)上面的不走完成后就可以對(duì)新浪IP接口進(jìn)行抓取了,抓取代碼如下:
#!/usr/bin/python # -*- coding: utf-8 -*- import urllib,urllib2, simplejson, sqlite3, time def ipv3_to_int(s): l = [int(i) for i in s.split('.')] return (l[0] << 16) | (l[1] << 8) | l[2] def int_to_ipv4(s): ip1 = s >> 16 & 0xFF ip2 = s >> 8 & 0xFF ip3 = s & 0xFF return "%d.%d.%d.0" % (ip1, ip2, ip3) def fetch(ipv4, **kwargs): kwargs.update({ 'ip': ipv4, 'format': 'json', }) DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php" url = DATA_BASE + '?' + urllib.urlencode(kwargs) print url fails = 0 try: result = simplejson.load(urllib2.urlopen(url,timeout=20)) except (urllib2.URLError,IOError): fails += 1 if fails < 10: result = fetch(ipv4) else: sleep_download_time = 60*10 time.sleep(sleep_download_time) result = fetch(ipv4) return result def dbcreate(): c = conn.cursor() c.execute('''create table ipdata( ip integer primary key, ret integer, start text, end text, country text, province text, city text, district text, isp text, type text, desc text )''') conn.commit() c.close() def dbinsert(ip,address): c = conn.cursor() c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc'])) conn.commit() c.close() conn = sqlite3.connect('ipaddress.sqlite3.db') dbcreate() i = open('ChinaIPAddress.txt','r') list = [s.strip() for s in i.readlines()] end = 0 for ip in list: ip = int(ip) if ip > end : ipaddress = int_to_ipv4(ip) info = fetch(ipaddress) if info['ret'] == -1: pass else: dbinsert(ip,info) end = ipv3_to_int(info['end']) print ip,end else : pass i.close()
到此就能把新浪所有的國(guó)內(nèi)IP數(shù)據(jù)給抓取出來(lái),然后在數(shù)據(jù)分析的工程中大派用場(chǎng)。~
相關(guān)文章
python 實(shí)現(xiàn)批量圖片識(shí)別并翻譯
這篇文章主要介紹了python 實(shí)現(xiàn)批量圖片識(shí)別并翻譯,幫助大家利用python處理圖片,感興趣的朋友可以了解下2020-11-11python 隨機(jī)密碼生成器的實(shí)現(xiàn)示例
隨機(jī)密碼生成器是一種非常有用的工具,它可以幫助我們生成隨機(jī)的、復(fù)雜的密碼,提高我們的賬戶安全性,本文就來(lái)介紹一下python 隨機(jī)密碼生成器的實(shí)現(xiàn)示例,感興趣的可以了解一下2023-11-11Python基礎(chǔ)之變量的相關(guān)知識(shí)總結(jié)
今天給大家?guī)?lái)的是關(guān)于Python的相關(guān)知識(shí),文章圍繞著Python變量展開(kāi),文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06pandas中DataFrame檢測(cè)重復(fù)值的實(shí)現(xiàn)
本文主要介紹了pandas DataFrame檢測(cè)重復(fù)值,主要包括了檢查整行整列的檢測(cè),以及多列是否重復(fù),需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-05-05Python Matplotlib繪制箱線圖的全過(guò)程
又稱箱形圖(boxplot)或盒式圖,數(shù)據(jù)大小、占比、趨勢(shì)等等的呈現(xiàn)其包含一些統(tǒng)計(jì)學(xué)的均值、分位數(shù)、極值等等統(tǒng)計(jì)量,因此該圖信息量較大,下面這篇文章主要給大家介紹了關(guān)于Python Matplotlib繪制箱線圖的相關(guān)資料,需要的朋友可以參考下2021-09-09基于Python編寫一個(gè)圖片識(shí)別系統(tǒng)
本項(xiàng)目將使用python3去識(shí)別圖片是否為色情圖片,會(huì)使用到PIL這個(gè)圖像處理庫(kù),并且編寫算法來(lái)劃分圖像的皮膚區(qū)域,感興趣的可以了解一下2022-06-06利用python獲取當(dāng)前日期前后N天或N月日期的方法示例
最近在工作中遇到一個(gè)需求,查找資料發(fā)現(xiàn)了一個(gè)很好的時(shí)間組件,所以下面這篇文章主要給大家介紹了關(guān)于利用python獲取當(dāng)前日期前后N天或N月日期的方法示例,需要的朋友們可以參考借鑒,下面來(lái)一起看看吧。2017-07-07