欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用Python程序抓取新浪在國內(nèi)的所有IP的教程

 更新時間:2015年05月04日 17:08:58   投稿:goldensun  
這篇文章主要介紹了使用Python程序抓取新浪在國內(nèi)的所有IP的教程,作為Python網(wǎng)絡(luò)編程中獲取IP的一個小實踐,需要的朋友可以參考下

數(shù)據(jù)分析,特別是網(wǎng)站分析中需要對訪問者的IP進(jìn)行分析,分析IP中主要是區(qū)分來訪者的省份+城市+行政區(qū)數(shù)據(jù),考慮到目前純真IP數(shù)據(jù)庫并沒有把這些數(shù)據(jù)做很好的區(qū)分,于是尋找了另外一個可行的方案(當(dāng)然不是花錢買哈)。解決方案就是抓取新浪的IP數(shù)據(jù)。

新浪的IP數(shù)據(jù)接口為:
 
http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85

返回的數(shù)據(jù)為:
 

復(fù)制代碼 代碼如下:

{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"\u4e2d\u56fd","province":"\u5317\u4eac","city":"\u5317\u4eac","district":"","isp":"\u8054\u901a","type":"","desc":""}

其返回的內(nèi)容中已經(jīng)包含了省份+城市+行政區(qū)信息了,這就是我們真實想要的。

下面就來說說如何來抓取這部分IP數(shù)據(jù),要抓取這部分?jǐn)?shù)據(jù)的主要工作就是枚舉,即將接口中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下范圍,只窮舉所有中國的IP段??紤]到新浪的IP接口返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最后一位及256個IP基本上都是在一個地區(qū),所以我們要窮舉的數(shù)據(jù)有少了很多。對于窮舉最重要的是把IP地址換成INT型。

具體國內(nèi)有多少IP地址段,可以到APNIC官方網(wǎng)站去查找或下面的文檔

http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst

下面就來看看窮舉程序如何寫:

 

import re

 
def ipv3_to_int(s):
  l = [int(i) for i in s.split('.')]
  return (l[0] << 16) | (l[1] << 8) | l[2]

 
def int_to_ipv3(s):
  ip1 = s >> 16 & 0xFF
  ip2 = s >> 8 & 0xFF
  ip3 = s & 0xFF
  return "%d.%d.%d" % (ip1, ip2, ip3)

 
i = open('ChinaIPAddress.csv', 'r')
list = i.readlines()
for iplist in list:
  pattern = re.compile('(\d{1,3}\.\d{1,3}\.\d{1,3})\.\d{1,3}')
  ips = pattern.findall(iplist)
  x = ips[0]
  y = ips[1]
  for ip in range (ipv3_to_int(x),ipv3_to_int(y)):
    ipadress=str(ip)
    #ip_address = int_to_ipv3(ip)
    o = open('ChinaIPAddress.txt','a')
    o.writelines(ipadress)
    o.writelines('\n')
  o.close()
i.close()

當(dāng)上面的不走完成后就可以對新浪IP接口進(jìn)行抓取了,抓取代碼如下:
 

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib,urllib2, simplejson, sqlite3, time

 
def ipv3_to_int(s):
  l = [int(i) for i in s.split('.')]
  return (l[0] << 16) | (l[1] << 8) | l[2]

 
def int_to_ipv4(s):
  ip1 = s >> 16 & 0xFF
  ip2 = s >> 8 & 0xFF
  ip3 = s & 0xFF
  return "%d.%d.%d.0" % (ip1, ip2, ip3)

 
def fetch(ipv4, **kwargs):
  kwargs.update({
    'ip': ipv4,
    'format': 'json',
  })
  DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php"
  url = DATA_BASE + '?' + urllib.urlencode(kwargs)
  print url
  fails = 0
  try:
    result = simplejson.load(urllib2.urlopen(url,timeout=20))
  except (urllib2.URLError,IOError):
    fails += 1
    if fails < 10:
      result = fetch(ipv4)
    else:
      sleep_download_time = 60*10
      time.sleep(sleep_download_time)
      result = fetch(ipv4)
  return result

 
def dbcreate():
  c = conn.cursor()
  c.execute('''create table ipdata(
    ip integer primary key,
    ret integer,
    start text,
    end text,
    country text,
    province text,
    city text,
    district text,
    isp text,
    type text,
    desc text
  )''')
  conn.commit()
  c.close()

 
def dbinsert(ip,address):
  c = conn.cursor()
  c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc']))
  conn.commit()
  c.close()

 
conn = sqlite3.connect('ipaddress.sqlite3.db')
dbcreate()

 
i = open('ChinaIPAddress.txt','r')
list = [s.strip() for s in i.readlines()]
end = 0
for ip in list:
  ip = int(ip)
  if ip > end :
    ipaddress = int_to_ipv4(ip)
    info = fetch(ipaddress)
    if info['ret'] == -1:
      pass
    else:
      dbinsert(ip,info)
      end = ipv3_to_int(info['end'])
      print ip,end
  else :
    pass
i.close()

到此就能把新浪所有的國內(nèi)IP數(shù)據(jù)給抓取出來,然后在數(shù)據(jù)分析的工程中大派用場。~

相關(guān)文章

  • python 實現(xiàn)批量圖片識別并翻譯

    python 實現(xiàn)批量圖片識別并翻譯

    這篇文章主要介紹了python 實現(xiàn)批量圖片識別并翻譯,幫助大家利用python處理圖片,感興趣的朋友可以了解下
    2020-11-11
  • python 隨機(jī)密碼生成器的實現(xiàn)示例

    python 隨機(jī)密碼生成器的實現(xiàn)示例

    隨機(jī)密碼生成器是一種非常有用的工具,它可以幫助我們生成隨機(jī)的、復(fù)雜的密碼,提高我們的賬戶安全性,本文就來介紹一下python 隨機(jī)密碼生成器的實現(xiàn)示例,感興趣的可以了解一下
    2023-11-11
  • Python基礎(chǔ)之變量的相關(guān)知識總結(jié)

    Python基礎(chǔ)之變量的相關(guān)知識總結(jié)

    今天給大家?guī)淼氖顷P(guān)于Python的相關(guān)知識,文章圍繞著Python變量展開,文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下
    2021-06-06
  • pandas中DataFrame檢測重復(fù)值的實現(xiàn)

    pandas中DataFrame檢測重復(fù)值的實現(xiàn)

    本文主要介紹了pandas DataFrame檢測重復(fù)值,主要包括了檢查整行整列的檢測,以及多列是否重復(fù),需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-05-05
  • Python Matplotlib繪制箱線圖的全過程

    Python Matplotlib繪制箱線圖的全過程

    又稱箱形圖(boxplot)或盒式圖,數(shù)據(jù)大小、占比、趨勢等等的呈現(xiàn)其包含一些統(tǒng)計學(xué)的均值、分位數(shù)、極值等等統(tǒng)計量,因此該圖信息量較大,下面這篇文章主要給大家介紹了關(guān)于Python Matplotlib繪制箱線圖的相關(guān)資料,需要的朋友可以參考下
    2021-09-09
  • 基于Python編寫一個圖片識別系統(tǒng)

    基于Python編寫一個圖片識別系統(tǒng)

    本項目將使用python3去識別圖片是否為色情圖片,會使用到PIL這個圖像處理庫,并且編寫算法來劃分圖像的皮膚區(qū)域,感興趣的可以了解一下
    2022-06-06
  • 利用python獲取當(dāng)前日期前后N天或N月日期的方法示例

    利用python獲取當(dāng)前日期前后N天或N月日期的方法示例

    最近在工作中遇到一個需求,查找資料發(fā)現(xiàn)了一個很好的時間組件,所以下面這篇文章主要給大家介紹了關(guān)于利用python獲取當(dāng)前日期前后N天或N月日期的方法示例,需要的朋友們可以參考借鑒,下面來一起看看吧。
    2017-07-07
  • Python里隱藏的“禪”

    Python里隱藏的“禪”

    這篇文章主要介紹了IT柏拉圖翻譯的python的lib目錄下this.py文件中的一首詩,蘊(yùn)含了Python程序設(shè)計中很多哲理性的規(guī)律,需要的朋友可以參考下
    2014-06-06
  • python線程池threadpool使用篇

    python線程池threadpool使用篇

    這篇文章主要為大家詳細(xì)介紹了python線程池threadpool的使用方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-04-04
  • Python 和 JS 有哪些相同之處

    Python 和 JS 有哪些相同之處

    Python 是一門運(yùn)用很廣泛的語言,自動化腳本、爬蟲,甚至在深度學(xué)習(xí)領(lǐng)域也都有 Python 的身影。下面通過本文給大家介紹Python 和 JS 有哪些相同之處,需要的朋友參考下吧
    2017-11-11

最新評論