欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實現(xiàn)從url中提取域名的幾種方法

 更新時間:2014年09月26日 12:12:45   投稿:junjie  
這篇文章主要介紹了Python實現(xiàn)從url中提取域名的幾種方法,本文給出了3種方法實現(xiàn)在URL中提取域名的需求,需要的朋友可以參考下

從url中找到域名,首先想到的是用正則,然后尋找相應(yīng)的類庫。用正則解析有很多不完備的地方,url中有域名,域名后綴一直在不斷增加等。通過google查到幾種方法,一種是用Python中自帶的模塊和正則相結(jié)合來解析域名,另一種是使第三方用寫好的解析模塊直接解析出域名。

要解析的url

復(fù)制代碼 代碼如下:

urls = ["http://meiwen.me/src/index.html",
          "http://1000chi.com/game/index.html",
          "http://see.xidian.edu.cn/cpp/html/1429.html",
          "https://docs.python.org/2/howto/regex.html",
          """https://www.google.com.hk/search?client=aff-cs-360chromium&hs=TSj&q=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs_l=serp.3...74418.86867.0.87673.28.25.2.0.0.0.541.2454.2-6j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg""",
          "file:///D:/code/echarts-2.0.3/doc/example/tooltip.html",
          "http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe",
          "https://pypi.python.org/pypi/publicsuffix/",
          "http://127.0.0.1:8000"
          ]

使用urlparse+正則的方式

復(fù)制代碼 代碼如下:

import re
from urlparse import urlparse

topHostPostfix = (
    '.com','.la','.io','.co','.info','.net','.org','.me','.mobi',
    '.us','.biz','.xxx','.ca','.co.jp','.com.cn','.net.cn',
    '.org.cn','.mx','.tv','.ws','.ag','.com.ag','.net.ag',
    '.org.ag','.am','.asia','.at','.be','.com.br','.net.br',
    '.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',
    '.nom.co','.de','.es','.com.es','.nom.es','.org.es',
    '.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',
    '.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',
    '.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',
    '.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',
    '.hk','.co.uk','.me.uk','.org.uk','.vg', ".com.hk")

regx = r'[^\.]+('+'|'.join([h.replace('.',r'\.') for h in topHostPostfix])+')$'
pattern = re.compile(regx,re.IGNORECASE)

print "--"*40
for url in urls:
    parts = urlparse(url)
    host = parts.netloc
    m = pattern.search(host)
    res =  m.group() if m else host
    print "unkonw" if not res else res

運行結(jié)果如下:

復(fù)制代碼 代碼如下:

meiwen.me
1000chi.com
see.xidian.edu.cn
python.org
google.com.hk
unkonw
mongodb.org
python.org
127.0.0.1:8000

基本可以接受

urllib來解析域名

復(fù)制代碼 代碼如下:

import urllib

print "--"*40
for url in urls:
    proto, rest = urllib.splittype(url)
    res, rest = urllib.splithost(rest)
    print "unkonw" if not res else res

運行結(jié)果如下:

復(fù)制代碼 代碼如下:

meiwen.me
1000chi.com
see.xidian.edu.cn
docs.python.org
www.google.com.hk
unkonw
api.mongodb.org
pypi.python.org
127.0.0.1:8000

會把www.也帶上,還需要進(jìn)一步解析才可以

使用第三方模塊 tld

復(fù)制代碼 代碼如下:

from tld import get_tld

print "--"*40
for url in urls:
    try:
        print  get_tld(url)
    except Exception as e:
        print "unkonw"

運行結(jié)果:

復(fù)制代碼 代碼如下:

meiwen.me
1000chi.com
xidian.edu.cn
python.org
google.com.hk
unkonw
mongodb.org
python.org
unkonw

結(jié)果都可以接受

其他可以使用的解析模塊:

tld
tldextract
publicsuffix

相關(guān)文章

  • Python?的矩陣傳播機(jī)制Broadcasting和矩陣運算

    Python?的矩陣傳播機(jī)制Broadcasting和矩陣運算

    這篇文章主要介紹了Python?的矩陣傳播機(jī)制Broadcasting和矩陣運算,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-06-06
  • 使用python如何提取JSON數(shù)據(jù)指定內(nèi)容

    使用python如何提取JSON數(shù)據(jù)指定內(nèi)容

    這篇文章主要介紹了使用python如何提取JSON數(shù)據(jù)指定內(nèi)容,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-07-07
  • Python基礎(chǔ)學(xué)習(xí)之奇異的GUI對話框

    Python基礎(chǔ)學(xué)習(xí)之奇異的GUI對話框

    今天跨進(jìn)了GUI編程的園地,才發(fā)現(xiàn)python語言是這么的好玩,文中對GUI對話框作了非常詳細(xì)的介紹,對正在學(xué)習(xí)python的小伙伴們有很好的幫助,需要的朋友可以參考下
    2021-05-05
  • python和anaconda區(qū)別以及先后安裝的問題詳解

    python和anaconda區(qū)別以及先后安裝的問題詳解

    Anaconda(開源的Python包管理器)是一個python發(fā)行版,包含了conda、Python等180多個科學(xué)包及其依賴項,下面這篇文章主要給大家介紹了關(guān)于python和anaconda區(qū)別以及先后安裝問題的相關(guān)資料,需要的朋友可以參考下
    2022-05-05
  • 使用Python的Treq on Twisted來進(jìn)行HTTP壓力測試

    使用Python的Treq on Twisted來進(jìn)行HTTP壓力測試

    這篇文章主要介紹了使用Python的Treq on Twisted來進(jìn)行HTTP壓力測試,基于Python中的Twisted框架,需要的朋友可以參考下
    2015-04-04
  • 使用python?AI快速比對兩張人臉圖像及遇到的坑

    使用python?AI快速比對兩張人臉圖像及遇到的坑

    這篇文章主要介紹了如何使用python?AI快速比對兩張人臉圖像?實現(xiàn)過程比較簡單,但是第三方python依賴的安裝過程較為曲折,下面是通過實踐對比總結(jié)出來的能夠支持的幾個版本,避免大家踩坑,需要的朋友可以參考下
    2023-02-02
  • python機(jī)器學(xué)習(xí)基礎(chǔ)K近鄰算法詳解KNN

    python機(jī)器學(xué)習(xí)基礎(chǔ)K近鄰算法詳解KNN

    這篇文章主要為大家介紹了python機(jī)器學(xué)習(xí)基礎(chǔ)K近鄰算法詳解有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2021-11-11
  • Python中的Matplotlib模塊入門教程

    Python中的Matplotlib模塊入門教程

    這篇文章主要介紹了Python中的Matplotlib模塊入門教程,本文來自于IBM官方網(wǎng)站技術(shù)文檔,需要的朋友可以參考下
    2015-04-04
  • python基礎(chǔ)知識之索引與切片詳解

    python基礎(chǔ)知識之索引與切片詳解

    在python的學(xué)習(xí)過程,有些同學(xué)對索引和切換會感到困惑,今天我們就來弄清楚它,下面這篇文章主要給大家介紹了關(guān)于python基礎(chǔ)知識之索引與切片的相關(guān)資料,需要的朋友可以參考下
    2022-05-05
  • 利用python寫個下載teahour音頻的小腳本

    利用python寫個下載teahour音頻的小腳本

    這篇文章主要跟大家分享了一個利用python寫的下載teahour音頻的小腳本,文中給出了詳細(xì)的示例代碼供大家參考學(xué)習(xí),對大家具有一定的參考價值,需要的朋友們下面來一起看看吧。
    2017-05-05

最新評論