使用python爬蟲實(shí)現(xiàn)子域名探測(cè)問題
前言
意義:子域名枚舉是為一個(gè)或多個(gè)域查找子域的過程,它是信息收集階段的重要組成部分。
實(shí)現(xiàn)方法:使用爬蟲與字典爆破。
一、爬蟲
1.ip138
def search_2(domain): res_list = [] headers = { 'Accept': '*/*', 'Accept-Language': 'en-US,en;q=0.8', 'Cache-Control': 'max-age=0', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36', 'Connection': 'keep-alive', 'Referer': 'http://www.baidu.com/' } results = requests.get('https://site.ip138.com/' + domain + '/domain.htm', headers=headers) soup = BeautifulSoup(results.content, 'html.parser') job_bt = soup.findAll('p') try: for i in job_bt: link = i.a.get('href') linkk = link[1:-1] res_list.append(linkk) print(linkk) except: pass print(res_list[:-1]) if __name__ == '__main__': search_2("jd.com")
返回結(jié)果:
2.bing
def search_1(site): Subdomain = [] headers = { 'Accept': '*/*', 'Accept-Language': 'en-US,en;q=0.8', 'Cache-Control': 'max-age=0', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36', 'Connection': 'keep-alive', 'Referer': 'http://www.baidu.com/' } for i in range(1, 16): url = "https://cn.bing.com/search?q=site%3A" + site + "&go=Search&qs=ds&first=" + str( (int(i) - 1) * 10) + "&FORM=PERE" # conn = requests.session() # conn.get('http://cn.bing.com', headers=headers) # html = conn.get(url, stream=True, headers=headers) html = requests.get(url, stream=True, headers=headers) soup = BeautifulSoup(html.content, 'html.parser') # print(soup) job_bt = soup.findAll('h2') for i in job_bt: link = i.a.get('href') print(link) if link in Subdomain: pass else: Subdomain.append(link) print(Subdomain) if __name__ == '__main__': search_1("jd.com")
返回結(jié)果:
二、通過字典進(jìn)行子域名爆破
def dict(url): for dict in open('dic.txt'): # 這里用到子域名字典文件dic.txt dict = dict.replace('\n', "") zym_url = dict + "." + url try: ip = socket.gethostbyname(zym_url) print(zym_url + "-->" + ip) time.sleep(0.1) except Exception as e: # print(zym_url + "-->" + ip + "--error") time.sleep(0.1) if __name__ == '__main__': dict("jd.com")
返回結(jié)果:
三、python爬蟲操作步驟
1.寫出請(qǐng)求頭headers與目標(biāo)網(wǎng)站url
headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240" } url = "https://site.ip138.com/"
2.生成請(qǐng)求
get:res = requests.get(url + domain, headers=headers) post:res = requests.post(url + domain, headers=headers, data=data)
3.抓取數(shù)據(jù)
soup = BeautifulSoup(res.content, 'html.parser') # 以html解析器解析res的內(nèi)容
此時(shí)print(soup),返回結(jié)果:
4.分析源碼,截取標(biāo)簽中內(nèi)容
1.通過分析源碼,確定需要提取p標(biāo)簽中的內(nèi)容:
job_bt = soup.findAll('p')
此時(shí)print(job_bt),返回結(jié)果:
2.繼續(xù)提取a標(biāo)簽內(nèi)屬性為href的值:
try: for i in job_bt: link = i.a.get('href') linkk = link[1:-1] res_list.append(linkk) print(linkk) except: pass
得結(jié)果:
3.再進(jìn)行截取:
res_list[:-1]
得結(jié)果:
四、爬蟲一些總結(jié)
1.抓取數(shù)據(jù),生成soup
soup = BeautifulSoup(res.content, 'html.parser') # 以html解析器解析res的內(nèi)容
2.從文檔中獲取所有文字內(nèi)容
print(soup.get_text())
3.從文檔中找到所有< a >標(biāo)簽的鏈接
for link in soup.find_all('a'): print(link.get('href'))
到此這篇關(guān)于使用python實(shí)現(xiàn)子域名探測(cè)的文章就介紹到這了,更多相關(guān)python子域名內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python7個(gè)爬蟲小案例詳解(附源碼)中篇
- Python7個(gè)爬蟲小案例詳解(附源碼)上篇
- Python爬蟲程序中使用生產(chǎn)者與消費(fèi)者模式時(shí)進(jìn)程過早退出的問題
- Python爬蟲庫(kù)urllib的使用教程詳解
- Python利用yield?form實(shí)現(xiàn)異步協(xié)程爬蟲
- python爬蟲之requests庫(kù)使用代理方式
- python?基于aiohttp的異步爬蟲實(shí)戰(zhàn)詳解
- Python爬蟲框架NewSpaper使用詳解
- 通過python爬蟲mechanize庫(kù)爬取本機(jī)ip地址的方法
- Python爬蟲學(xué)習(xí)之requests的使用教程
- python爬蟲beautiful?soup的使用方式
- Python爬蟲之超級(jí)鷹驗(yàn)證碼應(yīng)用
- Python爬蟲Requests庫(kù)的使用詳情
- python爬蟲模擬登錄之圖片驗(yàn)證碼實(shí)現(xiàn)詳解
- Python爬蟲eval實(shí)現(xiàn)看漫畫漫畫柜mhgui實(shí)戰(zhàn)分析
- python爬蟲實(shí)戰(zhàn)項(xiàng)目之爬取pixiv圖片
- python爬蟲之代理ip正確使用方法實(shí)例
- Python7個(gè)爬蟲小案例詳解(附源碼)下篇
相關(guān)文章
如何利用Python分析出微信朋友男女統(tǒng)計(jì)圖
這篇文章主要給大家介紹了關(guān)于如何利用Python分析出微信朋友男女統(tǒng)計(jì)圖的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧2019-01-01openCV中值濾波和均值濾波的代碼實(shí)現(xiàn)
在我們生活中的有很多時(shí)候都可以用到濾波,例如美顏的磨皮功能,本文就詳細(xì)的介紹了openCV中值濾波和均值濾波的代碼實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-03-03python 隊(duì)列基本定義與使用方法【初始化、賦值、判斷等】
這篇文章主要介紹了python 隊(duì)列基本定義與使用方法,結(jié)合實(shí)例形式分析了Python隊(duì)列的定義、初始化、賦值、判斷等相關(guān)操作技巧,需要的朋友可以參考下2019-10-10淺談python在提示符下使用open打開文件失敗的原因及解決方法
今天小編就為大家分享一篇淺談python在提示符下使用open打開文件失敗的原因及解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11Python面向?qū)ο髮?shí)現(xiàn)數(shù)據(jù)分析的實(shí)例詳解
這篇文章主要通過幾個(gè)實(shí)例為大家詳細(xì)介紹了Python面向?qū)ο髮?shí)現(xiàn)數(shù)據(jù)分析的方法,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定幫助,需要的可以參考一下2023-01-01分析運(yùn)行中的 Python 進(jìn)程詳細(xì)解析
這篇文章主要介紹了分析運(yùn)行中的 Python 進(jìn)程,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-06-06如何將Pycharm中調(diào)整字體大小的方式設(shè)置為"ctrl+鼠標(biāo)滾輪上下滑"
這篇文章主要介紹了如何將Pycharm中調(diào)整字體大小的方式設(shè)置為"ctrl+鼠標(biāo)滾輪上下滑",本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11