欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

單身狗福利?Python爬取某婚戀網(wǎng)征婚數(shù)據(jù)

 更新時間:2021年06月03日 17:02:38   作者:武亮宇  
今天我就當回媒婆,給男性程序員來點福利.今天目標爬取征婚網(wǎng)上呈現(xiàn)出來的女生信息保存成excel表格供大家篩選心儀的女生,需要的朋友可以參考下

目標網(wǎng)址https://www.csflhjw.com/zhenghun/34.html?page=1

一、打開界面

在這里插入圖片描述

鼠標右鍵打開檢查,方框里為你一個文小姐的征婚信息。。由此判斷出為同步加載

在這里插入圖片描述

點擊elements,定位圖片地址,方框里為該女士的url地址及圖片地址

在這里插入圖片描述

可以看出該女士的url地址不全,之后在代碼中要進行url的拼接,看一下翻頁的url地址有什么變化

點擊第2頁
https://www.csflhjw.com/zhenghun/34.html?page=2

點擊第3頁
https://www.csflhjw.com/zhenghun/34.html?page=3

可以看出變化在最后
做一下fou循環(huán)格式化輸出一下。。一共10頁

在這里插入圖片描述

二、代碼解析

1.獲取所有的女士的url,xpath的路徑就不詳細說了。。

在這里插入圖片描述

2.構(gòu)造每一位女士的url地址

在這里插入圖片描述

3.然后點開一位女士的url地址,用同樣的方法,確定也為同步加載

在這里插入圖片描述

4.之后就是女士url地址html的xpath提取,每個都打印一下,把不要的過濾一下

在這里插入圖片描述
在這里插入圖片描述

5.最后就是文件的保存

在這里插入圖片描述

打印結(jié)果:

在這里插入圖片描述
在這里插入圖片描述

三、完整代碼

# !/usr/bin/nev python
# -*-coding:utf8-*-

import requests, os, csv
from pprint import pprint
from lxml import etree

def main():
    for i in range(1, 11):
        start_url = 'https://www.csflhjw.com/zhenghun/34.html?page={}'.format(i)

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/87.0.4280.88 Safari/537.36'

        }
        response = requests.get(start_url, headers=headers).content.decode()
        # # pprint(response)
        # 3 解析數(shù)據(jù)
        html_str = etree.HTML(response)
        info_urls = html_str.xpath(r'//div[@class="e"]/div[@class="e-img"]/a/@href')
        # pprint(info_urls)

        # 4、循環(huán)遍歷 構(gòu)造img_info_url
        for info_url in info_urls:
            info_url = r'https://www.csflhjw.com' + info_url
            # print(info_url)
            # 5、對info_url發(fā)請求,解析得到img_urls
            response = requests.get(info_url, headers=headers).content.decode()
            html_str = etree.HTML(response)
            # pprint(html_str)
            img_url = 'https://www.csflhjw.com/' + html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[1]/div['
                                                                r'1]/img/@src')[0]
            # pprint(img_url)
            name = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/h2/text()')[0]
            # pprint(name)
            xueli = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[1]/text()')[0].split(':')[1]
            # pprint(xueli)
            job = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[2]/text()')[0].split(':')[1]
            # pprint(job)
            marital_status = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[3]/text()')[0].split(
                ':')[1]
            # pprint(marital_status)
            is_child = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[4]/text()')[0].split(':')[1]
            # pprint(is_child)
            home = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[5]/text()')[0].split(':')[1]
            # pprint(home)
            workplace = html_str.xpath(r'//div[@class="team-info"]/div[@class="team-e"]/p[6]/text()')[0].split(':')[1]
            # pprint(workplace)
            requ = html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[2]/div[2]/p[2]/span/text()')[0].split(':')[1]
            # pprint(requ)
            requ = [requ if requ != str() else '無要求'][0]
            monologue = html_str.xpath(r'//div[@class="hunyin-1-3"]/p/text()')
            # pprint(monologue)
            monologue = [monologue[0].replace(' ', '').replace('\xa0', '') if monologue !=list() else '無'][0]
            # pprint(monologue)
            zeo_age = html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[2]/div[2]/p[1]/span[1]/text()')[0].split(':')[1]
            zeo_age = [zeo_age if zeo_age!=str() else '無要求'][0]
            # pprint(zeo_age)
            zeo_address = html_str.xpath(r'/html/body/div[4]/div/div[1]/div[2]/div[2]/div[2]/p[1]/span[2]/text()')[0].split(':')[1]
            zeo_address = [zeo_address if zeo_address!=str() else '無要求'][0]
            # pprint(zeo_address)

            if not os.path.exists(r'./{}'.format('妹子信息數(shù)據(jù)')):
                os.mkdir(r'./{}'.format('妹子信息數(shù)據(jù)'))
                csv_header = ['姓名', '學歷', '職業(yè)', '婚姻狀況', '有無子女', '是否購房', '工作地點', '擇偶年齡', '擇偶城市', '擇偶要求', '個人獨白', '照片鏈接']
                with open(r'./{}/{}.csv'.format('妹子信息數(shù)據(jù)', '妹子數(shù)據(jù)'), 'w', newline='', encoding='gbk') as file_csv:
                    csv_writer_header = csv.DictWriter(file_csv, csv_header)
                    csv_writer_header.writeheader()

            try:
                with open(r'./{}/{}.csv'.format('妹子信息數(shù)據(jù)', '妹子數(shù)據(jù)'), 'a+', newline='',
                          encoding='gbk') as file_csv:
                    csv_writer = csv.writer(file_csv, delimiter=',')
                    csv_writer.writerow([name, xueli, job, marital_status, is_child, home, workplace, zeo_age,
                                         zeo_address, requ, monologue, img_url])
                    print(r'***妹子信息數(shù)據(jù):{}'.format(name))
            except Exception as e:
                with open(r'./{}/{}.csv'.format('妹子信息數(shù)據(jù)', '妹子數(shù)據(jù)'), 'a+', newline='',
                          encoding='utf-8') as file_csv:
                    csv_writer = csv.writer(file_csv, delimiter=',')
                    csv_writer.writerow([name, xueli, job, marital_status, is_child, home, workplace, zeo_age,
                                         zeo_address, requ, monologue, img_url])
                    print(r'***妹子信息數(shù)據(jù)保存成功:{}'.format(name))



if __name__ == '__main__':
    main()

到此這篇關(guān)于單身狗福利?Python爬取某婚戀網(wǎng)征婚數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python爬取征婚數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python進行參數(shù)傳遞的方法

    python進行參數(shù)傳遞的方法

    在本篇文章里小編給大家分享的是關(guān)于python進行參數(shù)傳遞的方法以及代碼,需要的朋友們可以學習下。
    2020-05-05
  • Python 寫入訓練日志文件并控制臺輸出解析

    Python 寫入訓練日志文件并控制臺輸出解析

    這篇文章主要介紹了Python 寫入訓練日志文件并控制臺輸出解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • python利用tkinter實現(xiàn)屏保

    python利用tkinter實現(xiàn)屏保

    這篇文章主要為大家詳細介紹了python利用tkinter實現(xiàn)屏保,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-07-07
  • Python序列操作之進階篇

    Python序列操作之進階篇

    序列sequence是python中最基本的數(shù)據(jù)結(jié)構(gòu),本文是Python序列操作的進階篇,本文先對序列做一個簡單的概括,之后將詳細講解下關(guān)于序列的操作方法。文中通過示例代碼介紹的很詳細,有需要的朋友們可以參考借鑒,下面來一起看看吧。
    2016-12-12
  • Python安裝圖文教程 Pycharm安裝教程

    Python安裝圖文教程 Pycharm安裝教程

    這篇文章主要為大家詳細介紹了Pycharm及Python安裝圖文教程,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • 三分鐘內(nèi)解決cfgrib的安裝問題

    三分鐘內(nèi)解決cfgrib的安裝問題

    這篇文章主要介紹了三分鐘內(nèi)解決cfgrib的安裝問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • Python三維網(wǎng)格體素化實例

    Python三維網(wǎng)格體素化實例

    這篇文章主要介紹了Python三維網(wǎng)格體素化實例,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-06-06
  • 使用python實現(xiàn)離散時間傅里葉變換的方法

    使用python實現(xiàn)離散時間傅里葉變換的方法

    這篇文章主要介紹了使用python實現(xiàn)離散時間傅里葉變換的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-09-09
  • Python實現(xiàn)Mysql數(shù)據(jù)庫連接池實例詳解

    Python實現(xiàn)Mysql數(shù)據(jù)庫連接池實例詳解

    這篇文章主要介紹了Python實現(xiàn)Mysql數(shù)據(jù)庫連接池實例詳解的相關(guān)資料,需要的朋友可以參考下
    2017-04-04
  • OpenCV 圖像梯度的實現(xiàn)方法

    OpenCV 圖像梯度的實現(xiàn)方法

    梯度簡單來說就是求導。本文主要介紹了OpenCV 圖像梯度的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-07-07

最新評論