欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲今日熱榜數(shù)據(jù)到txt文件的源碼

 更新時間:2021年02月23日 10:27:08   作者:一個超會寫B(tài)ug的安太狼  
這篇文章主要介紹了python爬蟲今日熱榜數(shù)據(jù)到txt文件的源碼,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下

今日熱榜:https://tophub.today/

在這里插入圖片描述

爬取數(shù)據(jù)及保存格式:

在這里插入圖片描述

爬取后保存為.txt文件:

在這里插入圖片描述

部分內容:

在這里插入圖片描述
在這里插入圖片描述

源碼及注釋:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  標題:{} \n  熱度:{}\n  鏈接:{}\n  ------------\n"""
  output2 = """平臺:{}  榜單類型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 獲取平臺名字
    time = i.find('div', class_='i-h').get_text() # 獲取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 獲取所有鏈接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 獲取類型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   綜合  科技  娛樂  社區(qū)    購物   財經(jīng)
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此這篇關于python爬蟲今日熱榜數(shù)據(jù)到txt文件的源碼的文章就介紹到這了,更多相關python爬蟲今日熱榜數(shù)據(jù)內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python實現(xiàn)桌面壁紙切換功能

    python實現(xiàn)桌面壁紙切換功能

    這篇文章主要為大家詳細介紹了python requests+pywin32實現(xiàn)桌面壁紙切換,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-01-01
  • Python從視頻中提取音頻的操作

    Python從視頻中提取音頻的操作

    這篇文章主要介紹了Python從視頻中提取音頻的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • pytorch中fuse_modules源碼解讀

    pytorch中fuse_modules源碼解讀

    這篇文章主要介紹了pytorch中fuse_modules,fuse_known_modules將給定的模塊列表mod_list中的一些常見模塊進行融合,返回融合后的模塊列表,本文通過實例代碼詳細講解,需要的朋友可以參考下
    2023-05-05
  • 面向新手解析python Beautiful Soup基本用法

    面向新手解析python Beautiful Soup基本用法

    這篇文章主要介紹了面向新手解析python Beautiful Soup基本用法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-07-07
  • Python實現(xiàn)剪刀石頭布小游戲(與電腦對戰(zhàn))

    Python實現(xiàn)剪刀石頭布小游戲(與電腦對戰(zhàn))

    這篇文章給大家分享Python基礎實現(xiàn)與電腦對戰(zhàn)的剪刀石頭布小游戲,練習if while輸入和輸出,代碼簡單易懂,非常不錯,具有一定的參考借鑒價值,需要的朋友參考下吧
    2019-12-12
  • python抓取網(wǎng)站的圖片并下載到本地的方法

    python抓取網(wǎng)站的圖片并下載到本地的方法

    今天小編就為大家分享一篇python抓取網(wǎng)站的圖片并下載到本地的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-05-05
  • 解決jupyter (python3) 讀取文件遇到的問題

    解決jupyter (python3) 讀取文件遇到的問題

    這篇文章主要介紹了解決jupyter (python3) 讀取文件遇到的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • Python?Pyecharts繪制象形柱圖

    Python?Pyecharts繪制象形柱圖

    echarts是百度開源的一個數(shù)據(jù)可視化JS庫,主要用于數(shù)據(jù)可視化。pyecharts是一個用于生成Echarts圖表的類庫。實際上就是Echarts與Python的對接。本文將利用pyecharts庫繪制象形柱狀圖,感興趣的可以了解一下
    2022-01-01
  • Spectral?clustering譜聚類算法的實現(xiàn)代碼

    Spectral?clustering譜聚類算法的實現(xiàn)代碼

    譜聚類是從圖論中演化出來的算法,它的主要思想是把所有的數(shù)據(jù)看做空間中的點,這些點之間可以用邊連接起來,今天通過本文給大家介紹Spectral?clustering譜聚類算法的實現(xiàn),感興趣的朋友一起看看吧
    2022-04-04
  • Python排序算法快速排序VS歸并排序深入對比分析

    Python排序算法快速排序VS歸并排序深入對比分析

    快速排序和歸并排序是兩種常見的排序算法,在Python中有著重要的應用,本文將深入探討這兩種算法的原理和實現(xiàn),并提供豐富的示例代碼來說明它們的工作方式
    2024-01-01

最新評論