Python Request爬取seo.chinaz.com百度權(quán)重網(wǎng)站的查詢結(jié)果過程解析
一:腳本需求
利用Python3查詢網(wǎng)站權(quán)重并自動存儲在本地數(shù)據(jù)庫(Mysql數(shù)據(jù)庫)中,同時導(dǎo)出一份網(wǎng)站權(quán)重查詢結(jié)果的EXCEL表格
數(shù)據(jù)庫類型:MySql
數(shù)據(jù)庫表單名稱:website_weight
表單內(nèi)容及表頭設(shè)置:表頭包含有id、main_url(即要查詢的網(wǎng)站)、website_weight(網(wǎng)站權(quán)重)
要查詢的網(wǎng)站:EXCEL表格
二:需求實現(xiàn)
一:利用openpyxl模塊解析excel文件,將查詢的網(wǎng)站讀取到一個列表中保存
# 解析excel文件,取出所有的url def get_urls(file_path): wb = load_workbook(file_path) sheet = wb.active urls = [] for cell in list(sheet.columns)[1]: if cell != sheet['B1']: urls.append(cell.value) return wb, urls
二:分析請求發(fā)送,偽造請求,取得HTML頁面
# 偽造請求,取得html頁面 def get_html(url): # 定義http的請求Header headers = {} # random.randint(1,99) 為了生成1到99之間的隨機數(shù),讓UserAgent變的不同。 headers[ 'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str( random.randint(1, 99)) # Referer地址使用待查詢的網(wǎng)址 headers['Referer'] = "http://seo.chinaz.com/" + url + "/" html = '' try: html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text except Exception: pass return html
三:分析HTML頁面,利用BeautifulSoup模塊提取數(shù)據(jù)
# 利用BeautifulSoup模塊從html頁面中提取數(shù)據(jù) def get_data(html, url): if not html: return url, 0 soup = bs(html, "lxml") p_tag = soup.select("p.ReLImgCenter")[0] src = p_tag.img.attrs["src"] regexp = re.compile(r'^http:.*?(\d).gif') br = regexp.findall(src)[0] return url, br
四:數(shù)據(jù)庫連接配置,并獲取游標(biāo)
# 連接數(shù)據(jù)庫 def get_connect(): conn = pymysql.connect( host='127.0.0.1', port=3306, user='root', passwd='root', db='seotest', charset="utf8") # 獲取游標(biāo)對象 cursor = conn.cursor() return conn, cursor
五:主程序邏輯編寫
if __name__ == "__main__": #命令行執(zhí)行腳本文件,獲取excel文件路徑 file_path = sys.argv[1] #獲取URL列表和excle工作簿 wb, urls = get_urls(file_path) #獲取數(shù)據(jù)庫連接和游標(biāo) conn, cursor = get_connect() #獲取工作簿當(dāng)前工作sheet sheet = wb.active #數(shù)據(jù)庫插入語句 sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)''' for row, url in enumerate(urls): if not url: continue html = get_html(url) data = get_data(html, url) # 插入數(shù)據(jù)到數(shù)據(jù)庫 cursor.execute(sql_insert, data) # 插入數(shù)據(jù)到Excel表中 cell = sheet.cell(row=row + 2, column=3) cell.value = data[1] # 終端打印插入的數(shù)據(jù) print(data) conn.commit() conn.close() wb.save(file_path) wb.close() # cmd命令:python3 F:\算法與結(jié)構(gòu)\網(wǎng)站權(quán)重.py F:\website.xlsx
三:腳本運行及其實現(xiàn)結(jié)果
CMD執(zhí)行
數(shù)據(jù)庫:
excel文件寫入:
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí)之實現(xiàn)線性表的順序
這篇文章主要為大家詳細介紹了python數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí)之實現(xiàn)線性表的順序,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-09-09詳解Pytorch 使用Pytorch擬合多項式(多項式回歸)
這篇文章主要介紹了詳解Pytorch 使用Pytorch擬合多項式(多項式回歸),小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-05-05Python使用matplotlib繪圖無法顯示中文問題的解決方法
這篇文章主要介紹了Python使用matplotlib繪圖無法顯示中文問題的解決方法,結(jié)合具體實例形式分析了Python使用matplotlib繪圖時出現(xiàn)中文亂碼的原因與相關(guān)解決方法,需要的朋友可以參考下2018-03-03用Python實現(xiàn)網(wǎng)易云音樂的數(shù)據(jù)進行數(shù)據(jù)清洗和可視化分析
這篇文章主要為大家詳細介紹了Python實現(xiàn)Kmeans聚類算法,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-08-08Python機器學(xué)習(xí)利用鳶尾花數(shù)據(jù)繪制ROC和AUC曲線
這篇文章主要為大家介紹了Python機器學(xué)習(xí)利用鳶尾花數(shù)據(jù)繪制ROC和AUC曲線實現(xiàn)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-02-02在python下實現(xiàn)word2vec詞向量訓(xùn)練與加載實例
這篇文章主要介紹了在python下實現(xiàn)word2vec詞向量訓(xùn)練與加載實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06利用Python實現(xiàn)自動生成圖文并茂的數(shù)據(jù)分析
這篇文章主要介紹了利用Python實現(xiàn)自動生成圖文并茂的數(shù)據(jù)分析,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的朋友可以參考一下2022-08-08使用Python的SymPy庫解決數(shù)學(xué)運算問題的方法
這篇文章主要介紹了使用Python的SymPy庫解決數(shù)學(xué)運算問題的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-03-03