scrapy框架中用ssh連接遠(yuǎn)程服務(wù)器的實(shí)現(xiàn)
前段時間用scrapy嘗試抓取一些數(shù)據(jù),寫的時候真的很酸爽,眼睛要花掉了 但是!我沒有存到數(shù)據(jù)庫中,也就是說我只是確認(rèn)了爬蟲的代碼沒問題(草)
為什么我要用服務(wù)器的mysql,本地的不好嗎? 其實(shí)是我沒有在本地裝MySQL,但是我有服務(wù)器,再加上有phpmyadmin這么友好的web-base數(shù)據(jù)庫管理工具,干嘛還折騰本地裝軟件
挖坑
其實(shí)剛開始寫的時候,我是把數(shù)據(jù)庫這模塊的代碼拋開的,鏈接數(shù)據(jù)庫?不是很簡單的事情嗎,有啥好寫的,首先打開搜索引擎,輸入“ 如何用python連接遠(yuǎn)程mysql ”不就好了嘛!
然后我發(fā)現(xiàn)我看不懂,肯定是我打開的方式不對
填坑
后來經(jīng)過了一路子的折騰,終于寫好了,也連上了!
這里說一點(diǎn)不同的,在純python上鏈接遠(yuǎn)程MySQL的代碼,搬到scrapy上,是行不通的,雖然原理差不多,但還是得改
肯定是我搜索的姿勢不正確,我找不到相關(guān)完整的scrapy鏈接遠(yuǎn)程mysql的參考,純python的參考為居多。當(dāng)時我另寫了一個純python測試鏈接,成功之后搬到scrapy的piplines.py上,Error警告啊
好了好了,不說廢話了,回歸正題
開搞
這里用到兩個庫,pymysql和sshtunnel
sshtunnel
它是讓你通過ssh安全通道訪問遠(yuǎn)程服務(wù)器的python庫
pymysql
pymysql是在python3.5以上版本,用于鏈接MySQL的一個庫,如果你是python3.4就裝mysqldb這個庫,(因?yàn)橛泻芏鄥⒖忌嫌玫氖莔ysqldb庫)所以根據(jù)你的版本,不要裝錯了,不然就吃紅條(錯誤)吧
代碼
放置在piplines.py中
import pymysql import sshtunnel class SpiderPipeline(object): ? ? server = sshtunnel.SSHTunnelForwarder( ? ? ? ? ? ? ('**.***.**.**', 22), ?#寫你服務(wù)器的ip地址 ? ? ? ? ? ? ssh_username='**', ? ? #連接服務(wù)器的用戶名 ? ? ? ? ? ? ssh_password='**', ? ? #連接服務(wù)器的密碼 ? ? ? ? ? ? remote_bind_address=('**.***.**.**', 3306), #服務(wù)器ip ? ? ? ? ? ? local_bind_address=('127.0.0.1', 3306) ? ? ? ? ) ? ? server.start() ? #連接開啟 ? ? print('SSH連接成功') ? ? def __init__(self): ? ? ? ? ? ? self.connect = pymysql.connect( ? ? ? ? ? ? ? ? host='127.0.0.1', ? ? ? ? ? ? ? ? port=3306, ? ? ? ? ? ? ? ? user='***', ? ? ?# 數(shù)據(jù)庫的用戶名 ? ? ? ? ? ? ? ? database='***', ?# 數(shù)據(jù)庫的庫名 ? ? ? ? ? ? ? ? password='***', ?# 數(shù)據(jù)庫密碼 ? ? ? ? ? ? ? ? charset='utf8' ? ? ? ? ? ? ) ? ? ? ? ? ? print('mysql數(shù)據(jù)庫連接成功') ? ? ? ? ? ? self.cursor = self.connect.cursor() ? ? ? ? ? ? print('游標(biāo)獲取成功') ? ? def process_item(self, item, spider): ? ? ? ? #我這里寫的是插入數(shù)據(jù)的sql語句 ? ? ? ? sql = """INSERT INTO charpter(CharterName,NovelName) VALUES ('%s','%s')""" % (item['charter_name'],item['book_name']) ? ? ? ? #執(zhí)行sql ? ? ? ? self.cursor.execute(sql) ? ? ? ? #提交數(shù)據(jù) ? ? ? ? self.connect.commit() ? ? ? ? print('數(shù)據(jù)插入成功') ? ? ? ? return item ? ? def close_spider(self,spider): ? ? ? ? self.cursor.close() ? ?#關(guān)閉游標(biāo) ? ? ? ? self.connect.close() ? #關(guān)閉數(shù)據(jù)庫鏈接 ? ? ? ? # server.stop() ? ? ? ?#關(guān)閉ssh鏈接
這里就不多說廢話了,看代碼里面的注釋基本能看懂了
我這種方式是同步存儲,存儲的速度相對慢一點(diǎn),異步存儲方式我還沒去研究,這里給自己挖個坑,研究完異步存儲我就另寫一篇文哈哈哈
Mysql相關(guān)問題
如果發(fā)現(xiàn)代碼無誤的情況下,還是無法鏈接成功,這個時候就要看看你服務(wù)器的MySQL是否允許外來接入
mysql開放3306端口
要讓MySQL允許鏈接,就要開放3306端口
查看端口是否打開
netstat -an|grep 3306
打開MySQL配置文件
文件路徑:/etc/mysql/my.cnf
將里面的bin-address = 127.0.0.1 注釋掉
重啟MySQL
service mysqld restart
防火墻開放3306端口
查看firewalld狀態(tài)
systemctl status firewalld
開放3306端口
firewall-cmd --zone=public --add-port=3306/tcp --permanent
重載
firewalld-cmd --reload
小結(jié)
其實(shí)連接數(shù)據(jù)庫還是挺簡單的,至少代碼一看就懂,細(xì)心還是很重要的。當(dāng)死活連不上,死活報錯的時候,反過來想,代碼肯定沒問題,應(yīng)該是哪個數(shù)據(jù)庫的表或字段沒有和代碼上的一一對應(yīng),密碼有特殊符號但是沒轉(zhuǎn)義等等,除此之外剩下的就交給程序玄學(xué)了
到此這篇關(guān)于scrapy 框架中用ssh連接遠(yuǎn)程服務(wù)器的文章就介紹到這了,更多相關(guān)scrapy 框架中用ssh連接遠(yuǎn)程服務(wù)器內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
pandas使用apply多列生成一列數(shù)據(jù)的實(shí)例
今天小編就為大家分享一篇pandas使用apply多列生成一列數(shù)據(jù)的實(shí)例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11Windows 下python3.8環(huán)境安裝教程圖文詳解
這篇文章主要介紹了Windows 下python3.8環(huán)境安裝教程圖文詳解,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-03-03Python把excel文件數(shù)據(jù)轉(zhuǎn)化為字典格式存儲詳解
這篇文章主要介紹了Python把excel文件數(shù)據(jù)轉(zhuǎn)化為字典格式存儲詳解,在Python中有時候需要操作excel表格的數(shù)據(jù),把excel表格轉(zhuǎn)化為字典存起來,方便讀取,今天我們就來看看如何轉(zhuǎn)換,需要的朋友可以參考下2023-08-08Python光學(xué)仿真wxpython透鏡演示系統(tǒng)初始化與參數(shù)調(diào)節(jié)
這篇文章主要為大家介紹了Python光學(xué)仿真wxpython透鏡演示系統(tǒng)的初始化與參數(shù)調(diào)節(jié),同樣在學(xué)習(xí)wxpython透鏡演示系統(tǒng)的入門同學(xué)可以借鑒參考下,希望能夠有所幫助2021-10-10