python 爬虫 scrapy+selenium+mysql,爬取微信搜狗,各个银行发布的公众号文章

需求

由于工作需要,公司要求爬取指定的微信公众号发布的文章,各大银行官网发布的营销信息。还有招标信息。进过调研后,发现使用python 的scrapy结合selenium模拟人工操作。用了一些时间完成了任务。特来记录一下。


开发环境

windows7/10

python 3.5.2

mysql 5.5

scrapy 1.6

pycharm2018

谷歌浏览器 70.0.3538.110(正式版本) (64 位)


安装

在windows上正常安装python3.5.2,我选用的是官网的64位版本,详细留意:https://www.python.org/search/?q=3.5.2&submit=

1、添加环境变量:

image

python所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35;

pip所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;

解析:添加上述的2个路径到环境变量当中。

image
image

2、pycharm安装。

使用pycharm作为编辑器,是因为,他有强大的导入功能。他的一些导入包非常方便管理自己导入的第三方的包。

image
image

*******************************注意*****************************

如果在下载安装scrapy的时候,报出Twisted 版本的错误导致pip不成功的时候可以手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl

1)保证你的pip版本是最新的

2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

参考:https://www.jianshu.com/p/a294a4b2bcde

参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

Twisted-18.7.0-cp37-cp37m-win_amd64.whl这个我是在上述链接下载的

3、要使用selenium作为模拟人工操作的自动话测试,需要先下载对应浏览器的驱动

因为我使用谷歌浏览器的,所以我下载的也是谷歌浏览器的驱动

参考:http://npm.taobao.org/mirrors/chromedriver/

参考:https://blog.csdn.net/yoyocat915/article/details/80580066


现在你可以正式工作了!(手动狗头)


爬取微信搜狗

image
image
image

因为微信公众号发布得最新文章,可以在微信搜狗页面上查到指定公众号发布的最新内容,所以我们的目标很明确,是在微信搜狗上爬取公众号发布的最新消息。

1、确定爬取链接

经过分析,带爬取的链接有如下特点:

链接构成:https://weixin.sogou.com/weixin?type=1&s_from=input&query=公众号号码

使用scrapy爬取到该链接对应的静态内容后,你会发现,链接对应的a标签会重定向到302输入验证码的页面,可能是微信搜狗的反扒技术吧。(不过有办法解决)

image
image
image

这个时候我们要用强大的selenium作为模拟人工点击的自动化测试工具。这个第三方包在python能下载到。

直接上代码


class SeleniumMiddleware(object):

def __init__(self):

self.cookies_file_path = COOKIES_FILE_PATH

def process_request(self, request, spider):

options = webdriver.ChromeOptions()

# 设置中文

        options.add_argument('lang=zh_CN.UTF-8')

#options.add_argument('--headless')

#options.add_argument('--disable-gpu')

#options.add_argument('--remote-debugging-port=9222')

        # 更换头部

        options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))

browser = webdriver.Chrome(

executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,

            chrome_options=options)

wait = WebDriverWait(browser, 15)

browser.get(request.url)

'''设置selenium浏览器的cookie'''

        with open(self.cookies_file_path, 'r')as f:

listCookie = json.loads(f.read())

time.sleep(1)

browser.delete_all_cookies();

for cookiein listCookie:

browser.add_cookie({

# 'domain': cookie['domain'],

# 'httpOnly': cookie['httpOnly'],

                'name': cookie['name'],

              # 'path': cookie['path'],

# 'secure': cookie['secure'],

                'value': cookie['value'],

              # 'expiry': None if 'expiry' not in cookie else cookie['expiry']

            })

# browser.close()

        browser.get(request.url)

time.sleep(5)

# 根据公众号查找

        gzhDetail = wait.until(EC.element_to_be_clickable(

(By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))

gzhDetail.click()

time.sleep(3)

# 更换到刚点击开的页面

        newWindowHandler = browser.window_handles[-1]

browser.switch_to.window(newWindowHandler)

#返回页面

        true_page = browser.page_source

res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)

#记录搜狗微信公众临时生成的gotoLink的地址,注意该地址是微信搜狗经常会切换的地址。

        res.meta['wxsgGzhDetailUrl']=browser.current_url

browser.quit()

return res

def process_response(self, request, response, spider):

return CodeMiddleware().process_response(request,response,spider)

若果成功模拟人工点击是不会跳到302输入验证码的,这样就少了必须使用打码平台的考虑。成功点击后进入公众号的发布文章页面,这个时候就可以将公众号发布过的文章的标题,简介,图片爬取下来啦。(到了这个页面可以直接引用a标签进入到详细的文章内部,意味着具体的文章内容可以爬取下来啦。)

最后

我的github:里面有更加详细的代码。记得给个星星哦,还有其他的例子。本文例子在weixinsougou文件夹里面

备注

1、解决windows 命令行找不到pip命令的方法:

  1)找到安装python.exe的文件夹

  2)添加Script文件夹路径到环境变量当中。环境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts

2、解决安装scrapy会出现不能安装问题,报出Twisted 版本的错误时:

  1)手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解决

  2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

参考:https://www.jianshu.com/p/a294a4b2bcde

参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

3、本项目使用selenium,所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。

参考:http://npm.taobao.org/mirrors/chromedriver/

参考:https://blog.csdn.net/yoyocat915/article/details/80580066

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。