需求

由于工作需要，公司要求爬取指定的微信公众号发布的文章，各大银行官网发布的营销信息。还有招标信息。进过调研后，发现使用python 的scrapy结合selenium模拟人工操作。用了一些时间完成了任务。特来记录一下。

开发环境

windows7/10

python 3.5.2

mysql 5.5

scrapy 1.6

pycharm2018

谷歌浏览器 70.0.3538.110（正式版本）（64 位）

安装

在windows上正常安装python3.5.2，我选用的是官网的64位版本，详细留意：https://www.python.org/search/?q=3.5.2&submit=

1、添加环境变量：

image

python所在目录：C:\Users\user\AppData\Local\Programs\Python\Python35;

pip所在目录：C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;

解析：添加上述的2个路径到环境变量当中。

image

2、pycharm安装。

使用pycharm作为编辑器，是因为，他有强大的导入功能。他的一些导入包非常方便管理自己导入的第三方的包。

image

*******************************注意*****************************

如果在下载安装scrapy的时候，报出Twisted 版本的错误导致pip不成功的时候可以手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl

1）保证你的pip版本是最新的

2）运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

参考：https://www.jianshu.com/p/a294a4b2bcde

参考：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

Twisted-18.7.0-cp37-cp37m-win_amd64.whl这个我是在上述链接下载的

3、要使用selenium作为模拟人工操作的自动话测试，需要先下载对应浏览器的驱动

因为我使用谷歌浏览器的，所以我下载的也是谷歌浏览器的驱动

参考：http://npm.taobao.org/mirrors/chromedriver/

参考：https://blog.csdn.net/yoyocat915/article/details/80580066

现在你可以正式工作了！（手动狗头）

爬取微信搜狗

image

因为微信公众号发布得最新文章，可以在微信搜狗页面上查到指定公众号发布的最新内容，所以我们的目标很明确，是在微信搜狗上爬取公众号发布的最新消息。

1、确定爬取链接

经过分析，带爬取的链接有如下特点：

链接构成：https://weixin.sogou.com/weixin?type=1&s_from=input&query=公众号号码

使用scrapy爬取到该链接对应的静态内容后，你会发现，链接对应的a标签会重定向到302输入验证码的页面，可能是微信搜狗的反扒技术吧。（不过有办法解决）

image

这个时候我们要用强大的selenium作为模拟人工点击的自动化测试工具。这个第三方包在python能下载到。

直接上代码


class SeleniumMiddleware(object):

def __init__(self):

self.cookies_file_path = COOKIES_FILE_PATH

def process_request(self, request, spider):

options = webdriver.ChromeOptions()

# 设置中文

        options.add_argument('lang=zh_CN.UTF-8')

#options.add_argument('--headless')

#options.add_argument('--disable-gpu')

#options.add_argument('--remote-debugging-port=9222')

        # 更换头部

        options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))

browser = webdriver.Chrome(

executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,

            chrome_options=options)

wait = WebDriverWait(browser, 15)

browser.get(request.url)

'''设置selenium浏览器的cookie'''

        with open(self.cookies_file_path, 'r')as f:

listCookie = json.loads(f.read())

time.sleep(1)

browser.delete_all_cookies();

for cookiein listCookie:

browser.add_cookie({

# 'domain': cookie['domain'],

# 'httpOnly': cookie['httpOnly'],

                'name': cookie['name'],

              # 'path': cookie['path'],

# 'secure': cookie['secure'],

                'value': cookie['value'],

              # 'expiry': None if 'expiry' not in cookie else cookie['expiry']

            })

# browser.close()

        browser.get(request.url)

time.sleep(5)

# 根据公众号查找

        gzhDetail = wait.until(EC.element_to_be_clickable(

(By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))

gzhDetail.click()

time.sleep(3)

# 更换到刚点击开的页面

        newWindowHandler = browser.window_handles[-1]

browser.switch_to.window(newWindowHandler)

#返回页面

        true_page = browser.page_source

res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)

#记录搜狗微信公众临时生成的gotoLink的地址，注意该地址是微信搜狗经常会切换的地址。

        res.meta['wxsgGzhDetailUrl']=browser.current_url

browser.quit()

return res

def process_response(self, request, response, spider):

return CodeMiddleware().process_response(request,response,spider)

若果成功模拟人工点击是不会跳到302输入验证码的，这样就少了必须使用打码平台的考虑。成功点击后进入公众号的发布文章页面，这个时候就可以将公众号发布过的文章的标题，简介，图片爬取下来啦。（到了这个页面可以直接引用a标签进入到详细的文章内部，意味着具体的文章内容可以爬取下来啦。）

最后

我的github：里面有更加详细的代码。记得给个星星哦，还有其他的例子。本文例子在weixinsougou文件夹里面

备注

1、解决windows 命令行找不到pip命令的方法：

  1）找到安装python.exe的文件夹

  2）添加Script文件夹路径到环境变量当中。环境：C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts

2、解决安装scrapy会出现不能安装问题，报出Twisted 版本的错误时：

  1）手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解决

  2）运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

参考：https://www.jianshu.com/p/a294a4b2bcde

参考：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

3、本项目使用selenium，所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。

参考：http://npm.taobao.org/mirrors/chromedriver/

参考：https://blog.csdn.net/yoyocat915/article/details/80580066

python 爬虫 scrapy+selenium+mysql，爬取微信搜狗，各个银行发布的公众号文章

python 爬虫 scrapy+selenium+mysql，爬取微信搜狗，各个银行发布的公众号文章

需求

开发环境

安装

现在你可以正式工作了！（手动狗头）

爬取微信搜狗

最后

备注