python 爬虫 scrapy+selenium+mysql,爬取微信搜狗,各个银行发布的公众号文章

需求

由于工作需要,公司要求爬取指定的微信公众号发布的文章,各大银行官网发布的营销信息。还有招标信息。进过调研后,发现使用python 的scrapy结合selenium模拟人工操作。用了一些时间完成了任务。特来记录一下。


开发环境

windows7/10

python 3.5.2

mysql 5.5

scrapy 1.6

pycharm2018

谷歌浏览器 70.0.3538.110(正式版本) (64 位)


安装

在windows上正常安装python3.5.2,我选用的是官网的64位版本,详细留意:https://www.python.org/search/?q=3.5.2&submit=

1、添加环境变量:

image

python所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35;

pip所在目录:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts;

解析:添加上述的2个路径到环境变量当中。

image
image

2、pycharm安装。

使用pycharm作为编辑器,是因为,他有强大的导入功能。他的一些导入包非常方便管理自己导入的第三方的包。

image
image

*******************************注意*****************************

如果在下载安装scrapy的时候,报出Twisted 版本的错误导致pip不成功的时候可以手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl

1)保证你的pip版本是最新的

2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

参考:https://www.jianshu.com/p/a294a4b2bcde

参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

Twisted-18.7.0-cp37-cp37m-win_amd64.whl这个我是在上述链接下载的

3、要使用selenium作为模拟人工操作的自动话测试,需要先下载对应浏览器的驱动

因为我使用谷歌浏览器的,所以我下载的也是谷歌浏览器的驱动

参考:http://npm.taobao.org/mirrors/chromedriver/

参考:https://blog.csdn.net/yoyocat915/article/details/80580066


现在你可以正式工作了!(手动狗头)


爬取微信搜狗

image
image
image

因为微信公众号发布得最新文章,可以在微信搜狗页面上查到指定公众号发布的最新内容,所以我们的目标很明确,是在微信搜狗上爬取公众号发布的最新消息。

1、确定爬取链接

经过分析,带爬取的链接有如下特点:

链接构成:https://weixin.sogou.com/weixin?type=1&s_from=input&query=公众号号码

使用scrapy爬取到该链接对应的静态内容后,你会发现,链接对应的a标签会重定向到302输入验证码的页面,可能是微信搜狗的反扒技术吧。(不过有办法解决)

image
image
image

这个时候我们要用强大的selenium作为模拟人工点击的自动化测试工具。这个第三方包在python能下载到。

直接上代码


class SeleniumMiddleware(object):

def __init__(self):

self.cookies_file_path = COOKIES_FILE_PATH

def process_request(self, request, spider):

options = webdriver.ChromeOptions()

# 设置中文

        options.add_argument('lang=zh_CN.UTF-8')

#options.add_argument('--headless')

#options.add_argument('--disable-gpu')

#options.add_argument('--remote-debugging-port=9222')

        # 更换头部

        options.add_argument('user-agent='+request.headers['User-Agent'].decode(encoding='utf-8'))

browser = webdriver.Chrome(

executable_path=SELENIUM_CHROME_DIRVER_LOCAL_PATH,

            chrome_options=options)

wait = WebDriverWait(browser, 15)

browser.get(request.url)

'''设置selenium浏览器的cookie'''

        with open(self.cookies_file_path, 'r')as f:

listCookie = json.loads(f.read())

time.sleep(1)

browser.delete_all_cookies();

for cookiein listCookie:

browser.add_cookie({

# 'domain': cookie['domain'],

# 'httpOnly': cookie['httpOnly'],

                'name': cookie['name'],

              # 'path': cookie['path'],

# 'secure': cookie['secure'],

                'value': cookie['value'],

              # 'expiry': None if 'expiry' not in cookie else cookie['expiry']

            })

# browser.close()

        browser.get(request.url)

time.sleep(5)

# 根据公众号查找

        gzhDetail = wait.until(EC.element_to_be_clickable(

(By.CSS_SELECTOR, 'ul.news-list2>li:first-child>div.gzh-box2>div.txt-box>p:first-child>a')))

gzhDetail.click()

time.sleep(3)

# 更换到刚点击开的页面

        newWindowHandler = browser.window_handles[-1]

browser.switch_to.window(newWindowHandler)

#返回页面

        true_page = browser.page_source

res=HtmlResponse(request.url,body = true_page,encoding ='utf-8',request = request,)

#记录搜狗微信公众临时生成的gotoLink的地址,注意该地址是微信搜狗经常会切换的地址。

        res.meta['wxsgGzhDetailUrl']=browser.current_url

browser.quit()

return res

def process_response(self, request, response, spider):

return CodeMiddleware().process_response(request,response,spider)

若果成功模拟人工点击是不会跳到302输入验证码的,这样就少了必须使用打码平台的考虑。成功点击后进入公众号的发布文章页面,这个时候就可以将公众号发布过的文章的标题,简介,图片爬取下来啦。(到了这个页面可以直接引用a标签进入到详细的文章内部,意味着具体的文章内容可以爬取下来啦。)

最后

我的github:里面有更加详细的代码。记得给个星星哦,还有其他的例子。本文例子在weixinsougou文件夹里面

备注

1、解决windows 命令行找不到pip命令的方法:

  1)找到安装python.exe的文件夹

  2)添加Script文件夹路径到环境变量当中。环境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts

2、解决安装scrapy会出现不能安装问题,报出Twisted 版本的错误时:

  1)手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解决

  2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl

参考:https://www.jianshu.com/p/a294a4b2bcde

参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

3、本项目使用selenium,所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。

参考:http://npm.taobao.org/mirrors/chromedriver/

参考:https://blog.csdn.net/yoyocat915/article/details/80580066

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352