豆瓣有那么一点恶心,爬虫想登上去不是很容易,登陆豆瓣,应该是看到的这个界面
但是这个页面是不能直接处理登陆的。。噢,对了,我是用的selenium登陆豆瓣的,也可以用cookies,而且好像cookies好像还更简单一点。。我是开始的时候被坑了,发现源码里面没有文章的东西(其实是我看漏了),以为是js动态加载的,就想着用selenium处理。。。绕了一大圈。。咳咳,还是说正事。。。
然后我就换到这个页面登陆
https://www.douban.com/accounts/login?source=main
这个就好处理多了
直接
username = drive.find_element_by_name('form_email')
username.clear()
username.send_keys('xxxxx')
password = drive.find_element_by_name('form_password')
password.clear()
password.send_keys('xxxxxx')
然后验证码的处理我用的手动输入。。不想弄麻烦了。。
a = input("输入验证码:")
yanzheng = drive.find_element_by_name('captcha-solution')
yanzheng.clear()
yanzheng.send_keys(a)
yanzheng.send_keys(Keys.RETURN)
登陆上以后,你就可以直接打开其他的豆瓣页面了。