Python 爬虫工具

selenium

能够模拟批量获取页面下所有内容:(这是个特别强的工具,几乎就是模拟真人爬虫…,缺点就是会真的操控你的浏览器打开,效率低)

基本使用

导入selenium模块,使用里面的webdriver类,需要下载一个浏览器驱动并放在python目录下,这里下载的是chromedriverhttp://chromedriver.storage.googleapis.com/index.html?path=2.26/
要看对应版本:
https://blog.csdn.net/huilan_same/article/details/51896672
然后再将chrome的地址环境变量加入到path

WebDriver

控制整个浏览器用的

实例
from selenium import webdriver
browser = webdriver.Chrome()    #用chrome内核打开浏览器,同理如果要火狐的就Firefox()
browser.get("http://www.baidu.com")     #会以前面的浏览器内核打开该网址
browser.get_screenshot_as_file('mmm.jpg')       #将当前浏览的页面保存到本地
print(browser.page_source)      #打印源代码
browser.close()     #关闭浏览器
常用方法

上面的browser控制整个chrome,所以他是webdriver,而get()close()这些控制浏览器的就是webdriver的方法,其常用的方法还有:
`
(1)browser.page_source:获取当前页面源代码
(2)browser.curren_url:获取当前加载页面的 URL
(3)browser.close():关闭当前窗口, 如果当前窗口是最后一个窗口, 浏览器将关闭
(4)browser.quit():关闭所有窗口并停止 ChromeDriver 的执行
(5)browser.add_cookie(cookie_dict) :为当前会话添加 cookie ,举例:

driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) 
driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) 
driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})

(6)browser.get_cookie(name) :得到执行 cookie
(7)browser.get_cookies():得到所有的 cookie
(8)browser.delete_all_cookies():删除当前会话的所有cookie
(9)browser.delete_cookie(name) :删除指定 cookie
(10)browser.back():相当于浏览器的后退历史记录
(11)browser.forward():相当于浏览器的前进历史记录
(12)browser.execute_script(script, *args) :同步执行 js 脚本,举例:

browser.execute_script('alert("a")'),结果会弹出一个a的弹窗

(13)browser.execute_async_script(script, *args) :异步执行 js 脚本
(14)browser.get(url) :在当前窗口加载 url
(15)browser.refresh():刷新当前页面
(16)browser.switch_to.frame() :转到页面的某个frame里
(17)browser.switch_to.parent_frame() :返回父类的frame
(18)browser.current_window_handle:当前窗口的 handle, 相当于一个指针一样的东西, 用来指向当前窗口
(19)browser.window_handles : 当前浏览器中的已经打开的所有窗口, 是一个 list
(20)browser.switch_to_window(window_handle) : 切换 window_handle 指向的窗口
(21)browser.title : 当前页面的 title
(22)browser.name : 当前浏览器的名字

WebElement

用于定位标签,自动打开浏览器后我们可以定位标签,然后对该标签进行操作,常用定位标签方式如下:

find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()  #获取多个元素,id前面加#,class前面加.,多个之间用空格隔开

注:
如果要定位一组标签的话,就在element后面加s,比如:find_elements_by_id(),获取标签后就可以对该标签进行操作了,比如某网页一个标签点击后会进入下个界面,举例:

a = browser.find_element_by_id("j-nav-catebtn")     #获取该标签
print(a.text)   #输出标签的文本内容
b = a.click()   #点击该标签
time.sleep(5)   #给你5秒钟观赏一下

上面的a就是定位的一个标签(是网易云课堂的一个标签,点击会进入首页),也就是webelementclick()是其的一个方法,还有其他很多常用方法。

常用的方法
clear() : 清楚元素的内容, 假如这个元素是一个文本元素
click() : 点击当前元素
is_displayed() : 当前元素是否可见
is_enabled() : 当前元素是否禁止, 比如经常会禁用一些元素的点击
is_selected() : 当前元素是否选中, 文本输入框的内容
send_keys(*value) : 向当前元素模拟键盘事件,输入内容
get_attribute(name) : 获取元素属性,比如该标签的class是什么
submit() : 提交表单
id :标签的id
location :标签在页面中的位置(x,y坐标)
size :标签尺寸大小
rect :把location和size结合起来
tag_name : 当前元素的标签名
text : 当前元素的内容
往网页标签传值

比如像登录操作时我们一般可以通过先定位标签,然后用send_keys()往标签传值(有时如果里面有值就通过clear()清空先),举例(这里测试的是一个自己随便写的网站):

a = browser.find_element_by_name("name")        #索引到帐号部分
b = browser.find_element_by_name("password")
a.send_keys("aaa")      #输入帐号
b.send_keys("111")
c = browser.find_elements_by_tag_name("input")
#因为submit标签没有设置name和id,而整个网页里这是第三个<input>标签
#所以先定位一组input,到时候点击第三个就行了
c[2].click()

上面的最后提交数据还可以定位表单然后提交,比如上面那个网页就一个表单,所以把最后两行改成:

c = browser.find_element_by_tag_name("form")
c.submit()

这里还对一个测打字速度的网页写了个自动化脚本测试极限速度,代码如下:

from selenium import webdriver
browser = webdriver.Chrome()
browser.get("https://10fastfingers.com/typing-test/simplified-chinese")

c = browser.find_element_by_id("inputfield") 
try:
    while True:
        a = browser.find_element_by_class_name("highlight")
        b = str(a.text)
        if b:
            c.send_keys(b + " ")
        else:
            break

except:
    pass
更多参考

https://www.cnblogs.com/zhaof/p/6953241.html
https://www.cnblogs.com/hanxiaobei/p/6108677.html

selenium使用注意

使用selenium访问网站并不是检测不出来,其有以下启动特征可以被检测到:
http://www.python66.com/seleniumjiaocheng/181.html
selenium存在的问题如下:
http://www.python66.com/seleniumjiaocheng/156.html

phantomjs

这个是无头浏览器,其也可以像前面那样自动化测试,但是没有界面,所以效率也会高一些,然后也可以解析js文件。

配置

1.下载地址:
http://phantomjs.org/download.html
2.配置:将其.exe的路径加入到path中,到命令行输入phantomjs如果进入shell就说明配置成功
解析js:cmd切换到js文件目录下,输入:phantomjs xxx.js就行了

使用

其使用方法和前面selenium几乎一样,导包也是from selenium import webdriver,然后browser = webdriver.Chrome()Chrome改成PhantomJS就行了,然后可以设置窗口大小:set_window_size,而且他比selenium有个地方好就是官网有对应api,让你设置比如是否加载图片,选择不加载可以提升速度,api网址:
http://phantomjs.org/api/
找到命令行的,然后把对应的配置到service_args参数里即可,举例:

from selenium import webdriver

url = 'http://www.baidu.com'
SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']  #api中设置不加载图片,开启缓存
browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)  #传入api参数,如果不传括号里空就好了
# browser.set_window_size(1400, 900)        #设置窗口大小,也可以不设置
browser.get(url)
print(browser.page_source)
browser.close()

pyexecjs

也是解析js用的,需要pip安装后,import execjs

使用举例
>>> execjs.eval("'red yellow blue'.split(' ')")   #eval将代码还原原本意思
['red', 'yellow', 'blue']
>>> ctx = execjs.compile("""
    function add(x, y) { 
        return x + y; 
    } 
""")
#将js代码放入里面编译,也可以将js代码放入别的文件,然后在py下读取后放入这里面
>>> ctx.call("add", 1, 2)  #call里面是要调用的函数名和传入的参数
3
>>> ctx = execjs.compile("""
     add = (x, y) => x + y;
     y = function(x){return x.toString()}
 """)
>>> ctx.eval("y(add)")
# 可以看到在该编译环境下,所有的内容都在同一个context里
'(x, y) => x + y'

注:
如果上面es6的代码无法执行,说明可能没有配置node环境,那么首先需要安装node,然后配置环境如下:

os.environ["EXECJS_RUNTIME"] = "Node"

切换成普通JS环境:

jscript = execjs.get(execjs.runtime_names.JScript)
print(jscript.name)
jscript.eval("1 + 2")
更多参考

通过pyexecjs实现google翻译:
https://blog.csdn.net/yingshukun/article/details/53470424

js2py

也是解析JS用,个人认为这个模块十分好用,pip install js2py

eval_js()

执行单个js语句,举例:

>>> js2py.eval_js('a=1;a+1')
2
EvalJs

执行js函数,举例:
调用执行代码:

>>> import js2py
>>> context = js2py.EvalJs()
>>> fun_js = """function aaa(a) {
    b = a + 1;
    return b
}"""
>>> data_js = "let x = 1"
>>> context.execute(fun_js)
# 执行fun_js代码
>>> context.execute(data_js)
>>> context.aaa(context.x)
2
# 执行aaa()函数,并传入参数x

这里提供一个利用该模块实现的js逆向案例:https://blog.csdn.net/guodejie/article/details/81436556

更多参考

https://www.seoxiehui.cn/article-38590-1.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容

  • 摘要: 之前用Selenium做UI自动化测试从初学到熟练碰到过很多问题,这里就不一一细说了,所以把最基本的操作都...
    Vicky_习惯做唯一阅读 11,369评论 1 23
  • 这篇文章在介绍官网的同时使用了比较多的脚本示例,示例里遇到的问题有部分在本篇文章进行了解释,还有一篇文章专门记录了...
    顾顾314阅读 12,918评论 3 32
  • 我看见你们, 一个心地善良; 一个阴险狡诈; 我知道我说的是错的 , 外在的你还是表示赞同 内在的你在心里傻笑, ...
    浮尘淡名阅读 184评论 0 0
  • 等黄昏 等点一盏灯 等一扇门 还有 推开心扉的那个人 等晚风 等圆一月晕 等一红尘 还要 捻出缘分的宜年轮 201...
    养图阅读 196评论 0 4
  • 农历腊月十三 漫天飞舞着雪花 空调打到25度依然阻止不了深入骨髓的寒冷 这房子好像一个囚笼 出不去 纵使拼尽全力也...
    _侷外人_阅读 127评论 0 0