240 发简信
IP属地:陕西
  • 120
    阿里巴巴为什么能抗住90秒100亿?看完这篇你就明白了!

    作者:huashiou链接:https://segmentfault.com/a/1190000018626163 1、概述 本文以淘宝作为例子,介绍从一百个并发到千万级并发...

  • 看着楼主的好文章,思绪又有点高涨,我在这里留下我的疑问,也是一点总结,求小伙伴们答疑,就是爬取大量数据request库和selenium都可以,只是时间的问题,但request效率更高,处理反爬机制的话一般可以设置headers里的认证设置(是用户名密码登陆吗)和超时设置;request库部分模拟浏览器无法解决用户密码登录的问题,而selenium可以模拟用户密码登录,是这样子吗?cookies他是模拟登陆的嘛,是的话request也可以,有点迷啊,request会被反爬虫机制识别,中断执行,但是request用并发处理的话效率会高点,但也容易被反扒。
    scrapy框架的话,效率更高,也更安全,类似于黑盒设计,负责输入,就直接输出,其实框架已经实现管道,保证了线程的安全,只用负责把数据写在数据库或者文档里面保存,是这样的吗,求大佬指点

    scrapy框架

    scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛 框架的力量,用户只需要定制开发几个模块就可以轻松的...

  • 120
    数据结构和算法(三):二分查找、跳表、散列表、哈希算法

    从广义上来讲:数据结构就是一组数据的存储结构 , 算法就是操作数据的方法数据结构是为算法服务的,算法是要作用在特定的数据结构上的。10个最常用的数据结构:数组、链表、栈、队列...

  • 120
    爬取百度股票信息

    看了中国大学慕课网上嵩天老师的课,里面有一个实战项目是爬取百度股票个股信息。今天自己试试看能不能爬下来。思路和嵩天老师一样: 1.从东方财富网上面获取股票代码,存进列表;2....