240 发简信
IP属地:黑龙江
  • web网页前端-HTML

    1.web的标准三层结构 结构(html):用于对网页元素进行整理和分类-- 好比人的身体 表现(css):用于...

  • Resize,w 360,h 240
    机器学习

    一.机器学习开发流程 1.获取数据 (公司本身就有,合作过来的数据,购买的数据) 2.数据的基本处理:pd去处理(缺失值,合并表。。。) 3.特...

  • Resize,w 360,h 240
    特征工程

    scikit-learn库介绍 一.特征抽取的API都在sklearn.feature_extraction中 1.字典数据的特征抽取 ...

  • Resize,w 360,h 240
    Scrapy-Redis

    Scrapy-Redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:request去重,爬虫持久化,和轻松实现分布式

  • Resize,w 360,h 240
    scrapy

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要写少量的代码,就能够快速的抓取 Scrapy 使用了Twisted...

  • 关于爬虫中遇到验证码的处理方法

    url不变,验证码不变 请求验证码的地址,获取响应,识别 url不变,验证码会变 思路:对方服务器返回验证码的时候,回和每个用户...

  • Selenium和PhantomJS

    Selenium Selenium是一个Web的自动化测试工具,最初为网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有...

  • 个人实现爬虫思路的心得

    1.准备url 准备start_url 1.url地址规律不明显,总数不确定 2.通...

  • 数据提取

    数据提取的定义 数据提取就是从的响应中提取我们想要的数据的过程 数据分类 1.非结构化数据:html等 处理方法:正则表达式,xpath 2.结...