1.web的标准三层结构 结构(html):用于对网页元素进行整理和分类-- 好比人的身体 表现(css):用于设置网页元素的版式,颜色,大小...
![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
1.web的标准三层结构 结构(html):用于对网页元素进行整理和分类-- 好比人的身体 表现(css):用于设置网页元素的版式,颜色,大小...
一.机器学习开发流程 1.获取数据 (公司本身就有,合作过来的数据,购买的数据) 2.数据的基本处理:pd去处理(缺失值,合并表。。。) 3.特征工程(特征进行处理)(重要)...
scikit-learn库介绍 一.特征抽取的API都在sklearn.feature_extraction中 1.字典数据的特征抽取 fromskle...
Scrapy-Redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:request去重,爬虫持久化,和轻松实现分布式
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要写少量的代码,就能够快速的抓取 Scrapy 使用了Twisted异步网络框架,可以加快我们的下...
url不变,验证码不变 请求验证码的地址,获取响应,识别 url不变,验证码会变 思路:对方服务器返回验证码的时候,回和每个用户的信息和验证码进行对应,之后,...
Selenium Selenium是一个Web的自动化测试工具,最初为网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括Phanto...
1.准备url 准备start_url 1.url地址规律不明显,总数不确定 2.通过代码提取下一页的url ...
数据提取的定义 数据提取就是从的响应中提取我们想要的数据的过程 数据分类 1.非结构化数据:html等 处理方法:正则表达式,xpath 2.结构化数据:json,xml等 ...
节点选择语法 / 从根节点选取,获取标签下的文本用text(),例如:a/text() 获取a下的文本 a//text() 获取a下的所有标签的文本 //a[text()=...
爬虫定义 网络爬虫(又叫网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动地抓取互联网信息的程序 只要浏览器能做的事情,原则上,爬虫都能...
MongoDB的优势 1.易扩展,这也是非关系数据库共有的优势 2.大数据量,高性能,非常高的读写性能 ...
服务器端安装 1.sudo apt-get install mysql-server 2.sudo service mysql start 启...
军规适用场景:并发量大、数据量大的互联网业务 军规:介绍内容 解读:讲解原因,解读比军规更重要 一、基础规范 (1)必须使用 InnoDB 存储引擎 解读:支持事务、行级锁、...
Redis基本介绍 Redis是一个开源的使用C语言编写,支持网络,可基于内存亦可持久化的日志型,Key-Value数据库,并提供多种语言的API Redis特性...
关系型数据库 指采用了关系模型来组织数据的数据库 ,关系模型是指二维表格模型 关系型数据库优点 1.容易理解:二维表结构是非常贴近逻辑世界一个...