星辰大海的碎片

发简信

星辰大海的碎片

4
关注
5
粉丝
15
文章
5027

字数
4

收获喜欢
4

总资产

IP属地：浙江

星辰大海的碎片

简石榴
写了 8730 字，被 4 人关注，获得了 3 个喜欢

娜娜都很厉害
星辰大海的碎片

郭清枫
写了 11080 字，被 86 人关注，获得了 112 个喜欢

一个文艺的程序猿。。。<br>我的github博客:MrFung.cn

星辰大海的碎片

Jason_Sam
写了 22151 字，被 22 人关注，获得了 53 个喜欢
星辰大海的碎片

我这大概是神仙般的自知之明了

判断生成器对象是否在字符串中
any() 函数any() 函数用于判断给定的可迭代参数 iterable[可以是元组或者列表] 是否全部为 False。如果全部是False则返回 False，如果有一个为...

星辰大海的碎片
2738 2 0
星辰大海的碎片

关于Python高级语言特性
作为一个python半吊子选手，在经过一轮正经的python面试之后，我终于对自己的定位有了清晰地认知：我学的非常肤浅。python的高级语言特性我只是了解，从来没用过。很遗...

3744 0 1
星辰大海的碎片

判断生成器对象是否在字符串中
any() 函数any() 函数用于判断给定的可迭代参数 iterable[可以是元组或者列表] 是否全部为 False。如果全部是False则返回 False，如果有一个为...

2738 2 0
星辰大海的碎片

使用leveldb模块
LevelDB是谷歌开源的一个键值数据库，速度非常快，同时自动压缩数据。起因是直接写入文本不方便第二次查找；写入MySQL等关系型数据虽然利于查找但是速度非常慢，使用键值数...

3342 1 0

星辰大海的碎片

网络爬虫知识点
1.URL的清洗 2.cchardet模块该模块是chardet的升级版，功能和chardet完全一样，用来检测一个字符串的编码。由于是用C和C++实现的，所以它的速度非常快...

3237 0 0
星辰大海的碎片

浏览器和服务器的笔记
请说说从你在浏览器地址栏输入网站到你看到网页中间都发生了什么？浏览器发出请求服务器做出响应浏览器接收响应网址是否有效判断URL的合法性基本URL包含协议(模式)+服务...

1306 0 0
星辰大海的碎片

验证URL的合法性
基本URL包含协议(模式)+服务器名称(IP地址)+（路径+文件名）关于协议它告诉浏览器如何处理将要打开的文件。最常用的模式是超文本传输协议（Hypertext Trans...

5096 0 0
星辰大海的碎片

MySQL插入数据提示OperationalError: (2013, 'Lost connection to MySQL server during query')
原因未知解决办法就是不要一次插入大量数据产生环境：我在更新数据库，从旧的数据库更新到新的数据库，第一次出现这个消息是在我插入一千多条数据的时候，然后我减小了数据量，这个错误就...

8574 0 0
星辰大海的碎片

是原始的url

python请求状态码的问题
背景是用scrapy来抓取一个网站的列表页的时候有一个url是404，其它url是200，但是我在判断状态码的时候发现了一些问题这是基本逻辑demo（别傻了，我会提交完整代...

星辰大海的碎片
4709 3 0

星辰大海的碎片

python请求状态码的问题
背景是用scrapy来抓取一个网站的列表页的时候有一个url是404，其它url是200，但是我在判断状态码的时候发现了一些问题这是基本逻辑demo（别傻了，我会提交完整代...

4709 3 0
星辰大海的碎片

当增量爬虫遇到网址打不开
在做增量爬虫的时候，会经常遇到网址打不开的情况，为了方便统计监控，我们用状态码来做简单判断，非200都是异常更换域名网页结构改变请求方式换了服务器挂了网站维护被检...

4010 0 0
星辰大海的碎片

scrapy的log
看文档的笔记，请多指教！ 1、五个级别，在分析log的时候我选择把阈值从WARNING开始（官方也是这么建议的）如果你非要从头开始也没关系。2、这个log的配置方法2.x和3...

4055 0 0
星辰大海的碎片

Python定时结束任务脚本
因为我是一个懒人不愿意动手去每个结束,所以改用了定时脚本来处理因为电脑在跑定时任务爬虫，所以会产生超多的这个进程，程序里有的结束掉了有的没结束。一些参数的详细信息这个进...

8688 0 0
星辰大海的碎片

爬虫去重策略
数据库去重MySQL 有唯一字段可以去重（这不是数据库去重的唯一方法），但是这种太过依赖MySQL，会导致 MySQL 压力大从而崩溃。 Scrapy 去重Scrapy 自带...

3081 0 0

星辰大海的碎片

爬虫和反爬
反爬就是区别人类行为和机器行为通过访问频率来判断是人还是机器，他们会通过监测你的访问频率来判断，比如一分钟之内的访问次数，但是这个有一个弊端就是局域网，因为同一个局域网对外...

7564 0 3
星辰大海的碎片

python pip安装grpc报错
原因是环境里安装了python3.x和python2.x，这俩在一起会冲突因为目前项目使用的2.x于是开始卸载3.x但是发现会报错误安装时发生错误 0x8007064...

9749 0 0
星辰大海的碎片

爬虫找不到详情页URL的参数
第一种情况这是网址我要做的是获取全部数据包括列表页和详情页这个网站看上去是很容易获取，都是很标准的格式，只是详情页跳转了一次url，翻页虽然没用参数但是有data，一切看上...

7455 0 0