下午复习高数之前看了一下码市,发现有一个腾讯证券网站的爬虫需求可以做,一方面需要抓取符合一定规则的文章,另一方面还需要抓取实时股票数据。两个要求都在能力范围内,于是投了标。
联系了需求方后开始尝试爬取。
文章列表和股票信息是js生成,于是花了点功夫分析http request。经测试,大功告成。
后被告知需要实时抓取全站七天内文章标题中含xxx的文章信息。遂尝试写关键字分词匹配功能且做好了增量全站抓取的打算(因为文章分类非常杂,找不到可以遍历全站文章的列表)。
做到这里,联系需求方告知进度和方案。未料其向我展示另一名投标者提供的demo操作视频。
惊呆,他竟然爬的是百度搜索。
好了,哥,我要复习高数了,拜拜。
感觉智商被碾压
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...