本文源代码在 https://github.com/zhangshier/-.git 可下载
安装 pip install scrapy
安装pip install pymongo
需要爬取的内容
分析拉钩页面 按住F12
开始创建项目
1.新建个文件夹 本人是在F 盘下的pachong文件夹下 各位随意
然后win+R启动cmd命令 跳转到你的文件下
使用 scrapy startproject lagou 创建存放爬虫的文件
回车后创建项目 然后 进入你创建的项目 然后创建爬虫
使用scrapy genspider lgw lagou.com 创建爬虫
main.py 里配置下
fromscrapy.cmdlineimportexecute
importsys
importos
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","lgw"])
要找到的‘java开发工程师’
使用xpath 匹配
xpath 不会的可以参考 http://www.w3school.com.cn/xpath/index.asp
使用xpath匹配java工程师
response.xpath('//div[@class="list_item_top"]/div[@class="position"]/div[@class="p_top]/a/h2/text(')
可以直接在main 里使用run 运行
items.py