环境要求
jdk版本:jdk 1.8
redis版本:不限
系统:linux /windows
项目概述
该爬虫程序手动上传需要爬取的csv文件,以instid + 任意分隔符 + 网页地址组成,分隔符设置详见后续配置文件分析。爬虫csv文件.png
爬取结果.png
文件夹说明
文件夹.png
bin文件夹是启动程序
config是配置文件
docs是说明文档(包括本文)
files生成的爬虫文件
lib是爬虫的jar包(不用管)
logs是爬虫日志
配置文件说明
项目启动前需要设置配置文件配置文件.png
application.yml放的是主要配置,application.yml.bac是配置文件的备份。
# 爬取线程数
crawlerThreadNum: 10
# 爬虫结果整理时间
cronExpression: "0 * * * * ?"
# 是否是主程序YES or NO(单机版默认为是,分布式爬取的情况下一台机器设为主程序,其他机器设为非主程序)
master: "YES"
# 爬虫结果文件是否发送SFTP到指定位置YES or NO
sendFtp: "NO"
# 爬虫文件分隔符
separator: ","
如果需要修改redis的访问ipredis配置.png
SFTP.setting放的是sftp的配置信息。
SFTP_URL=134.64.12.237
SFTP_PORT=21
SFTP_USERNAME=nlkf
SFTP_PASSWORD=Nlkf237#
REMOTE_FILE_PATH=/data/xxzx/dpi
项目部署和使用(window)
项目启动.png
双击start.bat,出现如下画面说明启动成功。
启动画面.png
首页.png
上传.png
项目部署和使用(Linux)
Linux下的使用需要用户掌握一定的Linux基础知识,本文档会尽量详细的让没有linux使用经验的人员也能使用。
首先,用户拿到的是一个tar.gz的文件,首先需要解压,
tar -zxvf crawler-v2-1.0-20190621.tar.gz
解压.png
cd crawler-v2-1.0/bin/
sh start.sh
启动画面2.png
查看日志
tail -f /root/crawler-v2-1.0/logs/sys-info
上传爬虫文件
cd /root/crawler-v2-1.0/bin/
sh append /root/dpi_url_20190531.csv
上传成功.png
查看状态
cd /root/crawler-v2-1.0/bin/
sh status.sh
停止服务
cd /root/crawler-v2-1.0/bin/
sh stop.sh