一、安装docker
(一)安装docker所需的仓库(repository)
1、安装所需要的包。yum-utils提供了yum-config-manager实用程序,而devicemapper存储驱动程序需要设备-mapper-persistent-data和lvm2。
$ sudo yum install -y yum-utils \
device-mapper-persistent-data \
lvm2
2、使用下面的命令来设置稳定的存储库。
$ sudo yum-config-manager \
--add-repo \
https://download.docker.com/linux/centos/docker-ce.repo
3、可选:启用边缘和测试存储库。这些存储库包含在docker中。上面的repo文件,但默认是禁用的。您可以在稳定的存储库旁边启用它们。
$ sudo yum-config-manager --enable docker-ce-edge
$ sudo yum-config-manager --enable docker-ce-test
(二)安装docker并启动
1、安装docker
$ sudo yum install docker-ce
2、启动docker
$ sudo systemctl start docker
3、通过运行hello-world映像验证docker是否正确安装。
$ sudo docker run hello-world
(三)运行sparkler项目
# Step 0. Get this script
wget https://raw.githubusercontent.com/USCDataScience/sparkler/master/bin/dockler.sh
# Step 1. Run the script - it starts docker container and forwards ports to host
bash dockler.sh
# Step 2. Inject seed urls
/data/sparkler/bin/sparkler.sh inject -id 1 -su 'http://www.bbc.com/news'
# Step 3. Start the crawl job
/data/sparkler/bin/sparkler.sh crawl -id 1 -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
(四)查看运行结果
截图如下