1、page.getRequest().getUrl()可以获得当前所爬取的URL是什么
2、使用xpath获取某个颜色的内容
xpath("//b[@style='color:black;background-color:#ffff66']/text()").get()
3、可以在
public void process(Page page) {}方法中添加正则区分URL属于第几轮
并在main方法中利用isExitWhenComplete()方法判断第一轮spider是否完成采集
Spider spider = Spider.create(new BaiduKuaiZhao())
.addUrl(kwsList().get(0)).thread(50);
spider.run();
if (spider.isExitWhenComplete()) {
spider.close();
System.out.println("spider1已经结束");
System.out.println(kzList.size());
Spider spider1 = Spider.create(new BaiduKuaiZhao())
.addUrl(kzList.get(0)).thread(5);
spider1.run();
spider1.close();
}
}