2.注册ID,完成官网下载后就可以打开软件,出现一个类似于浏览器的页面。打开“MS谋数台”,根据使用向导进行操作即可。
3.使用步骤:
①加载网页(当当图书销量排行榜): http://bang.dangdang.com/books/
在工作台命名“主题”:dd_books_ranking
②点击需要抓取的内容,然后在网页标签中找到相应位置,一般选取内容的话,最终会展开选择某个“#text”的字样,然后点击右键进行“内容映射”,这样子就可以看到网页上成功地标记了某个标签。
一般使用“定位标志映射”的准确率会高很多。
集搜客在自定义xpath时:
- 整理箱采集规则使用“./div”或div,定位语句以基点为准,开始编写路径。
- 连续动作采用“//div”,定位语句时以HTML根节点为准,开始编写路径。
(连续动作可模拟鼠标进行悬浮、点击、选择、输入、提交等操作)