简介
触手可及的互联网数据收集整理工具。通过简单的操作即可在杂乱无章和比较讲究的网站中找到有价值的数据。比如新闻列表、商品信息、公司名录、邮件地址等任何感兴趣的内容。
详情,简介,安装,基本操作可参考如下地址:
通过cws(chwod web spider)进行互联网数据的收集
录制
-
打开chrome浏览器:
打开chrome浏览器 -
单击右上角cws图标(如图中箭头所指),进入cws的首页:
录制和执行 -
切换到录制和执行选项卡(如上图中的箭头1所指位置),单击新建按钮(如上图中箭头2所指位置),打开新建录制模版对话框:
新建录制模版
以获取百度新闻热词和热词链接为演示素材
模版名称(上图位置1)输入(比如百度或baidu);
起始URL,输入(https://www.baidu.com);
单击确定按钮或直接回车提交后,如下图所示:

-
选中刚添加的模版(上图中的箭头1所指位置),此时录制按钮(上图中箭头2所指位置)将变为可用状态,单击录制按钮,弹出录制消息提示框:
脚本录制 -
单击开始录制按钮,开始录制,此时会自动打开一个新的浏览器窗口,并展示录制消息提示框:
脚本录制
也可能不显示此对话框,如果之前已经勾选过不再提示复选框,
-
单击开始录制按钮,在页面顶部展示工具栏,如下图所示;
录制顶层工具栏 -
单击页面操作或信息录制按钮(上图中箭头1所指位置):
页面操作或信息采集 [可选操作]选中链接复选框(上图中箭头1所指位置),
因为我们需要打开百度新闻的链接,选中可以更快更有效的只针对链接进行处理
- 将鼠标移动到新闻上(上图中箭头2所指位置),会显示一个信息面板(上图中箭头3所指位置),列出相关信息辅助你进行目标选择,此时在新闻上按下鼠标,则会弹出一个操作页面,
如果你选中了多选复选框,则你需要按下确定按钮才能弹出操作页面
如下图所示:

我们现在需要打开该链接,展开第一个选项:单击按钮或打开链接(上图中箭头1所指位置):
在标题中录入一个名称,或保持默认(上图中箭头2所指位置);
按下回车或单击按钮(上图中箭头3所指位置),此时,页面会自动跳转到百度新闻:

在顶部展示操作栏,我们为了选择多个目标,勾选多选(上图中箭头1所指位置),并确保智能多选是选中状态(上图中箭头2所指位置),我们选择需要获取的目标是链接信息,因此,勾选链接复选中(上图中箭头3所指位置);
现在我们到了选择目标的时候,首先,将鼠标移动到第一个热词上(上图中箭头4所指位置),并单击以选中此目标;
不必担心会打开该链接
然后将鼠标移动到第二个热词目标上(上图箭头5所指位置);此时如果没有意外发生的话,所有的热词都会被选中,如下图箭头1所指方框内的热词全部被选中:

-
单击确定按钮(上图中见图2所指位置),打开操作对话框:
操作对话框
我们首选采集文本信息,展开采集文本信息(上图中红框所示):
采集文本信息
如果展示未找到文本内容,请勾选深度文本复选框(上图中箭头1 所指位置),勾选之后会自动查找有效文本,如下图所示:

在标题输入有效名称,如上图中的热词
标题内容在数据下载之后,作为文件标题头存在,所以建议输入有意义的名称
- 此时,采集文本信息的操作已经设定完毕,我们开始设定采集链接的信息,单击以展开采集链接地址:
请不要再次单击采集文本信息,对于未展开的步骤,在最后提交时会被忽略。
采集链接地址
在标题(上图中箭头1所指)输入一个有效名称,与采集文本信息一样,建议输入有含义的名称,比如:热词链接。
如果发现未找到链接信息,或链接信息不完整(比如:只是/a=1之类不以http://或https//开头的链接地址),请勾选修正按钮(上图箭头2所指)以尝试修复此问题,一般情况下都会解决。
- 当所有内容设定完毕,请单击对话框下方的确定按钮,自从步骤添加完成。
-
单击顶部工具栏最右侧结束录制,接触脚本录制,回到cws的首页。切换到录制和执行面板,如下图所示:
录制和执行
执行
选中刚刚完成的脚本,此时执行按钮将变为可用(上图中箭头1所指);
单击执行按钮,将开始脚本自动执行,请稍等片刻即可自动完成;
完成后会直接进入下载页面,或执行完成后的任何时间通过单击数据编排和下载按钮(上图中箭头2所指)进入下载页面。
只有在执行完成后的状态下,数据编排和下载按钮将变为可用
数据编排和下载
当脚本执行完毕后,会直接打开数据编排和下载页面:

上图中红框1是工具栏,可以进行数据列的移动,重命名,删除等操作。
上图中红框2是数据部分,
我们此处的目的是收集热词和热词链接,基本上不需要进行任何编排,直接在工具栏中单击下载数据按钮,稍等片刻即可完成:

自此,我们的目的已完成










