需求背景
之前介绍了通过UiPath机器人爬取表格数据,这里以网页上的文字为例,介绍使用UiPath机器人采集网页信息并写到文本文件中。
UiPath的安装和基本使用方法参见《如何免费雇一个机器人爬虫采集数据?》。
详细步骤
1. 打开浏览器:将“Open Browser”拖动至设计器面板中,填入需要打开的网址:"https://www.uipath.com/product/studio"。按Ctrl + F6在浏览器中打开网页。
2. 加载网页:在“活动”面板中,将“Get Visible Text”活动添加到“Open Browser”活动的“Do”容器中。单击“Indicate element inside browser”,然后单击要从先前加载的网页中抓取的文本。
3. 抓取信息:在“Variables”面板中,创建一个名为“GetText”的新 string 变量,并将其作用域设置为 Sequence,用于存储抓取的信息。在“Get Visible Text”活动的属性面板中,选择“Text”属性旁边的字段,然后插入 GetText 变量。
4. 打开记事本文件:在项目中添加一个“Open Application”活动,打开记事本实例,单击“Indicate window inside browser”,并选择已打开的应用程序。系统随即会检测记事本的文件路径。
5. 写入记事本文件: 在“Open Application”活动的“Do”容器中添加一个“Type Into”活动。单击“Indicate window inside browser”以选择记事本窗口,然后将“GetText” 变量添加到输入文本字段中。此活动可将抓取的文本写入记事本窗口。
6. 调试:按F6即可调试,执行过程中会打开一个记事本并将抓取到的内容输入到记事本文件中。
7. 输入法:由于不同电脑上的默认输入法不同,如果调式过程中出现输入文本有错误的情况,需要根据具体情况来调整一下。本人的默认输入法是搜狗中文,英文的输入会有错误。需要在输入之前通过“Send Hotkey”来切换输入法。另外,可以根据需要增加文本输入,还可以点击Text右边的“+”号来增加回车键等特殊字符。这里输入:GetText+"[k(enter)]"+“测试中文、符号和数字输入:数值<=10”+ "[k(enter)]"。
8. 执行:执行过程中打开网页和加载信息会有一些延时,注意等待。另外,在执行时最好关闭其他的网页。
后续就可以根据需要执行文本文件的自动化处理了;此外,采集信息或数据写到其他格式的文件中的操作也是类似的。