使用输入数据源

Using an Input Data Source


可以使用一个输入数据源来为数据提取项目提供一个输入值列表。一个数据提取项目将为每一行输入值运行一次。

一个输入数据源通常用于以下场景之一:

  • 为web表单提供一个输入值列表
  • 要提供一个开始urls的列表
  • 为FixedValue内容元素提供输入值
  • 为脚本提供输入值

要添加或编辑输入数据源,从Visual Web Ripper菜单中选择 项目->输入数据源Project -> Input Data Source

您可以选择下列输入数据源之一。

  • SQL Server (Database)
  • MySQL (Database)
  • OleDB (Database)
  • CSV File (Jet Engine)
  • CSV File (Direct)
  • Script
Input Date Source

Visual Web Ripper 只支持文本/字符串作为输入数据,因此确保所有输入值都可以转换为文本。如果需要在脚本中使用另一种数据类型,输入值必须仍然是一个字符串,但是脚本可以将输入值从字符串转换为另一种格式。

如果您使用的是CSV输入文件,您可以选择使用MS Jet引擎或直接加载CSV文件。MS Jet引擎允许您指定从CSV文件中选择数据的select语句,如果您需要构造开始url,这将是非常方便的。考虑下面的例子:

select 'http://mywebsite.com/searchByState?state=' + state as URL from [states.csv]

您应该避免在MS Excel中创建CSV输入文件。Excel有时会在CSV文件中以出乎意料的结果格式化值。您应该以以下格式在文本编辑器中创建输入CSV文件:

URL,STATE,CITY
"http://mywebsite.com/search?state=al","al","brumby"
"http://mywebsite.com/search?state=ca","ca","california"

请注意,输入CSV文件应该总是有一个指定列名的标题行。

设计时输入数据值 Design Time Input Data Values

当您在设计一个使用输入数据源的数据提取项目时, Visual Web Ripper 将在设计时默认使用数据值作为第一个输入数据行。如果您的项目是提交web表单并使用输入数据值来填充表单字段,那么有时在设计时使用特定的输入数据行是可取的,这样您就可以在不同的场景中测试数据提取项目。

要更改设计时使用的输入数据行,请打开输入数据源屏幕并单击View data按钮。选择您想要在设计时使用的数据行,并单击按钮集作为设计行。当前的设计时数据行标记为绿色。

Input Data

输入数据的脚本 Input Data Script

在将输入数据源设置为脚本之后,你可以向项目添加一个输入数据脚本。一个输入数据脚本可以用来为一个项目生成输入值。该脚本通常用于为项目生成启动urls
有关如何创建输入数据脚本的更多信息,请参阅主题输入数据脚本。

供给开始URLs / Feeding Start URLs


在您添加了一个输入数据源之后,您可以配置数据提取项目来使用它来提供多个启动url。遵循以下步骤:

  1. 打开项目选项窗口。
  2. 选择Start urls options选项卡。
  3. 从输入数据源选项中设置供给的urls。
  4. 在包含开始urls的输入数据源中选择列。
Starts URLs

在开始URL上使用链接转换
链接转换可用于从输入数据源中的值生成起始url。

Link Transformation

例子
下面的示例展示了一个链接转换脚本,该脚本使用输入数据源中的两个列来生成start urls。

using  System;   
using  VisualWebRipper.Internal.SimpleHtmlParser;   
using  VisualWebRipper;   
public   class  Script   
{      
     public   static  string TransformLink(WrLinkTransformationArguments args)   
    {   
         try   
        {   
             return   "http://www.coldwellbanker.com/agent?action=list&freeTextAddress="     
                + args.InputDataRow[ "State" ] +  "&CountryID="  + args.InputDataRow[ "CountryID" ];   
        }   
         catch (Exception exp)   
        {   
            args.WriteDebug(exp.Message);   
             return   "Custom script error" ;   
        }   
    }   
}  



使用输入数据源为Web表单提供输入值


在添加了一个输入数据源之后,您可以将一个数据列分配给FormField内容元素。遵循以下步骤:

  • 编辑FormField内容元素。
  • 选择Database options选项卡。
  • 设置输入数据源选项。
  • 选择您希望分配给FormField内容元素的数据列。
Database

一个数据采集项目在输入数据源中的每一个数据行运行一次。如果一个输入数据源被分配给一个或多个FormField内容元素,那么web表单将会被提交给输入数据源中的每一个数据行。

使用一个输入数据源为FixedValue内容提供输入值


在添加了一个输入数据源之后,您可以将一个数据列分配给FixedValue内容元素。遵循以下步骤:

  • 编辑FixedValue内容元素。
  • 选择Database options选项卡。
  • 设置输入数据源选项。
  • 选择您希望分配给FixedValue内容元素的数据列。
Database

使用输入数据源为脚本提供输入值


在您添加了一个输入数据源之后,您可以在任何脚本中使用输入值。对于输入数据源中的每一个数据行,一个数据提取项目都会运行一次,所有的脚本都可以访问当前数据行。

下面的内容转换脚本简单地返回名为STATE_NAME的数据列中的当前数据值。


using  System;   
using  VisualWebRipper.Internal.SimpleHtmlParser;   
using  VisualWebRipper;   
public   class  Script   
{   
     public   static   string  TransformContent(WrContentTransformationArguments args)   
    {   
         try   
        {   
             return  args.InputDataRow[ "STATE_NAME" ];   
        }   
         catch  (Exception exp)   
        {   
             //Place error handling here   
            args.WriteDebug(exp.Message);   
             return   "Custom script error" ;   
        }   
    }   
}  
































©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 226,828评论 6 526
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 97,669评论 3 412
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 174,467评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,238评论 1 306
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,039评论 6 405
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,561评论 1 319
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,658评论 3 433
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,806评论 0 285
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,316评论 1 329
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,293评论 3 353
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,443评论 1 364
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,998评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,698评论 3 342
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,097评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,333评论 1 281
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,012评论 3 385
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,434评论 2 370

推荐阅读更多精彩内容

  • 投射我儿早睡早起,注意面部卫生,脸上的毛囊炎好了,面部也光滑如初。 投射我儿在校认真听课,努力学习,有计划,有目标...
    花开生两面阅读 196评论 0 0
  • Personal Statement Hi dear manager, I am Freedom. My name...
    JohnsonZora阅读 394评论 0 0
  • 关于RxJava的学习资料网上有很多,但是都有点杂乱,以下是本人总结的写的比较优秀的学习资料。 1.详细介绍了Rx...
    青藤绿阅读 795评论 4 21
  • 在大学里面了几次试,成功过几次,但失败更是多。不过我不是来说怎么成功面试的,我是说,承认自己的缺陷,比装出什么...
    修进阅读 271评论 4 0
  • 长沙地铁里今天开了冷气 忍不住打了喷嚏 心里想盘算一下是不是有谁在念叨你 街上好多短衣客 不敢张扬如亦卿 捂嘴 忍...
    微风LG阅读 304评论 0 1