结构化文本计算示例(二)

上一节讲述了结构化文本的一些基本运算,本节继续用案例讲述二目运算和综合运算。

二目运算

集合运算(文件比较)

现有文件f1.txt和f2.txt,第一行是列名,需要对文件中的Name字段进行交集运算。部分数据如下:

文件f1.txt:


文件f2.txt:


代码如下:


函数isect用于集合间的交集运算,A1.(Name)表示取出A1的Name列,形成一个集合,B1.(Name)表示取出B1的Name列。本案例的最终结果如下:

类似地,求并集用函数union,差集可用diff,合集可用conj(相当于union all)。也可以直接用运算符来代替函数,写法更加简洁,比如交集,并集、差集、合集可以改写为:

A1.(Name) ^ B1.(Name)

A1.(Name) & B1.(Name)

A1.(Name) \ B1.(Name)

A1.(Name) | B1.(Name)

上面的示例显示了读入文本文件并自动拆分为字段后,仅取其中的某一列进行集合运算。那如果想不拆分字段,对整行数据一起比较呢?很简单,在导入的选项加上 s 即可,表示不拆分字段。但需要注意的是,不进行拆分后,相当于直接返回一个只有一列的序表,且此时的列名也没有拆分,变成了Name(Tab)Dept,也就是此时的列名中包含了不可见字符 Tab,这列名是非法的,都没法直接引用了。不过还好可以用序号来表示第几列,此时的代码如下:

    显然,不拆分字段时,肯定只有一列,与其得到一个非法的列名,还不如不要列名,直接返回成集合(序列)多好,此时需要额外加上选项 i,表示只有一列数据时,直接返回成序列。此时交集直接就是集合的运算了,写成 A1^B1 即可,代码如下:


    上面两种算法,得到的都是相同的结果:


归并

现有table1.txt和table2.txt已按逻辑主键ID1、ID2排序。现在要根据主键用table2更新table1,即主键相同其他字段不同时更新table1,主键不同时向table1插入数据。

源数据如下:



    用table2更新table1之后,table1应当如下:


    代码如下:


以游标方式读取table1.txt和table2.txt,按照逻辑主键用B1更新A1。函数mergex可进行数据归并,并保持结果仍有序,@u表示计算并集。最后将计算结果写入新文件。

这个代码使用了游标,不必考虑内存对数据文件的大小的限制,因此可以处理非常大的文件。

如果文件本身无序,那么需要先排序再归并,这时只需要将每个游标附加一个排序表达式即可,A2可以改写为:

[B1.sortx(ID1,ID2),A1.sortx(ID1,ID2)].mergex@u(ID1,ID2)

有序集合运算

    假设文件f1.txt和f2.txt已按Name和Dept排序,需要计算两者的交集。源数据如下:

文件f1.txt:

文件f2.txt:

当文件有序时,可以通过归并算法来实现集合运算,其性能比普通集合运算更高。代码如下:


merge表示对序表进行归并,@i表示交集,@u表示并集,@d表示差集。

计算结果如下:

如果文件本身无序,可先用函数sort排序,但要注意小文件排序归并比普通集合运算更慢,所以本方法适合较大的文件。

关联计算

    emp.txt是用tab分隔的文本文件,其EId字段对应sales.txt中的SellerId字段,现在要将emp.txt的Name、Dept、Gender这三个字段对齐到sales.txt。

    源数据如下:


代码如下:


    函数join执行连接运算,并将两个表改名为s和e,默认内连接,@1表示左连接,@f表示全连接。之后从连接的表中取得需要的字段,组成新的二维表。结果如下:

综合运算

多层关联

    下面的例子中共有5个数据源文件,其中订单是事实表,客户、产品、地区、供应商是维表。我们需要过滤出客户和供应商属于同一个地区的订单,然后根据这些订单按城市分组,汇总各城市的订单数和订单金额。

关系结构如下图:

    代码如下:


    读入文本,建立事实表和维表之间的关联,之后按关联关系查询订单,再进行分组汇总,其中函数switch用于建立外键关联。

异构文件比较

    Data.txt是tab分隔的文本,共有6个字段,其中here字段是分号分隔的字符串。另有文件list是单列数据。现在要比较这两个文件,如果某条记录的here字段拆分后和List.txt中的任意一行匹配,则将这条记录输出到result.txt中。

    源数据如下:

List.txt


Data.txt



    代码如下:


    A3格子的代码中使用函数select进行查询,条件为here字段用array拆分为字符串序列后,再跟A2序列求交(“^”)集,结果不为空(“[]”)。

    结果如下:


多级目录文件抽取

目录“D:\files”包含多级子目录,每个目录下都有许多文本格式的文件,从这些文件中读取指定的行(比如第二行),并将这些数据写入新的文件d:\result.txt。

代码如下:


参数path的初始值设为“D:\files”,表示从该目录开始抽取数据,之后递归调用本脚本(c:\readfile.dfx),每次传入给参数path的值不同。

函数directory用来读出参数path中根目录下的文件列表,选项@p表示文件名带全路径,@d表示只取目录名。

~.skip(1)表示跳过一行。

~.fetch@x(1)表示从当前位置读取一行(即第二条)数据后立刻关闭游标。

分组拆分写出

    文件sales.txt存储了大量销售订单,现在将该文件按年和月拆分为多个文件,文件名格式为“年-月.txt”。

代码如下:


按年月分组解析分组,再按组循环,并写入文件。比如文件2009-01.txt,文件内容如下:


源数据超过内存时应用函数cursor读文件,如组内数据仍超内存,应当使用函数groupx分组,但代码结构无变化。

综合运用(库存计算)

文件Stock.txt存储货物的出入库记录,同种货物每天可能出入库多次,也可能连续几天无任何货物出入库,货物初值为0,入库用In表示,出库用Out表示,需要计算出所有货物的每日库存。源数据如下:


代码如下:


代码说明:先用A2汇总出所有货物每日的出入库总数,再按最早、最晚日期算出完整的日期列表,存于B3。然后按货物分组,循环每组数据,并将当前组与B3对齐,在B6中计算出当前货物的每日库存,计算完成后将所有库存结果保存到A8。

计算完成后A8结果如下:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358