本福德定律
本福德定律(本福德法则 Benford's law ),也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值 1/9 的 3 倍。而越大的数值,以它为首几位的数出现的机率就越低。
本福德定律对数据工作的价值在于:它可以用于检查数据源是否有问题。
当欺诈者伪造数据时,他们或许想不到要去创建符合本福德定律的假数据。在某些情况下,可以运用本福德定律检测伪造数据或者对数据真实性做出验证。
那么,在 Tableau 中,如何运用本福德定律验证数据真实性呢?这里,我将方法分享给大家。
本期《举个栗子》,阿达要给大家分享的Tableau技巧是:运用本福德定律(Benford's law)验证数据真实性。
栗子使用 Tableau 自带的“Sample-Superstore”数据源,验证其销售数据。
一、创建计算字段
首先,我们需要创建两个必要的计算字段:“首数字”和“本福德定律”。
◆ 首数字:LEFT(STR([Sales]),1)
◆ 本福德定律:LOG(INT([首数字])+1)-LOG(INT([首数字]))
Tips:本福德定律说明在b进位制中,以数n起头的数出现的机率为(logb(n + 1) − logb(n)).本福德定律不但适用于个位数字,连多位的数也可用。
二、创建视图
将“首数字”拖拽到“列”,将“记录数“拖拽到”行“;
更改“记录数”的快速表计算为“合计百分比”;
现在,我们就可以看到 Sales 字段呈如下的分布形式了,这就说明该字段基本符合本福德定律。
接下来,我们可以通过添加引用分布来执行更多操作以精确地查看数据。
三、查看分布情况
将“本福德定律”字段拖拽到“详细信息”标记卡中;
更改该胶囊的度量为“最小值”;
切换到分析窗格,将“分布区间”拖拽到画布的“单元格”选项中;
在编辑对话框中,更改“计算-值”的设置。在“百分比”区域中键入“80,100,120”(这会指定希望区间介于 80% 到 100% 以及 100% 到 120%),并且在“百分比”字段中,选择“最小(本福德定律)”;
四、配置外观
以下的步骤将用于配置参考区间的外观,便于更直观的查看数据结果。
“标签”为“无”、“线”为最细型的可用线、“填充”为“停止指示灯”、勾选“向下填充”;配置完成后点击“确定”;
最后,单击功能栏中的“显示标记标签”功能,让百分比数字显现出来。
通过上图,我们很容易发现:虽然 Superstore 是系统自带的演示数据,但它也是达到符合本福德定律程度的现实数据。
蓝色条表明首数字实际百分比超过视图中显示预期本福德值的 100%(分布在绿色区间的值说明改区间超过预期本福德值的100%,黄色区间则介于80%~100%之间)。
今天的Tableau技巧,你Get到了吗?赶快打开你的Tableau,试试看吧!
文章部分信息来源于网络,如有侵权请告知