数据挖掘课后习题 第4章

4.3

(a)三种数据仓库建模模式:星形模式,雪花模式,事实星座模式
(b)星形模式:



(c)上卷:沿time维上的概念分层由day层上到year层聚集数据;沿patient维上卷到“全部”。
切片:通过在time维上进行选择( time="2010"),列出2010年每位医生的收入总数。
(d)select doctor,hospital,sum(charge) from fee where year="2010" group by doctor,hospital

4.4

(a)雪花模式



b)上卷:沿student维从student_name层上卷到university(全校学生)层;沿instructor维上卷到“全部”。
切块:取course="CS",semester="某个学期",沿course和semester维切块。
下钻:沿student维下钻到student_name维。
(c)5^4=625

4.5

(a)星形模式



(b)上卷:沿date维概念分层上卷到year;沿game维上卷到“全部”;沿location维上卷到location_name;沿spectator_id上卷到status
切块:以status="students", location name=“GM Place”and year=2010切块。
(c) 位图索引适用于集的势较低的领域。例如,对于这个立方体,如果地点维是位图索引,在location轴上的比较、连接、和聚集操作可被简化为位计算,从而减少了处理时间。而且,长的地点名称字符串能用一位来表示,这样就使存储空间和输入输出时间显著的减小。对于有较高的集的势的维,就像本例中的日期(date)维,用于表示位索引的向量会非常长。例如,一个历时10年的数据集合可导致3650个日记录,意味着实事表中的每个元组需要3650位(或大约456字节)去表示位图索引。

4.9

(a)分布式度量,代数式度量,整体式度量
(b)

又由于:

因此方差函数可表示为:

所以方差函数是代数度量。如果立方体可以被分为许多大块,方差可以用如下方法计算:逐个读取大块中的每一个数据,保留并累加如下聚集:
(1)元组的数量(2)(X_t^2)的和(3)(X_t)读完所有的块以后,将元组的数量N 的和带入,就可应用上述公式得到方差variance。
(c)
a.对于每个立方体,初始时先用10个存储单元存储任意选定的10个销售额;
b.将这10个存储单元中的销售额由大到小排序;
c.在立方体中读一个元组,如果该元组中的销售额大于10个中最小销售额,就用当前销售额替换最小销售额;
d.重复b,c,直到读遍立方体中所有元组后停止。

4.11

(a)RFID采集的原始数据是一个三元组(RFID,at_location,time),其中RFID是标签的标识码,at_location是阅读器读取标签的地点,time是阅读器读取标签的时间。通过RFID技术,企业可以了解产品流通的路径和时间。针对该公司的需求,可以按照以下步骤设计数据仓库:
(1)由于待建模的商务处理偏重于物流管理,所以应该选择企业仓库模型,而在不同地点(location维中的取值)的中转站可以采用数据集市模型存储数据。
(2)画出该数据仓库的雪花模式图:



(3)确定各个维度上的概念分层,便于在其上进行联机分析处理。如定义time维的概念分层为:偏序“day<{month<quarter,week}<year”.
(4)确定数据仓库中各个维的数据类型,值域;表与表之间的关联关系;如何对OLAP数据进行索引的方式。
(b)考虑这样一种情境:一批货物从产地出发,先分散发往几个大型中转站,每个大型中转站再将各自的货物分散发往几个中型中转站,每个中型中转站再将各自的货物分散发往几个小型中转站,层层分解,最后进入分布范围极广的最终消费领域,整个供应链成树形结构。由于货物在进入最终消费领域之前都是成批次流通的,因此存在这样一些数据三元组,它们拥有相同的location,相同的time,仅仅是RFID不同,并且越靠近供应链上游,这样的数据集越大。针对这种现象,我们可以对RFID进行转换,方法是把所有发往同一中转站的货物标签RFID归为一个集合ARFID[i],并建立一个ARFID集合表,记录ARFID[i]信息。这样,阅读器采集到的数据三元组(RFID,at_location,time)将转换为(ARFID[i],at_location,time),其中ARFID[i]是RIFD在ARFID表中所属的集合,所有RFID属于同一个ARFID[i]的三元组数据将只记录为一条(ARFID,at_location,time)记录,大大压缩了数据量。
(c)传统数据挖掘中提供了很多方法来进行数据清理,比如使用分箱,聚类,拟合等方法来清除噪音,使用函数依赖来纠正数据间的不一致。RFID数据也可以采用这些常规方法进行清理。但是,由于RFID系统采集数据的准确度高,且RFID数据规模庞大,错误数据在海量数据中密度很低且多为孤立数据,再加上RFID数据的连续特点,单个错误数据所携带的信息并不十分重要,所以对于RFID数据来说,忽略噪声不失为一个高效且几乎无损的方法。
(d)首先,将BestBuy终端和洛杉矶港端采集的RFID信息进行关联,然后与公司RFID数据库关联,找到从洛杉矶港到BestBuy终端的所有产品信息。然后,进行联机分析处理,删除不必要的维度(上卷至“全部”),按时间维度上卷至month概念分层,按产品维上卷至brand概念分层,根据需求聚集价格区间,按month="某月',brand="某品牌",price="某价格区间",product_category=“电视机”,进行切块处理,并以count作为度量,确定本月,该品牌,该价格区间内有多少台电视机从洛杉矶港运到伊利诺伊州尚佩恩市的BestBuy。
(e)根据各个中转站的RFID信息,找出牛奶的运输路线;通过time,location属性确定牛奶在各个中转站的逗留时间,以及同期存储和运输的产品;另外通过对time属性进行调查,可以得到牛奶经过各个运输段所用的时间,可以分析这些时间,检查是否存在异常;通过对所经过的中转站、运输线路进行调查,对仓库、运输工具,以及一起被存储、运输的产品进行调查(是否也存在变质情况,是否会导致牛奶变质等),得到牛奶在运输或存储中发生变质的概率估计。

4.16

(a)基本方体单元的最大个数为:p^n
(b)基本方体单元的最小个数为:p

(c)单元的最大个数:

(d)单元的最小个数:p*2^n-p+1

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容

  • 5.1 (a)2^10 (b)19*2^7-3 (c)4*2^7=2^9 提示:因为要满足冰山立方体条件“coun...
    磊宝万岁阅读 2,544评论 0 1
  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 8,984评论 0 13
  • 7.2(参考答案) 1.将各个销售点的销售事务数据库中特定类型商品的销售数据通过数据预处理操作装入数据仓库,以备数...
    磊宝万岁阅读 1,428评论 0 0
  • 当我们翻过一页又一页的纸张,看过一本又一本的书籍时,我们无非是想要在书本中寻找某种和自身与之共鸣的特性,又或者在作...
    小花啦朵朵阅读 285评论 1 2
  • 今天1月30日,距离除夕还有4天。 街头巷尾,到处是行李箱拖动的滚轮声; 高速公路,依然是车流不息,一步一停; 广...
    木雨文公阅读 976评论 0 0