今日头条试题

1.你如何理解P值,它的限制是什么。

P值是指原假设为真时所得到的更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。

举个例子,原假设是总体均值=100。现在我们要用样本去估计总体,样本与总体是有很大差别的。那么用样本去估计总体所得出的均值,能否用来证明这个原假设呢?

这时算出P=0.01,表示总体均值为100时,样本均值不等于100的概率。P值很小,这种情况下发生的概率很小,可是却出现了,所以我们可以拒绝原假设。即总体均值不是100。

逻辑再重述一下:在总体均值为100的情况下,样本均值不等于100是几乎不可能的,但是现在样本均值就是不等于100,所以那个假设被推翻了。

分析问题时我们一般会用P值与显著性水平比较,一般取显著性水平为0.05。
显著性水平时指原假设为真时却被拒绝的概率。

黑体字,其实效果都是等同的,更极端结果=不等于100=被拒绝。而我们所说的
α错误就是显著性水平,即弃真错误。

P值的大小取决于三个因素,因为它是用来衡量样本估计总体的效果,那么这三个因素也就不难理解了:
1.样本数据与总体的差异。
2.样本量
3.参数是否服从均匀分布的程度。

2.如何判断一个硬币是否均匀?请描述实验设计、建模、统计指标和分析过程。

实验流程:做独立重复实验1000次,投递硬币,记录下来正反硬币出现的次数、并计算正面出现的频率。

建模:做一个假设检验,H0:正面出现的概率为0.5 ;H1:正面出现的概率不是0.5

统计指标:正面出现的频率,并构建Z统计量来做显著性检验。

分析过程:如果正面出现的频率不是0.5而且计算的Z统计量小于0.01的显著性水平,则我们有足够的理由推翻原假设即该硬币不均匀。

3大数定律在生活中的应用,并从短期和长期的角度看待这个事情.

大数定律(law of large numbers),又称大数定理,是一种描述当试验次数很大时所呈现的概率性质的定律。
它与中心极限定理一起打下了数理统计的理论基础。

在生活中的应用:今天早上我取坐公交,我不知道公交待会什么时候来,但从过去的大量经验来看,它会在7:40到站。这就利用了大数定律。

大数定律从长期来看,它使得频率接近概率,并提供了理论基础。
从短期来看的话,

4.请举例说明数据库的基本模型和模型之间的差别

立方体数据模型(cube)和星型数据模型都能组织数据仓库的维和度数据,为OLAP提供支持,但它们各有一定的局限性,在数据库开发中应该有机结合两种数据模型,合理使用。 2.1 立方体数据模型和星型数据模型

**(1)立方体数据模型 ** 立方体模型是数据仓库的基本结构。在该模型中,一部分是数字测量值(如销售量、投资额、收入等),它们依赖于一组维,而所有维提供了全部测量值的上下文关系。例如销售量Q与销售地区、销售产品和销售时间等有关,这些相关的“维”惟一决定了销售量Q这个测量值。因此,多数数据视图就可以表示为在这些由不同层次的维构成的多维空间中存放数字测量值。如图1中的小立方体格(即cube单元格)内存储的数据,就是可口可乐等产品的销售量Q数据。


图1 一个销售立方体数据模型

图1表示了一个销售立方体模型,图中阴影部分就是2001年广州市销售可口可乐的销售量Q。

**(2)星型数据模型 ** 大多数数据仓库都采用“星型架构”来表示多维概念模型。采用星型模型的数据库中至少包括一张“事实表”。“事实表”中的每条记录都包含有指向各个“维表”的外键和一些相应的测量数据,即数据值。对于每一维都有一张“维素”。“维表”中记录的是有关这一维的属性,如图2所示。

图2 销售数据仓库的星型数据模型

图2表示了销售数据仓库的星型数据模型,它包含4个维:地区维、时间维、产品维和部门维。它们各由相关的属性组成,这些属性有时也被认为是维的层次。如图3表示了销售数据仓库各个维的概念层次结构。中间是事实表,它由各维度的主键和数据仓库的度构成。度数据在事实表中维护,维度数据在维度表中维护。


图3 销售数据仓库中各个维的概念层次结构

在星型架构中,将单维的维表与另一个维表联接,这样就构成了关系数据库中的多维分析空间。这些平面的表被叠加到一起,构成了一个多维空间。叠加的核心是事实表。维表关键字是事实表关键字的一个组成部分,数据仓库中的关键字应使用系统生成的代理关键字,而不是直接使用操作型数据库的关键字,这是由数据仓库的稳定性所决定的。虽然看起来使用操作环境的关键字作为数据仓库的关键字显得简单、易懂,但实际上它会使数据仓库管理复杂化。首先,操作环境里的关键字的任何变化都会导致数据仓库里相应的变化,这违反了数据仓库稳定的特性。同时,数据仓库的扩展,必须保证在不破坏关键字的前提下,来自其他系统的数据能够顺利合并到数据仓库中去。

4.假如你租了个商铺,如何预估商铺的人流量以及销售额

5.简述有监督分类学习和无监督分类学习的差别,并举出熟悉的模型。

6.根据客户资料,划分行业体系

7.梯度下降法的缺点

梯度有时候不好计算;
当样本数目很多时,训练过程会很慢;
准确度下降,并不是全局最优;
不易于并行实现

8.用算法识别模仿应用。

题目如图

方法一:
一般而言,不少用户在下载到模仿应用以后会及时发现并且重新下载正确的应用
首先将收集到的用户下载应用数据,每一条记录包含了同一个用户对于应用的下载行为
建立稀疏矩阵,各个字段即是各类应用,被用户下载记为1,否则记为0
计算各个应用的下载的support,筛选出大于阈值的频繁项集
对于频繁项集,计算出各个子集之间彼此的confidence,筛选出大于阈值的关联规则
当关联规则的应用指向同一类应用时,其中可能就包含了被模仿的应用和模仿应用
建立一个正常应用的集合,若关联规则中同时有属于正常应用和不属于正常应用的项,那么这些不属于正常应用的部分可以被视为模仿应用

方法二:聚成1类的里面有正常应用和模仿的应用,再用正常的集合去排除.


JD关于用户行为的试题

请描述你所理解的黄牛,从什么角度识别黄牛用户

黄牛的特征是集中在低价、热销商品上,大量下单,以至达到区域囤货。
1.预约时间非常集中,以前是同一IP地址预约众多账号,现在是发动群里分布各地的网友预约,抢购成功后付佣金。

2.收货地址集中。猜测是和本地快递公司非常好的关系。如,深圳市华强北XX路X栋.1-100号都能收到货。收货人—黄XX 黄雷军 黄X军…(任意)收货人电话,前几位一致即可,后面几位任意。

现在刷单横行,请写出你理解的刷单行为,以及从什么角度识别刷单。

1.预约时间非常集中,以前是同一IP地址预约众多账号,现在是发动群里分布各地的网友预约,抢购成功后付佣金。

2.收货地址集中。猜测是和本地快递公司非常好的关系。如,深圳市华强北XX路X栋.1-100号都能收到货。收货人—黄XX 黄雷军 黄X军…(任意)收货人电话,前几位一致即可,后面几位任意。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容