1.你如何理解P值,它的限制是什么。
P值是指原假设为真时所得到的更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。
举个例子,原假设是总体均值=100。现在我们要用样本去估计总体,样本与总体是有很大差别的。那么用样本去估计总体所得出的均值,能否用来证明这个原假设呢?
这时算出P=0.01,表示总体均值为100时,样本均值不等于100的概率。P值很小,这种情况下发生的概率很小,可是却出现了,所以我们可以拒绝原假设。即总体均值不是100。
逻辑再重述一下:在总体均值为100的情况下,样本均值不等于100是几乎不可能的,但是现在样本均值就是不等于100,所以那个假设被推翻了。
分析问题时我们一般会用P值与显著性水平比较,一般取显著性水平为0.05。
显著性水平时指原假设为真时却被拒绝的概率。
黑体字,其实效果都是等同的,更极端结果=不等于100=被拒绝。而我们所说的
α错误就是显著性水平,即弃真错误。
P值的大小取决于三个因素,因为它是用来衡量样本估计总体的效果,那么这三个因素也就不难理解了:
1.样本数据与总体的差异。
2.样本量
3.参数是否服从均匀分布的程度。
2.如何判断一个硬币是否均匀?请描述实验设计、建模、统计指标和分析过程。
实验流程:做独立重复实验1000次,投递硬币,记录下来正反硬币出现的次数、并计算正面出现的频率。
建模:做一个假设检验,H0:正面出现的概率为0.5 ;H1:正面出现的概率不是0.5
统计指标:正面出现的频率,并构建Z统计量来做显著性检验。
分析过程:如果正面出现的频率不是0.5而且计算的Z统计量小于0.01的显著性水平,则我们有足够的理由推翻原假设即该硬币不均匀。
3大数定律在生活中的应用,并从短期和长期的角度看待这个事情.
大数定律(law of large numbers),又称大数定理,是一种描述当试验次数很大时所呈现的概率性质的定律。
它与中心极限定理一起打下了数理统计的理论基础。
在生活中的应用:今天早上我取坐公交,我不知道公交待会什么时候来,但从过去的大量经验来看,它会在7:40到站。这就利用了大数定律。
大数定律从长期来看,它使得频率接近概率,并提供了理论基础。
从短期来看的话,
4.请举例说明数据库的基本模型和模型之间的差别
立方体数据模型(cube)和星型数据模型都能组织数据仓库的维和度数据,为OLAP提供支持,但它们各有一定的局限性,在数据库开发中应该有机结合两种数据模型,合理使用。 2.1 立方体数据模型和星型数据模型
**(1)立方体数据模型 ** 立方体模型是数据仓库的基本结构。在该模型中,一部分是数字测量值(如销售量、投资额、收入等),它们依赖于一组维,而所有维提供了全部测量值的上下文关系。例如销售量Q与销售地区、销售产品和销售时间等有关,这些相关的“维”惟一决定了销售量Q这个测量值。因此,多数数据视图就可以表示为在这些由不同层次的维构成的多维空间中存放数字测量值。如图1中的小立方体格(即cube单元格)内存储的数据,就是可口可乐等产品的销售量Q数据。
图1表示了一个销售立方体模型,图中阴影部分就是2001年广州市销售可口可乐的销售量Q。
**(2)星型数据模型 ** 大多数数据仓库都采用“星型架构”来表示多维概念模型。采用星型模型的数据库中至少包括一张“事实表”。“事实表”中的每条记录都包含有指向各个“维表”的外键和一些相应的测量数据,即数据值。对于每一维都有一张“维素”。“维表”中记录的是有关这一维的属性,如图2所示。
图2表示了销售数据仓库的星型数据模型,它包含4个维:地区维、时间维、产品维和部门维。它们各由相关的属性组成,这些属性有时也被认为是维的层次。如图3表示了销售数据仓库各个维的概念层次结构。中间是事实表,它由各维度的主键和数据仓库的度构成。度数据在事实表中维护,维度数据在维度表中维护。
在星型架构中,将单维的维表与另一个维表联接,这样就构成了关系数据库中的多维分析空间。这些平面的表被叠加到一起,构成了一个多维空间。叠加的核心是事实表。维表关键字是事实表关键字的一个组成部分,数据仓库中的关键字应使用系统生成的代理关键字,而不是直接使用操作型数据库的关键字,这是由数据仓库的稳定性所决定的。虽然看起来使用操作环境的关键字作为数据仓库的关键字显得简单、易懂,但实际上它会使数据仓库管理复杂化。首先,操作环境里的关键字的任何变化都会导致数据仓库里相应的变化,这违反了数据仓库稳定的特性。同时,数据仓库的扩展,必须保证在不破坏关键字的前提下,来自其他系统的数据能够顺利合并到数据仓库中去。
4.假如你租了个商铺,如何预估商铺的人流量以及销售额
5.简述有监督分类学习和无监督分类学习的差别,并举出熟悉的模型。
6.根据客户资料,划分行业体系
7.梯度下降法的缺点
梯度有时候不好计算;
当样本数目很多时,训练过程会很慢;
准确度下降,并不是全局最优;
不易于并行实现
8.用算法识别模仿应用。
方法一:
一般而言,不少用户在下载到模仿应用以后会及时发现并且重新下载正确的应用
首先将收集到的用户下载应用数据,每一条记录包含了同一个用户对于应用的下载行为
建立稀疏矩阵,各个字段即是各类应用,被用户下载记为1,否则记为0
计算各个应用的下载的support,筛选出大于阈值的频繁项集
对于频繁项集,计算出各个子集之间彼此的confidence,筛选出大于阈值的关联规则
当关联规则的应用指向同一类应用时,其中可能就包含了被模仿的应用和模仿应用
建立一个正常应用的集合,若关联规则中同时有属于正常应用和不属于正常应用的项,那么这些不属于正常应用的部分可以被视为模仿应用
方法二:聚成1类的里面有正常应用和模仿的应用,再用正常的集合去排除.
JD关于用户行为的试题
请描述你所理解的黄牛,从什么角度识别黄牛用户
黄牛的特征是集中在低价、热销商品上,大量下单,以至达到区域囤货。
1.预约时间非常集中,以前是同一IP地址预约众多账号,现在是发动群里分布各地的网友预约,抢购成功后付佣金。
2.收货地址集中。猜测是和本地快递公司非常好的关系。如,深圳市华强北XX路X栋.1-100号都能收到货。收货人—黄XX 黄雷军 黄X军…(任意)收货人电话,前几位一致即可,后面几位任意。
现在刷单横行,请写出你理解的刷单行为,以及从什么角度识别刷单。
1.预约时间非常集中,以前是同一IP地址预约众多账号,现在是发动群里分布各地的网友预约,抢购成功后付佣金。
2.收货地址集中。猜测是和本地快递公司非常好的关系。如,深圳市华强北XX路X栋.1-100号都能收到货。收货人—黄XX 黄雷军 黄X军…(任意)收货人电话,前几位一致即可,后面几位任意。