你到时候需要理一下每个步骤的模型/算法/评估等.
什么是用户画像:
从中文概念来讲,用户画像与用户角色非常相近,是用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼铟挖金,尽可能全面细致的抽出一个用户的信息全貌,从而帮助解决如何把数据转化为商业价值的问题。
用户画像更倾向于对同一类用户进行不同维度的刻画。
从数据的角度看,用户画像就是一个对原始数据的二次计算重构后的新数据,对计算增加了负担,对存储也增加了负担。所以一开始必须经过逻辑设计,从而才能确定数据结构方面的设计。
从可视化角度来看,沿着可解释路线,每个标签单击进去都是详细的记录和细节,从抽象到细节逐步去体现用户画像数据结构,而这对于服务商来说,更加直观和更有帮助。
用户画像的应用是非常广泛的,很多领域和行业都有用户画像这个概念,它在视频推荐领域也得到广泛的应用。其中一个主要原因是,用户画像是一种能将定性与定量方法很好结合在一起的载体,定性化的方法,通过对用户的生活情境、使用场景、用户心智进行分析来对用户的性质和特征做出抽象与概括;定量化可以对特征做精细的统计分析与计算,获得对于用户较为精准的认识,便于在数值排序的基础上实现核心用户的发掘与突出。
用户属性用来描述一个用户的“个性”,从而与其他用户加以区分。因此,为实现精准及个性化的推荐,系统通常对每个用户都有一个用户属性的建模,其中包括用户的基本信息,如用户的性别、年龄、年收入、兴趣爱好、活跃时间、所在城市等。用户属性还可以用于对推荐结果进行过滤和排序,从而优化推荐结果。
在推荐系统中,简单的使用用户属性存在以下问题:首先,用户属性是相对静态的数据,实时性不够;其次,基于用户属性的推荐结果过于粗糙,因为用户较难与具体的推荐内容之间建立联系,针对用户属性存在的局限性,推荐系统通常会部署特定的模块来捕捉用户的观影习惯,记录用户观影记录,来建立兴趣模型,从而针对用户的爱好进行个性化视频推荐。
什么是 时间戳:时间戳是一份能够表示一份数据在一个特定时间点已经存在的完整的可验证的数据。 它的提出主要是为用户提供一份电子证据, 以证明用户的某些数据的产生时间。
用户画像不可能一尘不变,而是实时动态变化的。这就要求我们设计合理有效的动态更新机制,从而精准的刻画用户。
用户画像的动态性使其不可避免的具有时空局限性。
首先,在时间上,用户画像的目标是通过精准的刻画用户,从而提供个性化的服务,因此,用户画像对于时效性非常敏感,某一时刻的用户画像对该时刻推荐结果最为有效。距离时间越远,推荐结果的精确性越低,参考价值越差。其次,在空间上,不同的应用领域有不同的侧重点,例如,营销领域的用户画像主要侧重用户的消费习惯,而在视频推荐领域,用户画像则主要侧重用户的观影喜好,因此需要针对各自的特点设计相应的用户画像,没有哪个用户画像一经构建就可以适用于所有的应用领域。
搜索引擎:面对互联网用户数量的激增和信息的爆炸性增长,如何更好的利用互联网为用户快捷的提供所需服务是一个值得研究的问题。通过采集用户注册信息、访问日志及查询信息,我们可以构建用户画像,从而在提供搜索服务时,根据用户输入的搜索关键字及已构建的用户画像,猜测该用户想要得到的信息,从而将该用户最可能需要的信息显示在最前面,提高用户的搜索体验。
用户画像的主要应用领域即推荐系统。
由于新物品只有较少的用户喜好信息,所以基于内容的推荐能很好的解决这个新物品的“冷启动”的问题。
什么是数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
推荐机制还允许根据用户的实际行为来进行反馈调整,从而根据用户兴趣变化动态更新内容。
在视频推荐领域,用户群及其行为的数量也在迅速增加,丰富的数据来源为构建高精准的用户画像提供了可能。
数据隐私是用户画像应用中另一个引人关注的重大问题。
用户画像建模
在视频推荐应用中,为了使推荐结果满足用户个性化需要,需要对用户画像进行建模,从而为分析用户行为习惯、兴趣偏好等重要商业信息,提供大量的数据基础。用户画像建模的核心是对用户潜在的意图和兴趣进行表示存储,根据用户的基础信息、视频信息、访问信息、行为偏好,以及隐式兴趣等归纳出可读取、可计算的用户模型。通俗的说,用户画像建模往往就是用户信息的标签化,以便为后面的推荐算法提供更加精确的语义信息(语义信息是信息的表现形式之一,指能够消除事物不确定性的有一定意义的信息。对信息接受者来说,信息可表现为语法信息、语义信息和语用信息三个层次。语义信息可以借助自然语言去领会和解释。只有人类社会的信息才包含语义信息。凡科学信息都属于语义信息。由于个人在知识水平和认识能力方面有差异,因此,对语义信息的理解往往带有较强的主观色彩。不同的人从同一语法信息中所得到的语义信息和语用信息明显不同。)例如,可以使用“女,25岁,未婚、喜欢爱情片"等标签来描述用户画像。实际的推荐系统往往会在中间过程中提取很多抽象的特征信息,如矩阵分解中的潜在特征,尽管这些抽象特征不容易解释,但是它们同样是用来描述用户画像的。
标签化是用户定性画像的核心,标签化的用户画像既方便人们的理解,又方便计算机分析和程序化处理。标签化之后,首先计算机可以自动完成分类统计功能。例如,可以统计喜欢科幻类型电影的用户有多少,还可以进一步统计喜欢观看科幻类型电影的人群中男、女比例是多少。其次,计算机也可以根据这些标签进行深度挖掘。例如,可以利用关联规则计算用户年龄和喜欢电影类型的关系,还可以利用聚类算法分析喜欢科幻类型电影用户的年龄段分布情况。将标签信息与用户的视频浏览、点播行为数据相结合,就可以进一步预测用户的喜好。