2019-03-25

你到时候需要理一下每个步骤的模型/算法/评估等.

什么是用户画像:

从中文概念来讲,用户画像与用户角色非常相近,是用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼铟挖金,尽可能全面细致的抽出一个用户的信息全貌,从而帮助解决如何把数据转化为商业价值的问题。

用户画像更倾向于对同一类用户进行不同维度的刻画。

从数据的角度看,用户画像就是一个对原始数据的二次计算重构后的新数据,对计算增加了负担,对存储也增加了负担。所以一开始必须经过逻辑设计,从而才能确定数据结构方面的设计。

从可视化角度来看,沿着可解释路线,每个标签单击进去都是详细的记录和细节,从抽象到细节逐步去体现用户画像数据结构,而这对于服务商来说,更加直观和更有帮助。

用户画像的应用是非常广泛的,很多领域和行业都有用户画像这个概念,它在视频推荐领域也得到广泛的应用。其中一个主要原因是,用户画像是一种能将定性与定量方法很好结合在一起的载体,定性化的方法,通过对用户的生活情境、使用场景、用户心智进行分析来对用户的性质和特征做出抽象与概括;定量化可以对特征做精细的统计分析与计算,获得对于用户较为精准的认识,便于在数值排序的基础上实现核心用户的发掘与突出。

用户属性用来描述一个用户的“个性”,从而与其他用户加以区分。因此,为实现精准及个性化的推荐,系统通常对每个用户都有一个用户属性的建模,其中包括用户的基本信息,如用户的性别、年龄、年收入、兴趣爱好、活跃时间、所在城市等。用户属性还可以用于对推荐结果进行过滤和排序,从而优化推荐结果。

在推荐系统中,简单的使用用户属性存在以下问题:首先,用户属性是相对静态的数据,实时性不够;其次,基于用户属性的推荐结果过于粗糙,因为用户较难与具体的推荐内容之间建立联系,针对用户属性存在的局限性,推荐系统通常会部署特定的模块来捕捉用户的观影习惯,记录用户观影记录,来建立兴趣模型,从而针对用户的爱好进行个性化视频推荐。

什么是 时间戳:时间戳是一份能够表示一份数据在一个特定时间点已经存在的完整的可验证的数据。 它的提出主要是为用户提供一份电子证据, 以证明用户的某些数据的产生时间。

用户画像不可能一尘不变,而是实时动态变化的。这就要求我们设计合理有效的动态更新机制,从而精准的刻画用户。

用户画像的动态性使其不可避免的具有时空局限性。

首先,在时间上,用户画像的目标是通过精准的刻画用户,从而提供个性化的服务,因此,用户画像对于时效性非常敏感,某一时刻的用户画像对该时刻推荐结果最为有效。距离时间越远,推荐结果的精确性越低,参考价值越差。其次,在空间上,不同的应用领域有不同的侧重点,例如,营销领域的用户画像主要侧重用户的消费习惯,而在视频推荐领域,用户画像则主要侧重用户的观影喜好,因此需要针对各自的特点设计相应的用户画像,没有哪个用户画像一经构建就可以适用于所有的应用领域。

搜索引擎:面对互联网用户数量的激增和信息的爆炸性增长,如何更好的利用互联网为用户快捷的提供所需服务是一个值得研究的问题。通过采集用户注册信息、访问日志及查询信息,我们可以构建用户画像,从而在提供搜索服务时,根据用户输入的搜索关键字及已构建的用户画像,猜测该用户想要得到的信息,从而将该用户最可能需要的信息显示在最前面,提高用户的搜索体验。

用户画像的主要应用领域即推荐系统。

由于新物品只有较少的用户喜好信息,所以基于内容的推荐能很好的解决这个新物品的“冷启动”的问题。

什么是数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

推荐机制还允许根据用户的实际行为来进行反馈调整,从而根据用户兴趣变化动态更新内容。

在视频推荐领域,用户群及其行为的数量也在迅速增加,丰富的数据来源为构建高精准的用户画像提供了可能。

数据隐私是用户画像应用中另一个引人关注的重大问题。

用户画像建模

在视频推荐应用中,为了使推荐结果满足用户个性化需要,需要对用户画像进行建模,从而为分析用户行为习惯、兴趣偏好等重要商业信息,提供大量的数据基础。用户画像建模的核心是对用户潜在的意图和兴趣进行表示存储,根据用户的基础信息、视频信息、访问信息、行为偏好,以及隐式兴趣等归纳出可读取、可计算的用户模型。通俗的说,用户画像建模往往就是用户信息的标签化,以便为后面的推荐算法提供更加精确的语义信息(语义信息是信息的表现形式之一,指能够消除事物不确定性的有一定意义的信息。对信息接受者来说,信息可表现为语法信息、语义信息和语用信息三个层次。语义信息可以借助自然语言去领会和解释。只有人类社会的信息才包含语义信息。凡科学信息都属于语义信息。由于个人在知识水平和认识能力方面有差异,因此,对语义信息的理解往往带有较强的主观色彩。不同的人从同一语法信息中所得到的语义信息和语用信息明显不同。)例如,可以使用“女,25岁,未婚、喜欢爱情片"等标签来描述用户画像。实际的推荐系统往往会在中间过程中提取很多抽象的特征信息,如矩阵分解中的潜在特征,尽管这些抽象特征不容易解释,但是它们同样是用来描述用户画像的。

标签化是用户定性画像的核心,标签化的用户画像既方便人们的理解,又方便计算机分析和程序化处理。标签化之后,首先计算机可以自动完成分类统计功能。例如,可以统计喜欢科幻类型电影的用户有多少,还可以进一步统计喜欢观看科幻类型电影的人群中男、女比例是多少。其次,计算机也可以根据这些标签进行深度挖掘。例如,可以利用关联规则计算用户年龄和喜欢电影类型的关系,还可以利用聚类算法分析喜欢科幻类型电影用户的年龄段分布情况。将标签信息与用户的视频浏览、点播行为数据相结合,就可以进一步预测用户的喜好。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容

  • 概述及标签体系搭建 1 概述 随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大...
    JinkeyAI阅读 22,795评论 10 241
  • 作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的...
    daos阅读 5,657评论 0 77
  • 欢迎您使用微微云服务(以下简称“本服务”),为保证您的权益,便于更好地使用微微云相应的配套服务,请您务必在注册前认...
    Vrtrade阅读 308评论 0 0
  • 一、基础概念 1、什么是运营 2、如何理解运营 3、运营的层次 4、4大运营经典岗位 5、市场与运营的区别 6、产...
    曼阳船长阅读 363评论 0 3
  • 三天的课,让脑子里充满阳光! 同学们在一起,在老师的带领下挖掘我们的潜意识,哇塞太神奇了,就像拨洋葱一样,一点一点...
    笑冬君阅读 116评论 0 1