标签系统：大数据的典型应用

转载地址：https://zhuanlan.zhihu.com/p/52683548

标签，是大家耳熟能详的信息分类和标记机制，相信各位产品经理都用的烂熟。只不过，闲暇之余有没有深入思索一下标签这个不起眼的机制背后所蕴藏的磅礴宇宙观呢？今天，磊叔就带你们深入了解一下标签，再次以工资保证这是你在任何网站都看不到的全新解析和诠释标签的视角，是真是假，看完再做决断。

初来乍到：标签与分类的区别

本质：元数据

标签有两类，大不相同

规则标签

特征标签

标签系统的核心逻辑

标签和权重

最佳实践1：BAT是怎么建设标签体系的？

工程应用中的标签体系

图文和短视频的标签生产有什么不同？

最佳实践2：BAT如何让标签赋能各个业务模块的？

标签如何赋能内容管理和运营

标签如何赋能冷启动的

标签如何赋能相关推荐的

标签赋能产品

标签赋能用户画像和兴趣探索

最佳实践3：标签系统的局限和劣势

覆盖率有天花板

易导致推荐策略过度收敛

初来乍到：标签与分类的区别

先来点开胃菜，也是烂大街的理论，不过磊叔做了小小新的诠释。标签和分类的区别，相信大家知道的比磊叔多得多，不过下面这几个核心区别还是分享给大家:

标签是扁平的，分类是层级的

标签是精确的，分类是粗糙的

标签是多维的，分类是一维的

本质：元数据

标签和分类的区别是大家喜闻乐见的，但是不够深度和震撼，我们深入一点点。

事实上，在数据领域，有一个鼎鼎大名的词汇与标签极其雷同，无论它的定义、它的适用范围，还是它的衍生应用都与标签令人惊讶的一致。

它就是：元数据。

元数据：用来描述数据的数据，是从数据中抽取出来用于说明其特征的数据，是结构化数据。

元数据是结构化数据。

元数据是可被搜索和精确定位的。

元数据可以附属在任意结构数据上。

元数据使得图片、文档、视频这些无法搜索内容的非结构化数据也可以被搜索、组织和管理。

可是和我们要讲的标签有什么关系呢？

别急，如果把元数据的定义替换为标签，我们就能看到一个令人兴奋的进化：

标签，用来描述信息的数据，是从信息中抽取出来用于说明其特征的数据，是结构化数据。

很贴切、很精确、很完美的标签定义，不是吗？

标签有两类，大不相同

1）规则标签

这类标签最简单，就是人为指定一堆规则，然后给这堆规则命名，也就是规则标签了。

例如，磊叔定义了几条规则：

启动APP后10分钟内就离开了

3个月内没有回访

注册用户

为了方便研发实现，写成技术语言大概就是：

select user_name from table t where stay_time < 600 and return_inteval > 3 and registed = '1'

为了方便业务沟通，写成业务语言大概就是：

流失用户

“流失用户”就是规则标签。

规则标签，有时候也叫作业务标签。

2）特征标签

在内容分发领域，更多的是应用特征标签，即不再是人为制定的规则，而是通过机器学习来理解内容并提取特征作为标签，即把原始的图文或视频的文本信息丢进NLP，然后NLP去分析和理解并输出特征文本，即标签。

有可能一篇文章全文都没有提到比尔盖茨，但是NLP也能输出比尔盖茨

这种操作用高逼格的说法就是：内容理解

标签系统的核心逻辑

那么标签系统的核心到底是什么呢？磊叔总结了四个标签系统的核心逻辑，略有点理论化。

1、标签是结构化数据

标签常规型态下是一个普通的不能再普通的文本，文本一定是可以结构化的，也就是说标签是可以被结构化，可以被有效的存储、组织、管理、搜索和精确定位的。总之，结构化数据的特点和治理方式可以完美的套用到标签上。

2、标签是可被搜索和精确定位的

由于标签是结构化的，是可以在关系型数据库中有效的组织、存储和管理的，那么，它就一定能被搜索且被精确定位。也就是说，我们总是有很高效的办法来定位出每一个标签。

这一点非常重要，结构化数据总是能够被高效的搜索和定位，这样就让标签数量可以无后顾之忧的爆发性增长。而随着标签数量的不断增长，标签能够越加精确的去描述信息，让信息本身也越加的可被精确定位和搜索，这是一个双赢的结果。

3、标签可用于各种数据结构上

虽然标签本身是结构化的，但标签本身并不局限于只能描述结构化的数据。

事实上，标签用以描述的信息是普适性的，也就是标签可以应用于任意数据结构，比如常规的文本、图片、视频、音频、超链接、甚至一些更抽象的信息，例如某种哲学思想，某种行为方式或者某种心智模式等。回想一下，如果我们要描述一段视频，以前是怎么做的呢？无外乎:

给视频加一个文件名

给视频加一个标题

给视频加一段描述

管用吗？管用，但是不特别管用。因为文件名、标题和描述等这些信息量依然太少，加起来几百个字能提取什么特征信息嘛。

这时，标签自身的精确性和灵活性就派上用场了，“啪啪啪”的几个标签加持，视频的各种关键信息就显露无疑的展示出来。

4、标签可以使原本无法描述、搜索和定位的数据也可以被描述、搜索和定位

这个特性简直就是标签的黑科技，如果把标签比作天火，数据比作擎天柱，那么给数据加上标签，也就等于给擎天柱附加了天火的飞行引擎。

拿上面视频这个冤大头举例子。众所周知，视频这种非结构化数据不仅存储起来头疼，搜索起来更头疼。因为非结构化数据很难被搜索和精确定位。而上述的给视频增加文件名、标题甚至大段描述文字的效果依然很差，因为这种描述的信息量非常有限。

比如，我想搜索视频中的指定时间的内容呢？例如我想搜索梁朝伟和张国荣接吻在影片中的时间，懵逼了吧。没问题，标签也能帮到你。

这个不是异想天开，百度就已经开始研发针对视频的每一帧来打标签的技术，而最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签，就是你们一直用的：弹幕。

B站的视频弹幕列表，不仅标记了弹幕出现的时间点，还能双击弹幕快速跳转到对应的视频内容上。

标签和权重

标签的元数据类比定义，各种热热闹闹的优点，都算有点意思，但是依然还不够深度和震撼，我们继续深入一点点。

本质上，标签就是一堆对等的特征信息。能理解不？不理解也没关系，磊叔举个说人话的例子就明白了。假设我们系统中有几个关于地区的标签，比如说广州、北京、上海、深圳、曲麻莱县（我打赌你不知道这个地方在哪里），本质上这几个地域名称并无二致，完全一样，是对等的。但当我们给某些信息打上这些标签时，其实我们潜意识是有一个预期和判断的，大致就是一线城市和十线县城赋予信息的重要程度是完全不一样的，即信息被打上广州和被打上曲麻莱县其实是具有完全不同的含义，那么也就是说：标签是有权重的。

有了权重，标签就有了分级，于是使用标签的信息就有了分级

有了权重，标签就有了优先级，于是使用标签的信息就有了优先级

有了权重，标签可以满足个性需求，于是使用标签的信息就可以体现个性需求

最佳实践1：BAT是怎么建设标签体系的？

1）工程应用中的标签体系

在实际的工程应用中，标签体系通常是和分级体系结合在一起成为完整的内容分类体系。相对粗粒度的分类体系和相对细粒度的标签体系各司其职共同发挥作用。

在内容分发平台中（UC头条，今日头条等APP），内容分类体系的组成如下图：

那么问题来了：主题词，实体标签，概念标签，这些都是什么鬼？

别急，磊叔带你从上到下逐个掰扯清楚：

一级分类

最顶层，最粗粒度，也是最通用的分类，例如社会，娱乐，科技等。一般有15-20个左右，各个内容分发平台差别都不大，各个内容类型（图文，短视频，音频等）的差异也不大。

二级分类

次级，次粒度的分类，二级分类很好理解，把一级分类细拆下来就是了，例如一级分类的娱乐细拆为电影，音乐，电视剧等二级分类。

听说你想知道各个内容平台的一级和二级分类有哪些？

没问题，注册各个自媒体平台的账号，发文时多数会让你手工选择内容分类，做的好的自媒体平台会有两个联动下拉框，分别对应一级分类和二级分类，做的不那么好的自媒体平台，会把一级和二级分类集中显示。

不一定和后台的内容分类机制一一对应，但亦可窥得一斑

左：搜狐自媒体右：网易自媒体

三级分类（或者是主题词）

这个不是每家都有，原因如下：

- 三级分类已经和标签的粗粒度差不多，可以用标签来代替三级分类

- 三级分类数量太大，体系化管理和维护的成本太高。磊叔的老东家一级分类有22个，二级分类有88个，再拆到三级分类就是指数的增加了。

于是乎，三级分类在工程应用中的定位是填补上层二级分类和下层标签体系之间的粒度空白。

什么是粒度空白？

例如一级分类是娱乐，二级分类是电影，标签是王家卫，可能会出现下面这种情况:

假设我是一个文艺电影的爱好者，

如果用二级分类的电影做推荐，那可就太粗了，因为有可能给我推了成人电影，可成人电影我压根不爱看呀，ctr肯定惨不忍睹。

如果用王家卫的标签做推荐，那可就太细了，文艺片有好多导演的嘛，ctr肯定惨不忍睹。

那怎么办呢？简单嘛，在电影和王家卫之间增加一个：文艺片，既比电影的粒度细，又比王家卫的粒度粗，既能保证可以满足磊叔看文艺片的需求，也不会天天推王家卫这么局限。

磊叔想看其他文艺片，怎么办？

三级分类或主题词即可解决磊叔的文艺范儿需求

所以三级分类这个位置，有的平台叫三级分类，放在二级分类和标签之间，有的平台叫主题词，还有的平台和概念标签混合使用。

反正规则都是人定的，能用，好用，有用就行！

接下来就是标签层了，这里有两个新名词：实体标签和概念标签。

什么鬼！？

这里简单交代下标签词义的演进：

早期在用标签系统时，大伙都是很随意的给内容打标签，反正想到什么就打什么，逐渐的问题暴露出来：不仅通过标签管理内容乱七八糟，还不如用回分类呢，而且推荐上效果也很差，很不尽如人意。于是，大伙请来了研究中文语义和词义的专家，来帮大伙把把脉，果然，问题的根源发现了：

乱用标签，导致标签的指向性不明显，自然推荐效果差，内容管理也乱

乱用标签，标签本身的管理也是问题，一会儿动词、一会儿名词，一会儿形容词

所以，研究中文语义和词义的专家就给出了解决方案：

针对指向性不明显，建议标签优先使用名词，且唯一指代的。

针对标签管理混乱，建议建立标签库和标签管理系统，并建立同内容一样的标签入库审核机制

所以，针对第1点建议，大伙就商量，我们就用这种唯一指代的名词吧，这种名词在学术上叫实体词，那么大伙就把实体词代表的标签称为实体标签。

实体标签

必须是名词，且必须是唯一指代。

学术性的解释逼格高，但是不容易理解，跟着磊叔快问快答：

磊叔问：苹果，是实体标签吗？

给你三秒钟思考

你回答：是！

磊叔说：错！

你懵逼：靠！为啥不是？

实体标签的要求：名词，且唯一指代。

苹果，是名词，但不是唯一指代，苹果 = 科技公司、手机、水果、牛仔裤。

它们都是“苹果”

概念标签

难道我就不能用“苹果”了吗？当然可以用，只不过要给它另外起个名字：概念标签。

概念标签通常表示的是“一类”或“某种相似”的内容，例如：

2）图文和短视频的标签生产有什么不同？

这个差异可大发了。

现代工程中，基本上是通过NLP来生产标签的，也就是把图文或者短视频丢进NLP模型，模型呼啦呼啦一顿运算找出“自认为”最符合输入内容特征的标签，完事。

这个事的核心逻辑是NLP模型的效果（准召覆）严重依赖输入的信息以及信息量。

依赖的信息：仅文本信息，图片、语音什么的没用

信息量：越多越好，越纯净越好，杂质越少越好

图文和短视频的差异

图文的NLP准召覆业内平均都可以做到80%以上，短视频的NLP准召覆费劲巴拉能到70%就不错了。

针对短视频的文本信息少，有效信息都在视频和音频中，所以采用融合模型来搞定。

融合模型：不仅分析短视频仅有的文本信息，同时对视频帧和音频进行处理，谓之融合模型。

嗯，阿里巴巴的idst了解一下。

最佳实践2：BAT如何让标签赋能各个业务模块的？

1）标签如何赋能内容管理和运营

内容均衡化和针对性入库，内容库的同学负责内容源，内容质量等，分类的粒度太粗了，而且同一个分类下的内容也会千差万别。举个例子，假如内容库有社会这个分类，那么极有可能出现这种可能:

国家领导人出访友邻达成友好共识

磊叔家隔壁的小哥哥聚众打架引发青少年教育反思

当热点运营的同学发现社会分类的ctr显著高于大盘，那么到底是教育这个二级分类火了，还是青少年教育这个标签火了，还是隔壁小哥哥打架这件芝麻蒜皮的事情爆冷突然火了呢？

通过分析分类体系和标签体系的ctr，运营同学发现是“青少年教育”这个标签打上的内容都火了，接下来就可以：

人工监控“青少年教育”这个标签的热度，控制好推荐策略中的权重，太热容易失控

自媒体运营同学可以告诉广大自媒体作者：老师您好，写个青少年教育的文章呗，保量下发

2）标签如何赋能冷启动的

这个简单过一下：

用户冷启动：通常会引导我们关注一堆内容嘛，本质是标签。

内容冷启动：内容被打上标签，第一次下发时，优先下发给标签匹配的用户

3）标签如何赋能相关推荐的

标签简直就是天然为推荐场景而生的，毕竟都在讲要个性化推荐，都在讲精准推荐。标签的精准指向恰好就是为此服务的。

标签在推荐下发场景的应用非常丰富多彩，玩法五花八门，各家也是百花齐放。个中妙处磊叔可以分为9集在天桥下无限循环播放。

这里磊叔举个好玩的场景来说说标签是如何赋能推荐下发的。

对于常见的内容型产品，典型的用户路径是这样的：

某个用户触达入口 → 内容list → 内容详情页 → 返回内容list → 另一个内容详情页 → repeat → 退出。

这么描述可能有点抽象，我们找个有代入感的场景来说明：

例如，用户收到一条push，点击进入push列表，点击某条内容进入详情页，看完后要么写个评论，要么分享点赞收藏，要么什么都不做就闪人。

发现问题了吗？停留时间太短，好不容易拉来的流量过来溜达一圈就走了。

如此浪费流量自然不能坐以旁观，想点办法。

有了，让用户在某个页面多停留会不就行了嘛。

看来看去，好像只有详情页有点空间增加一些东东来留住用户

如果认为用户点进来详情页，而且都浏览到正文末尾了，那么可以认为用户对此内容有强兴趣

那么可以在正文末增加与当前内容强相关的推荐

行话叫相关推荐。

这么描述还是抽象，我们找个有代入感的场景来说明：

A君点击了一个办理港澳通行证的文章

A君看到了最后一行

A君发现后面还有“你可能还想看”，里面推荐了香港和澳门的旅游和美食

A君觉得还不错，看了一个香港旅游的文章

A君不仅看完了香港旅游的文章，还在“你可能想看”又点击了其他内容

“无限循环”

然后运营同学发现APP的使用时长猛增几十倍，可喜可贺。

磊叔描述的有点简单，不过实际情况确是如此，相关推荐的核心逻辑是这样：

如果内容的阅读完成率和阅读时长达到某个阈值时，即认为当前内容命中了用户的即时兴趣

如果命中了用户的即时兴趣，即认为当前内容的某些特征命中了用户的即时兴趣

如果当前内容的某些特征命中了用户当前兴趣，即认为用户有更高的可能性去浏览这些基于这些特征推荐的其他内容

如此这般就形成了基于标签的相关推荐场景下的流量莫比斯环

核心逻辑的关键词就是内容的特征，即标签，命中了用户的即时兴趣，即当前浏览下的兴趣。

4）标签赋能产品

上面几个赋能都是运营相关的，那么产品呢？

产品方面有：标签露出、关注标签。

分别对应的产品有：B站APP的视频详情页有露出相关的标签；SMZDM的标签可以订阅。

左：B站的标签露出；右：SMZDM的标签关注

5）标签赋能用户画像和兴趣探索

这里更好玩一点，用户画像和兴趣，与标签系统，是基于同一套标签库的，不然怎么样进行用户兴趣和内容推荐的匹配嘛，不多解释。

好玩的反而是在兴趣探索，为什么呢？

总不能一直给用户推荐相似的内容吧，天天吃龙虾也会腻的嘛

人的兴趣也不是那么单一的嘛，如果真有这种人，麻烦引荐下，我要更新下我的世界观和推荐策略

感觉写完这个部分，把从内容库-打标签-推荐下发-场景运营等大部分内容运营的流程都有多少提到，如果大家有兴趣深入了解其中个别内容欢迎私信骚扰。

磊叔的宗旨：有事聊事，没事聊天

最佳实践3：标签系统的局限和劣势

准确的说是实体标签的局限和劣势。

实体标签的定义是：名词，且唯一指代。

优点：精准，精准，精准。

局限：太精准，太精准，太精准。

劣势1：覆盖率有天花板

现代工程中实体标签的覆盖率大概只能去到70%~75%，因为精准，所以局限。

劣势2：易导致推荐策略过度收敛

在推荐系统中，实体标签很精准特征很明显，好处描述用户兴趣时会非常准确，有利于提高推荐系统的效果。不过局限性容易导致推荐系统判断用户兴趣时会变得极其狭隘和过度精准，行话就是过度收敛。

从推荐的流程上来看，即是下图：

标签会让推荐越来越收敛

总之呢，推荐策略中的一个核心关注点就是保持推荐的精准和兴趣探索的平衡。

目前也没有特别好的解决办法，不能怪标签，因为它天生就是及其精准的（还记得实体标签的特点吗？），所以有很多其他的策略来减低过度收敛的“跑火车”现象：

增加负反馈，让用户明确的告诉推荐系统哪些内容不喜欢，并且这种负反馈的权重很大，优先级很高。

ReRank层增加强策略，人为约束标签的过度收敛。

例如：每屏刷新10条内容，把其中的一个或多槽位/位置是用来进行兴趣探索，尝试推荐其他关联标签或者关联分类下的内容。

例如：多屏联动策略，如果连着5屏都有汽车试驾的内容，且点击率不高，那么在第6屏或者刷新后的第1、2屏不再出现汽车试驾的内容。

人工运营中，可能会打压部分热门标签的流量或者降低权重。

某些时效性很强的标签，比如娱乐圈的那些破事，爆出来后时效性也就那么几天，没必要一直霸着好位置占流量，所以这类标签通常在推荐系统中会被加上一个时间衰减函数，让它们尽快衰减。