之前为了做房源标签,单独读过这本书的第五章,受益匪浅。
最近随手翻了下,发现其他章节的内容也干货十足,堪称机器学习的实践范本,索性一口气读完。
希望通过阅读,了解1.在美团的业务场景下,NLP/推荐/搜索落地的应用思路。 2.策略算法的思维框架
6.POI实体链接
美团的到店业务,是基于一个个POI实体展开的服务,如何保证POI实体的信息质量稳定、完整、优质,是保证业务流程性的基础核心点。
6.1 背景与难点
难点:
- 业务规模庞大,业务种类多,在这个背景下,如何保证 POI实体 间1V1、1VN的正确关系
主要思路:
- 通过聚类的方式进行POI聚合
- 通过建立索引的方式缩小比较候选集
问题转化为,如何计算两个POI间的相似度;如何确定候选集范围。
6.2 国内酒店POI实体链接解决方案
如何计算两个POI间的相似度
step1
梳理所有和POI相关的信息维度。
step 2
确认特征维度
从业务角度看,找寻一家酒店,不可或缺的信息是:
名称、地址、电话、经纬度
step 3
特征生成
- 名称解析模块:分词,解析出<城市+品牌+酒店类型>。
- 地址解析模块:从酒店地址中,抽取出省、市行政区、接到、所在楼层、对应地标等关键信息。
- 电话解析模块:通过规则与正则匹配的方式,解析出国家码、区域码、号码本体以及分机号码等组成。
- 经纬度解析模块:计算两个经纬度之间的距离,结果做为特征。
通过分词、字符串相似、规则、正则匹配等方式,解析所需要的信息,生成特征。
6.3 其他场景的策略
景点POI链接:因为景点POI和酒店的特点不同,例如多个电话、地址写法混乱导致解析效果差等,需要调高POI名称的权重并且增大索引颗粒度。
7.评论挖掘
用户更倾向于看到或者听到同类用户的亲身体验以及自身反馈,例如购买过同类产品的用户的评价,对比使用过同类用户的亲身体验及自身反馈。
整体的挖掘可以分为三个步骤:
- 定义挖掘的粒度
- 定义挖掘的维度
- 整合
7.1 挖掘的粒度
对社交网络或者在线电商,评论描述仅针对单条信息或者单个商品,那么,对于商品粒度的评价体系进行挖掘,理应成为业界的关注焦点。
美团因业务不同,更关注对于POI的描述,及关注对酒店的描述大于对酒店一类房型的描述。
因此,最终评论颗粒度定位在POI粒度。
7.1.2 评论挖掘的维度
在明确了评论挖掘的颗粒度后,我们需要对评论挖掘的维度进行阐述,也就是通常所说的标签维度。
同样称为标签,评论挖掘的中的标签与用户画像中的标签却有很多不同之处。最明显的差异在于,用户画像中的标签是对C端用户进行属性挖掘和行为构建,而评论挖掘中的标签则是对B端商家进行硬件侧面的挖掘和服务层面的判定。
7.1.3 评论挖掘的整合思考
7.2 评论标签的提取
10.推荐在O2O场景中的应用
10.2 O2O推荐场景的特点
以美团移动端推荐为例,O2O推荐场景与其他推荐的区别具体包括如下三点:
- 地理位置因素,特别是对于美食、酒店、外卖等业务,用户倾向于使用附近商家的服务。
- 用户历史行为,新闻或者资讯推荐,用户看了一遍就不看了,与新闻推荐不同,一家味道好的店,用户可能会反复光顾,从具体数据看的,大量用户会产生重复点击和重复购买行为。
- 实时推荐,一是地理位置,推荐需要考虑用哪个胡的实时位置,二是O2O场景的即时消费性,例如美食、外卖、电影等都是高频消费,用户从考虑到最终下单时间非常短,所以推荐必须要实时,并且根据用户的实时反馈调整推荐内容。
10.3 美团推荐系统框架图
10.4 美团推荐实践-推荐召回
- 基于协同过滤的召回
- 基于位置的召回
- 基于搜索查询的召回
- 基于图的召回
- 基于实时用户行为的召回
- 替补策略,冷启动,热销单、好评单、城市单