作者:高扬
在电商领域浸淫多年,近期有空对这些年的实践经历做些整理,唠叨唠叨我们遇到的问题和用到的技术解决方案,欢迎同行交流。
PS:封面图跟本文没有任何卵关系,纯粹个人喜欢……
导购领域的发展
随着经济不断发展,人们对消费品质要求也水涨船高,也更加个性化。线下实体的陈列空间是有限的,网上陈列空间是无限的,所以这十多年来,电子商务一直处于蓬勃发展之中。
海量商品,虽然极大丰富了的选择,但也让你挑花了眼,经常会被坑爹……所以,这就有了导购的生存土壤。导购,故名思议,引导购物,本质上是一个信息过滤器,针对个人的需求和喜好,将海量商品过滤成有限选择,减轻挑选成本。
如果把网上商品库比喻成一个西瓜,导购就是切西瓜的刀,一个特定的角度切入,就是一个导购方向。举个栗子:
早期的购物搜索、购物推荐是最早的导购形态,让用户自助寻找想买的商品;
折800,聚划算,9块9包邮,什么值得买等,是以价格角度切入;
美丽说、蘑菇街是以女性时尚角度切入;
chiphell,knewone是以男性原创晒单角度切入……
只要网上的商品信息保持持续增长,信息过滤、商品挑选的用户痛点也会日益增加,导购需求就会永远存在。
个性精准导购,对技术要求较高,需要用到搜索,推荐,机器学习等多个领域技术。
导购离钱近,可很快有现金流,属于“自我造血型”业务,在这个资本寒冬里,是一个不错的选择。
做好导购,未来可演化成垂直电商平台,发展前景广阔,美丽说、蘑菇街是成功案例。
说那么多废话,我就是想简单讲一下分词
为了有效的给用户推荐商品,首先要理解用户需求和商品,这两者的精准刻画都离不开分词。
我们这里说的分词是指中文分词,指的是将一个汉字序列切分成一个一个单独的词。这是中文特有的问题(英文有空格可以天然分隔),需要进行一些技术处理。
通用的分词算法可分三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。这里不展开详述,大家可以自行百度,这三个分词流派我们都用上了。
在实践过程会发现,无论哪种方法,都保证不了100%的召回率和准确率,技术同学通常面临这样一个难题:召回率83%,准确率91%,想进一步提高准确率,就很难保持召回率不降低,怎么破?!
这时候,你需要词典了。
购物分词优化到后期,基本就是词典的优化过程。
词典是一个扩展集合,用于保存预先分好的词,每一个词要标注词性。词性,就是词的性质,是对一个词的进一步解释,比如“D100”在词性是“系列”,“尼康”的词性是“品牌”。(词条,词性)组合,可以保存对应的领域知识。
再列举一些我们用到的词性
核心词:如品牌,型号,系列,商品名等
修饰词:如颜色,材质,风格等
Stopword:无意义的词,如包邮,淘宝热卖等
我们词典的最大特点是基于分类的,也就是说,词典中每一个词的词性并不是唯一性确定的,在不同类目下有不同的词性含义。目前我们维护的电商分类是数千个节点,深度为4的树形结构,常见的分类有手机,连衣裙,膨化食品……
这是我们一个词条的印象,大家感觉一下。
下面是我们设计的词条数据结构。
我们词条的词性是基于分类的。
词条的组织形式是分形的,可递归,父词条结构和词条是一样的。
这是词性维度的数据结构,也是基于分类的。
最终,我们通过词条关系的构建,搭建成如上类目属性库,在各种商品文本处理场景中使用。
那么问题来了,那么多品牌词,类目词,修饰词都是从哪里来的呢?
答:从大数据里面来。
通过海量商品文本数据,我们对文本中,相邻的keyword建立起概率链模型,如果两个keyword经常一起出现,同时词条库里面还没有,那很可能是一个新词。这时候,人工介入标注,更新词条库。日积月累,词条库会越来越强大!
最后,我们的购物分词系统,就演化成介个酱紫的。