机器学习的一个简单实际应用场景

文件推荐:让外部渠道过来的用户通过推荐算法浏览更多文件,放大导流效果。

模块1:记录行为数据

从浏览器过来的流量,每一个都要按照算法计算一个独立的id,以便区用户。

未登录情况:记录独立id,设备码,浏览器

已登录或来访后登录:合并uid和独立id


对流量做好标记后,详细记录用户访问行为数据。

包括:浏览时间,浏览设备,浏览项目,跳转项目,跳转次数,访问时长等


模块二:处理文件

将库内所有可解析的文件转化成TXT,这是预处理(称:向量化),将所有TXT变成一个大集合。

同一分类下的文件集合,词语会有非常高的重合度。

预先将重合度高的文件分到不同集合内,相当于对文件进行一次聚类。


1、当进来一个新文件,预处理过后,进行词语拟合;可以初步判定文件归属于哪一类。

2、当用户访问一个文件,我们可以在集合内调取相似度最高的几个文件,实时展示给用户,提高接受度。


这个模块的弊端是,很可能会针对用户的某一个兴趣反复推荐同一批文件给用户。

1、这里是否可以通过其他推荐方法,推荐除了这个兴趣以外的文件以保证结果多样性,从而探索用户的新兴趣?

2、对这个模块筛选出来的结果,应针对浏览行为进行排重,不用让用户阅读他已经看过的内容。


模块三:从用户到文件

模块一记录了用户的访问数据。可以认为,用户的“口味”在一定时间内是保持统一的。

那么,通过用户浏览行为可以智能补充模块二计算不出来的文件。


假设用户1和用户2浏览了8个相似文件,用户2额外浏览了2个文件。

此时,可以把用户2额外浏览的,推荐给用户1。

具体数值和规则都需要要测算和调整。

另外还要注意模块二和模块三之间的数据排重,用户浏览记录的排重。

数据量越大推荐结果越权威。


补充:以上模块中可参考的文本处理方法

局部敏感哈希(Locality-Sensitive Hashing, LSH)

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术

H5 FingerprintJS 浏览器指纹

Word2Vector  句子相似度

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容