无监督多标签问题

记录一次没有解决方案的问题

最近接到一个任务,需要将两个有关系的数据进行关联,而我的任务就是找到这两个数据之间的关系。这两个数据都是文本数据,其中一个是不具有任何语义信息url,一个是用于给url做label的标注词。

数据介绍

 1、用户的访问记录,用户对每个url或者使用了某个接口的次数
 2、用户本身对应拥有的label标记

任务目的

计算url或者接口和label的对应关系,url和label的关系是不平衡的。

方法

我在最开始的时候本想借助聚类的方式进行数据的标签标注(软聚类),但是发现这种方式也只能将url分为两类,实际上我需要的是将url分成多种类别。

1. 先将url进行清洗,转换,表示

url本身是非常混乱的,虽然已经被清洗过一次,过滤掉了很多的静态的页面信息,但是依然有很多的杂乱无用的数据在里面需要清洗,然后将用户的访问记录反过来用户表示url,使用次数填充每一个值,类似于词频表示方式。

2、计算

这一步已经困扰我很久,暂时没有一个较好的解决方案
我再google了一段时间后发现有水论文的文章较多,或者是效果极差,F1值仅仅为15%不到,做法可分为以下几种

    1. 使用多重聚类的方式,对数据进行多次不同的聚类,但是根据作者的实验效果,并不是特别理想
    1. 完全忽悠的方式,通过对数据的多次实体提取,将实体关键字和标签进行相似度计算。这种式是对应文本处理的
      还有一些其他的方式还没有看完,待后续看完补充。

目前情况

目前我的做法还是通过统计学的方式对用户进行分类,在对url进行统计分析。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容