实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。
这边和大家说一下,我没有上传数据的原因有两个:
- 涉及公司的数据财产,不方便上传
- 懒得做脱敏处理
- 数据一共有1300多万条,传输实在不方便
主要数据处理的部分在map_id_idx.py脚本下,其中包含all_item_20180624.txt和click_thirty_day_data_20180609.txt两个数据集合。
其中,all_item_20180624.txt是当日所有的商品集合:包含'Prd_Id', 'ItemId', 'BrandId', 'MsortId'和‘GenderId'五列,分别代表着商品id,skuid,低级品牌id,中级品牌id,产品性别,最后形如:
5675 50000055 175 1500 3
2577 50000056 187 66 3
2002 50000057 63 11 2
2007 50000058 137 58 3
2075 50000060 80 50 3
2348 50000061 138 16 2
423 50000062 162 237 3
469 50000063 10 1500 3
1102 50000064 176 11 1
1896 50000066 37 27 1
2489 50000067 27 44 1
...
click_thirty_day_data_20180609.txt为近三十天的用户点击流,包含'UId', 'ItemId', 'clickTime'三列,分别代表着uid、点击的skuid,点击时间,最后形如:
34 51668064 1528602406
34 51890512 1528788389
34 51884724 1528788393
34 51884720 1528788399
34 51884718 1528788414
34 51580974 1528788442
34 51854970 1528788487
34 51514910 1528788499
34 51855000 1528788535
34 51854990 1528788569
34 51854998 1528788572
...
通过map_id_idx.py对所有的商品进行标序号,然后带入用户的点击流中,方便后期做embedding操作,就酱。
欢迎大家关注我的个人bolg,知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。