2019-08-30工作进展

昨天工作:

  1. 尝试使用关键字对应的方式进行query和title的对应,可以得到非常准确的结果,关联到的query有8127条,商品有18.8w条,结果在hs_tmp_339中。分析:
    (1)有2496条query关联到的商品超过90条,这些query与商品的关联完全可以通过这种方式来进行。
    (2)4345条query对应的商品数量超过30条,这些query可以通过这种方式得到最相近的title,可以通过dssm的方式对结果进行补充。
    (3)其他的query只能使用神经网络的方式进行对应。
  2. 使用ugc数据进行inference的部分结果在hs_tmp_345中。有很多bad case,可能需要在inference之前使用类目过滤等方式进行一下预处理。
  3. 图片feature还在提取中。

今天计划:
完善转正答辩ppt

  1. 这个bad case的原因:
    CHICYOU黑白两色吊带不规则V领包臀显瘦性感经典修身连衣裙小黑裙
    206835022540

select * from jl_jingyan_query_related_video_pool where where ds=max_pt('tbcdm.dim_tb_itm_image') and id = 206835022540;

create table hs_tmp_315 as select item_id, concat('https://img.alicdn.com/imgextra/',image_url) as url, image_position, type from tbcdm.dim_tb_itm_image where ds=max_pt('tbcdm.dim_tb_itm_image');

  1. 调参

pai -name tensorflow140 -Dscript="file:///home/hengsong/origin_deep_cluster_odps_8.tar.gz" -DentryFile="inference_v10.py" -Dcluster='{"worker":{"count":1, "cpu":200, "memory":4000}, "ps":{"count":1, "cpu":200, "memory":5000}}' -DuseSparseClusterSchema=True -DenableDynamicCluster=True -Dtables="odps://graph_embedding/tables/hs_train_data_dssm_v2_7,odps://graph_embedding/tables/hs_test_data_dssm_v2_7,odps://graph_embedding/tables/hs_tmp_267" -Doutputs="odps://graph_embedding/tables/hs_dssm_result_5" -DcheckpointDir="oss://bucket-automl/hengsong/?role_arn=acs:ram::1293303983251548:role/graph2018&host=cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--learning_rate=3e-4 --batch_size=1024 --is_save_model=True --attention_type=1 --num_epochs=1 --ckpt=hs_ugc_video_2e_4.ckpt" -DuseSparseClusterSchema=True;

1 : 20190830115537491g7b0nvyi2
3 : 20190830095434608g43s7hfj2

  1. mv-dssm

pai -name tensorflow140 -Dscript="file:///home/hengsong/origin_deep_cluster_odps_8.tar.gz" -DentryFile="train_mv_dssm_v3.py" -Dcluster='{"worker":{"count":1, "cpu":200, "memory":4000}, "ps":{"count":1, "cpu":200, "memory":5000}}' -DuseSparseClusterSchema=True -DenableDynamicCluster=True -Dtables="odps://graph_embedding/tables/hs_train_data_dssm_v2_8,odps://graph_embedding/tables/hs_test_data_dssm_v2_8,odps://graph_embedding/tables/hs_tmp_267" -Doutputs="odps://graph_embedding/tables/hs_dssm_result_5" -DcheckpointDir="oss://bucket-automl/hengsong/?role_arn=acs:ram::1293303983251548:role/graph2018&host=cn-hangzhou.oss-internal.aliyun-inc.com" -DuserDefinedParameters="--learning_rate=3e-4 --batch_size=1024 --is_save_model=True --attention_type=1 --num_epochs=1 --ckpt=hs_ugc_video_2e_4.ckpt" -DuseSparseClusterSchema=True;

20190903024511564gmmpvvyi2

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 考虑的问题:(1) 假如query就只有一个品类关键词,那么使用关键词替换这种方式就是不合理的,这种情况应该怎么办...
    Songger阅读 296评论 0 0
  • 哪些图片需要保留?image_position > 0 and image_position < 6 and ty...
    Songger阅读 589评论 0 0
  • mvdssm训练集生成 pai -name tensorflow140 -Dscript="file:///hom...
    Songger阅读 141评论 1 0
  • graph_embedding.jl_jingyan_query_related_top_query_detail...
    Songger阅读 435评论 0 0
  • 在前端开发界中火得一塌糊涂的模块化开发工具webpack已经出到4.x以上的版本了。趁今天有时间安装了这个工具。由...
    wx_时见阅读 900评论 0 1

友情链接更多精彩内容