2019-08-29工作进展

昨天工作:

  1. 将图片数据中不重要的剔除,剩下7000+w张商品图片,特征提取程序还在进行;
  2. 对dssm程序的训练集中负样本不合理的例子进行处理,比如query是连衣裙的话,而title的分词结果中如果有“连衣裙”这个词,那这条数据应该划分到正样本中,这样的例子在负样本中占比10%左右;使用处理后的数据进行模型的训练,inference结果:acc:0.75 auc:0.702 precision:0.93;acc结果是当前最优,但是auc和precision较之前最优结果要差一点;
  3. 准备转正答辩ppt

今天计划:
图片特征提取完毕之后进行mvdssm网络的训练

  1. 关键词法的结果:

inference_query : hs_dssm_dic_query_inf_7 - | query_id | query |
hs_dssm_dic_query_inf_11 : | id | query_emb |
inference_title : hs_dssm_dic_title_inf_10 - | item_id | title |
hs_dssm_dic_title_inf_14 : | id | title_emb |


hs_tmp_157 : | title_id | query_id |

create table hs_tmp_336 as select c., d.title from
(select a.
, b.query from hs_tmp_157 a join hs_dssm_dic_query_inf_7 b on a.query_id == b.query_id)c join hs_dssm_dic_title_inf_10 d on c.title_id == d.item_id;

create table hs_tmp_337 as select *, search_kg:alinlp_segment(hs_return_clean(title), "MAINSE", "0", "1") as title_seg, search_kg:alinlp_segment(hs_return_clean(query), "MAINSE", "0", "1") as query_seg from hs_tmp_336;

drop table hs_tmp_338;
yes
create table hs_tmp_338 as select hs_return_direct_score_2(title_id, query_id, query, title, title_seg, query_seg) as (title_id, query_id, query, title, title_seg, query_seg, score) from hs_tmp_337;

create table hs_tmp_339 as select * from hs_tmp_338 where score = 0;

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 尝试使用关键字对应的方式进行query和title的对应,可以得到非常准确的结果,关联到的query有8127条,...
    Songger阅读 41评论 0 0
  • 昨天工作:在dssm网络的基础上增加了self attention模块。构造训练测试数据。网络训练效果较修改前有所...
    Songger阅读 2,118评论 1 0
  • set odps.sql.mapper.split.size=1;昨天工作: 重新处理数据集,给一些重要的关键词,...
    Songger阅读 1,805评论 0 0
  • 昨天工作: inference:在相同规则采样的验证集的效果:在正负样本1:4的验证集上:acc:0.86 auc...
    Songger阅读 1,733评论 0 0
  • 考虑的问题:(1) 假如query就只有一个品类关键词,那么使用关键词替换这种方式就是不合理的,这种情况应该怎么办...
    Songger阅读 1,873评论 0 0

友情链接更多精彩内容