再出发

框架:

  1. 梳理已经完成的项目,挖掘项目中自己的成长点&项目的亮点&难点,理清项目的背景、意义,待优化点。
  2. 确定自己面试的方向,搜广推,扩展学习基础知识。
  3. 列出第一、二、三阶段面试的公司,第一阶段是用来练手的,第二阶段是中厂保底的,第三阶段是想去的,然后在boss直聘上开始找合适的岗位海投
  4. 想好官方可接受的离职原因,对下份工作的期待,对自己未来3-5年成长的规划想好自己的优势、劣势,如何在面试中扬长避短
  5. 适当[刷题]

准备

1)项目及扩展
项目过程:背景、难点、收益、技术方案、亮点、待优化点
扩展:
2)通用机器学习类
https://www.jianshu.com/p/1b49317beb6b
3)leetcode

项目:

1)实体链指
2)实体识别
3)实体归一
4)文本分类
1) 数据分析:
1)样本量分布
2)长度分布
3)token分布:

2)token分析:

机器学习深度研究:特征选择中几个重要的统计学概念

文本建模常用的预处理方法——特征选择方法(CHI和IG)

过滤法(Filter):方差Var,卡方chi,F检验ANOVA。先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。

方差var:无法区分各类,只分析整体。每个token的重要度(tf-idf)方差大,说明该token按重要性在样本中分布不均匀,有区分度

卡方chi:

包装法(Wrapper):模型优层面。根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。

嵌入法(Embedding):树模型、线性模型。先使用机器学习模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。

3)数据量分布

4)其他特征的分布

 2)建模
 3)迭代:数据1)

5)特征建模:
1)特征分析
单特征核密度函数
特征重要性
2)GBDT
6)预训练模型:attendtion transformer bert albert albertiny charcnn

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容