目前的知识体系太碎片,不足以支撑一个完整的研究。
把当前接触到的一些概念记录一下:
文本摘要(核心问题)
文本(code 片段?)
Q1. code 片段怎么来(现有数据集);
所以怎么处理这些 代码片段(结构化文本+纯语义内容);
Q2. 片段大小(长文本还是短文本)
需要去看文章试下水;
Q3. 现有的方法模型(我怎么去创新、idea怎么来???)
生成式摘要:输出的内容不局限于原文出现的句子;
抽取式摘要: 从原文中抽取体现能够主题思想的句子。
稍微新的技术 bert (需要稍微系统性地学下)在上述两者的中应用??
to do(后续完善,需要了解的东西有点多!)
代码摘要做不了就去做(bug定位)~
目前主要任务在于(学习NLP地模型基础,看文献!!)