难点1:两只同领域的股票怎么建立联系
- (目前最可行)在某只股票的正面新闻、负面新闻链接到的页面中匹配该股票的竞争对手名称,如果匹配,返回该条新闻标题作为连接两只股票的节点
缺点:
如此建立的联系可能会很少,无关点与有关点的比率可能达到20:1,可视化十分不美观
需要对竞争对手名称进行处理,如"..省..市..有限公司",潜在工作量很大
-
存在错判,如果A的正面新闻中恰好是包含其竞争对手B的负面新闻,怎么识别?(potential solution:反向搜索,在B中寻A,然而对应否?)
- 在某只股票的正面新闻、负面新闻链接到的页面中匹配语义学句子。
如果匹配,返回该条新闻标题作为连接两只股票的节点
- 在某只股票的正面新闻、负面新闻链接到的页面中匹配语义学句子。
缺点:
- 语义学句子不是简单的"是","包括",而是...什么?
可以为"平安银行等","平安银行相关","平安银行及","平安银行之类的"
- svm等机器学习方法分类,但是缺乏相应的股票知识,维数怎么确定?
一个设想是以各种关键词为维数,01分类,但是这样好像又回到了语义学问题上。
- 自然语言处理技术,短期内能学会吗。(potential solution:找自然语言的API)
难点2:数据量过大
潜在问题,属于第二阶段