目的:希望自己能够通过数学,财务,计算机技书,能看到不一样的世界。此次为第一篇,以后会不定期带来通过数学分析来建模,看到不一样的世界。我本人是对计算机,税务相当感兴趣的人,所以的分析手段都是通过看论文得到的,如果你有什么很好的建议或者想做这个,可以联系我,qq:1421074836
1.准备工作
1.1 数据准备
从国家税务总局法规库收集到法规:4827
1.2 算法介绍
算法的选取直接造成结果的不一样,以及细微的差距。首先我们先了解二种算法:TFIDF与textrank,我们并用这二种算法在提取关键字的效果进行分析
1.2.1 TF-IDF数学表达
TF=(词语在文章中出现的此处)/(文章总词数)
IDF=log(词料库文档总数)/(包含该次的文档数+1)
TF-IDF=TF*IDF(最终值)
1.2.2 textrank数学表达
TextRank用于关键词提取的算法如下:
1)把给定的文本T按照完整句子进行分割,即
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中 ti,j 是保留后的候选关键词。
3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
4)根据上面公式,迭代传播各节点的权重,直至收敛。
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
6)由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
2. 具体实现
2.1 对第一篇法规进行提取关键字进行分析
约定规则:对同一法规取十个关键字,我习惯叫做价值保留三位
法规名称:中国银行保险监督管理委员会 中华人民共和国财政部 中华人民共和国人力资源和社会保障部 国家税务总局关于印发《个人税收递延型商业养老保险产品开发指引》的通知
textrank结果:产品 1.0,保险公司 0.919,参保 0.723,养老保险 0.56,领取 0.5075562509675344,保险 0.507,收取 0.400,账户 0.388,机能 0.368,收益 0.358
TF-IDF结果:参保 0.264,保险公司 0.237,养老 0.222,领取 0.216,产品 0.194,养老保险 0.161,给付 0.130,税延 0.1188,递延 0.1138,保险合同 0.104
从对一篇的法规分析我们可以得到 TF-IDF在一定的层次上优于TextRank,
2.0 对所以法规进行提取关键字
约定规则:每篇文章只提取价值最高的前十个关键字,统计所有关键字提取前十个
2.1运用TF-IDF:
统计结果为:企业, 1495,国家税务总局, 1060,所得税, 915,增值税, 865,税务机关, 720,纳税, 540,纳税人, 536,通知, 418,出口, 404,营业税, 369
生成的饼状图为:
2.2运用textrank得到的关键字饼状图:
统计结果:企业, 2260,所得税, 916,规定, 900,增值税, 893,有关, 767,通知, 636,纳税, 597,税务机关, 568,问题, 521,废止, 513
3. 结论
二种算法都不是很完善当都从侧面反映了一下问题,如果你对税务法规感兴趣的话,你可以发现问题所在。如果你对这个这些感兴趣的话-可以去应用市场下载下《丁香税通》我独自开发的一个小的app,我会第一时间在那个app里面发布最新的分析结果。
4.最后
所有的分析结果都是仁者见仁智者见智,所以不必纠结结果,应该关注数据分析给我们带来的新理解,新天地。