数学分析-税务法规关键字提取分析

            目的:希望自己能够通过数学,财务,计算机技书,能看到不一样的世界。此次为第一篇,以后会不定期带来通过数学分析来建模,看到不一样的世界。我本人是对计算机,税务相当感兴趣的人,所以的分析手段都是通过看论文得到的,如果你有什么很好的建议或者想做这个,可以联系我,qq:1421074836

1.准备工作

1.1 数据准备

        从国家税务总局法规库收集到法规:4827

1.2  算法介绍

        算法的选取直接造成结果的不一样,以及细微的差距。首先我们先了解二种算法:TFIDF与textrank,我们并用这二种算法在提取关键字的效果进行分析

1.2.1 TF-IDF数学表达

            TF=(词语在文章中出现的此处)/(文章总词数)

            IDF=log(词料库文档总数)/(包含该次的文档数+1)

            TF-IDF=TF*IDF(最终值)

1.2.2 textrank数学表达

TextRank用于关键词提取的算法如下:

  1)把给定的文本T按照完整句子进行分割,即

        2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中 ti,j 是保留后的候选关键词。

  3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

  4)根据上面公式,迭代传播各节点的权重,直至收敛。

  5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。

  6)由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

公式

2. 具体实现

2.1 对第一篇法规进行提取关键字进行分析

        约定规则:对同一法规取十个关键字,我习惯叫做价值保留三位

        法规名称:中国银行保险监督管理委员会 中华人民共和国财政部 中华人民共和国人力资源和社会保障部 国家税务总局关于印发《个人税收递延型商业养老保险产品开发指引》的通知

        文号:银保监发〔2018〕20号

        textrank结果:产品 1.0,保险公司 0.919,参保 0.723,养老保险 0.56,领取 0.5075562509675344,保险 0.507,收取 0.400,账户 0.388,机能 0.368,收益 0.358

        TF-IDF结果:参保 0.264,保险公司 0.237,养老 0.222,领取 0.216,产品 0.194,养老保险 0.161,给付 0.130,税延 0.1188,递延 0.1138,保险合同 0.104

        从对一篇的法规分析我们可以得到 TF-IDF在一定的层次上优于TextRank,

2.0 对所以法规进行提取关键字

        约定规则:每篇文章只提取价值最高的前十个关键字,统计所有关键字提取前十个

2.1运用TF-IDF:

        统计结果为:企业, 1495,国家税务总局, 1060,所得税, 915,增值税, 865,税务机关, 720,纳税, 540,纳税人, 536,通知, 418,出口, 404,营业税, 369

生成的饼状图为:


TF-IDF关键字统计

2.2运用textrank得到的关键字饼状图:

        统计结果:企业, 2260,所得税, 916,规定, 900,增值税, 893,有关, 767,通知, 636,纳税, 597,税务机关, 568,问题, 521,废止, 513


textrank关键字统计

3. 结论

        二种算法都不是很完善当都从侧面反映了一下问题,如果你对税务法规感兴趣的话,你可以发现问题所在。如果你对这个这些感兴趣的话-可以去应用市场下载下《丁香税通》我独自开发的一个小的app,我会第一时间在那个app里面发布最新的分析结果。

4.最后

         所有的分析结果都是仁者见仁智者见智,所以不必纠结结果,应该关注数据分析给我们带来的新理解,新天地。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容

  • 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信...
    atLee阅读 22,066评论 8 46
  • 想要提取一篇文章的 关键词 ,最直接的思维方式就是出现的越频繁的词就意味着越重要,但停用词需要除外。一篇文章中出现...
    南极有条沙丁鱼阅读 3,337评论 0 5
  • 关键词是指能反映文本主题或者主要内容的词语。关键词提取是NLP领域的一个重要的子任务。在信息检索中,准确的关键词提...
    binzeng阅读 9,845评论 0 6
  • 本文一步步为你演示,如何用Python从中文文本中提取关键词。如果你需要对长文“观其大略”,不妨尝试一下。 需求 ...
    王树义阅读 60,751评论 28 127
  • 1 五一小长假过去两天了,北京连续两天有霾,还柳絮、杨絮漫天飞,今天一天还特闷热,一点出门的心思都没了。 仙儿哥在...
    孙晓丽阅读 323评论 0 0