销售汽车行业偷税单位识别

背景及挖掘目标

企业做假账偷税漏税的行为普遍存在,汽车行业通过“多开发票”、“做双份报表”、“减少支出”等方式进行偷漏税。随着企业偷漏税现在泛滥,也影响国家经济基础。通过数据挖掘能自动识别企业偷漏税行为,提高稽查效率减少经济损失。
汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。样本数据提供了汽车销售行业纳税人的各种属性和是否偷漏税标识,提取纳税人经营特征可以建立偷漏税行为识别模型。

步骤

1 数据读取
数据如下


数据展示
import pandas as pd
data =pd.read_excel('data.xls',index_col=u'纳税人编号')#读取数据
print (data.head())#查看前5个

2 数据探索

前两列数据分布情况
import matplotlib.pyplot as plt#数据探索
plt.rcParams['font.sans-serif']=['SimHei']#图标可识别中文
plt.rcParams['axes.unicode_minus']=False
fig,axes=plt.subplots(1,2)
fig.set_size_inches(12,4)
ax0,ax1=axes.flat
data[u'销售类型'].value_counts().plot(kind='barh',ax=ax0,title=u'销售类型分布情况')
data[u'销售模式'].value_counts().plot(kind='barh',ax=ax1,title=u'销售模式分布情况')
print (data.describe().T)

3 数据预处理,将前两列转换成数字

data[u'输出']=data[u'输出'].map({u'正常':0,u'异常':1})
data[u'销售类型']=data[u'销售类型'].map({u'国产轿车':1,u'进口轿车':2,u'大客车':3,u'卡车及轻卡':4,u'微型面包车':5,u'商用货车':6,u'工程车':7,u'其它':8})
data[u'销售模式']=data[u'销售模式'].map({u'4s店':1,u'一级代理':2,u'二级及二级以下代理':3,u'多品牌直营店':4,u'其它':5})

4 数据划分并按照train:test为4:1划分

#数据划分4:1
from sklearn.cross_validation import train_test_split
p=0.2
data=data.as_matrix()
from random import shuffle
shuffle(data)
train_x,test_x,train_y,test_y=train_test_split(data[:, :14],data[:, 14],test_size=p)
shu
#解决ValueError: Input contains NaN, infinity or a value too large for dtype('float32').
from sklearn.preprocessing import Imputer
train_x = Imputer().fit_transform(train_x)
test_x = Imputer().fit_transform(test_x)

5 决策树模型并输出混淆矩阵

#CART决策树
from sklearn.tree import DecisionTreeClassifier #导入决策树模型
from sklearn.metrics import confusion_matrix #导入混淆矩阵函数
from sklearn.externals import joblib
tree=DecisionTreeClassifier(criterion='entropy',max_depth=3)
tree.fit(train_x,train_y)#训练模型 
#输出混淆矩阵
cm = confusion_matrix(train_y, tree.predict(train_x)) #混淆矩阵
import matplotlib.pyplot as plt #导入作图库
plt.matshow(cm, cmap=plt.cm.Greens) #画混淆矩阵图,配色风格使用cm.Greens,更多风格请参考官网。
plt.colorbar() #颜色标签
for x in range(len(cm)): #数据标签
  for y in range(len(cm)):
    plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
plt.ylabel('True label') #坐标轴标签
plt.xlabel('Predicted label') #坐标轴标签
plt.show() #显示作图结果
#保存模型方法一
tree_file='tree.pkl'
joblib.dump(tree,tree_file)
#保存模型方法二
from sklearn.tree import export_graphviz
export_graphviz(tree,'F:/out')
混淆矩阵

决策树图

6 LM神经网络

from keras.models import Sequential#导入神经网络初始函数
from keras.layers.core import Dense,Activation#导入神经网络层函数及激活函数 
from keras.applications import imagenet_utils
net_file='net.model'
net=Sequential()#建立神经网络
net.add(Dense(10,input_shape=(14,)))#添加输入层(14节点)到隐藏层(10节点)的连接
net.add(Activation('relu'))#设置激活函数
net.add(Dense(1,input_shape=(10,)))#10*1层函数
net.add(Activation('sigmoid'))#激活函数
net.compile(loss='binary_crossentropy',optimizer='adam')#,class_mode="binary"
net.fit(train_x,train_y,nb_epoch=1000,batch_size=10)#训练模型循环一千次
#net.save_weights(net_file)

predict_result=net.predict_classes(train_x).reshape(len(train_x))
#输出混淆矩阵
cm = confusion_matrix(train_y,predict_result) #混淆矩阵
import matplotlib.pyplot as plt #导入作图库
plt.matshow(cm, cmap=plt.cm.Greens) #画混淆矩阵图,配色风格使用cm.Greens,更多风格请参考官网。
plt.colorbar() #颜色标签
for x in range(len(cm)): #数据标签
  for y in range(len(cm)):
    plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
plt.ylabel('True label') #坐标轴标签
plt.xlabel('Predicted label') #坐标轴标签
plt.show() #显示作图结果
LM神经网络模型结果的混淆矩阵

7 结果评价 ROC曲线

#模型评价
from sklearn.metrics import roc_curve#导入roc函数

#LM模型评价

predict_result=net.predict(test_x).reshape(len(test_x))
print(predict_result)
fpr,tpr,thresholds=roc_curve(test_y,predict_result,pos_label=1)
plt.plot(fpr,tpr,linewidth=2,label='ROC of LM')#绘制ROC曲线
plt.xlabel('False positive Rate')
plt.ylabel('True positive Rate')
plt.xlim(0,1.05)
plt.ylim(0,1.05)
plt.legend(loc=4)#设定图例位置
plt.show()


#CART模型评价
fpr,tpr,thresholds=roc_curve(test_y,tree.predict_proba(test_x)[:,1],pos_label=1)
plt.plot(fpr,tpr,linewidth=2,label='ROC of CHRT')#绘制ROC曲线
plt.xlabel('False positive Rate')
plt.ylabel('True positive Rate')
plt.xlim(0,1.05)
plt.ylim(0,1.05)
plt.legend(loc=4)#设定图例位置
plt.show()

print("Train score:%f"%(tree.score(train_x,train_y)))
print("test score:%f"%(tree.score(test_x,test_y)))

两个模型的ROC曲线,面积越大表现越好

总结:感谢简杨君的参考,在参考中也遇到很多问题,一步一步来,完成了第一个实验,参考如下http://www.jianshu.com/p/5dbb818cd7b5

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容