统计特征IV值算法实现demo

import numpy as np

from math import log

from math import e

import os,sys

reload(sys)

sys.setdefaultencoding('utf-8')

#获取数据并以列表的形式返回

def achieve_data(path):

    feaValue_list = []

    if os.path.isdir(path):

        file_list = os.listdir(path)

        for f in file_list:

            if f.endswith('.txt'):

                fea_array = np.genfromtxt(path+'\\'+f,dtype= float)

            feaValue_list.extend(fea_array)

    return feaValue_list


#计算每个特征的分组临界值点,这里分为4组。

def cal_stage_vlaue(sample_list):

    all_fea_step = []

    sample_array_len = len(sample_list)

    step_num = sample_array_len/4

    stepValue1 = stepValue2 = stepValue3 = stepValue4 = 0

    fea_num = len(sample_list[0])

    sample_array = np.array(sample_list)

    for i in range(0,fea_num):

        col_arg = np.argsort(sample_array[:,i])

        col_arg_array = sample_array[col_arg]

        stepValue1 = col_arg_array[step_num][i]

        stepValue2 = col_arg_array[2*step_num][i]

        stepValue3 = col_arg_array[3*step_num][i]

        stepValue4 = col_arg_array[-1][i]

        one_fea_step = [0,stepValue1,stepValue2,stepValue3,stepValue4]

        all_fea_step.append(one_fea_step)

    return all_fea_step

#计算每个特征的不同分组情况下,黑白样本分别覆盖的数量

def cal_proportion(stage_array,white_list,black_list):

    fea_num = len(stage_array)

    all_fea_pro_list = []

    for i in range(fea_num):

        white_count = len(white_list)

        white_num_1 = white_num_2 = white_num_3 = white_num_4 = 0

        for j in range(white_count):

            if white_list[j][i] >= stage_array[i][0] and white_list[j][i] < stage_array[i][1]:

                white_num_1 = white_num_1+1

            elif white_list[j][i] >= stage_array[i][1] and white_list[j][i] < stage_array[i][2]:

                white_num_2 = white_num_2+1

            elif white_list[j][i] >= stage_array[i][2] and white_list[j][i] < stage_array[i][3]:

                white_num_3 = white_num_3+1

            elif white_list[j][i] >= stage_array[i][3] and white_list[j][i] <= stage_array[i][4]:

                white_num_4 = white_num_4+1

            else:

                pass

        white_fea_pro_list = [white_num_1,white_num_2,white_num_3,white_num_4]

        black_count = len(black_list)

        black_num_1 = black_num_2 = black_num_3 = black_num_4 = 0

        for k in range(black_count):

            if black_list[k][i] >= stage_array[i][0] and black_list[k][i] < stage_array[i][1]:

                black_num_1 = black_num_1 + 1

            elif black_list[k][i] >= stage_array[i][1] and black_list[k][i] < stage_array[i][2]:

                black_num_2 = black_num_2 + 1

            elif black_list[k][i] >= stage_array[i][2] and black_list[k][i] < stage_array[i][3]:

                black_num_3 = black_num_3 + 1

            elif black_list[k][i] >= stage_array[i][3] and black_list[k][i] < stage_array[i][4]

                black_num_4 = black_num_4 + 1

            else:

                pass

        black_fea_pro_list = [black_num_1, black_num_2, black_num_3, black_num_4]

        one_fea_pro_list = []

        one_fea_pro_list.append(black_fea_pro_list)

        one_fea_pro_list.append(white_fea_pro_list)

        all_fea_pro_list.append(one_fea_pro_list)

    #print all_fea_pro_list

    all_fea_pro_list = fix_pro(all_fea_pro_list)

    return all_fea_pro_list


#这里是人工处理黑白样本在分组中覆盖数量为0的情况。

def fix_pro(pro_list):

    num1 = len(pro_list)

    for i in range(num1):

        num2 = len(pro_list[i])

        for j in range(num2):

            num3 = len(pro_list[i][j])

            for k in range(num3):

                if pro_list[i][j][k] == 0:

                    pro_list[i][j][k] = 1

    return pro_list


#计算每个特征的IV值

def cal_IV(propor_array):

    propor_array_count = len(propor_array)

    IV_list = []

    for i in range(propor_array_count):

        pro_part_array = propor_array[i].T

        print pro_part_array

        black_sum,white_sum = pro_part_array.sum(axis=0)

        print black_sum,white_sum

        DB1 = float(pro_part_array[0][0])/ float(black_sum)

        DB2 = float(pro_part_array[1][0])/ float(black_sum)

        DB3 = float(pro_part_array[2][0])/ float(black_sum)

        DB4 = float(pro_part_array[3][0])/ float(black_sum)

        DG1 = float(pro_part_array[0][1])/ float(white_sum)

        DG2 = float(pro_part_array[1][1])/ float(white_sum)

        DG3 = float(pro_part_array[2][1])/ float(white_sum)

        DG4 = float(pro_part_array[3][1])/ float(white_sum)

        IV1 = (DG1-DB1) * log(float(DG1/DB1),e)

        IV2 = (DG2-DB2) * log(float(DG2/DB2),e)

        IV3 = (DG3-DB3) * log(float(DG3/DB3),e)

        IV4 = (DG4-DB4) * log(float(DG4/DB4),e)

        IV = IV1+IV2+IV3+IV4

        IV_list.append(IV)

    return IV_list

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容