sklearn中逻辑回归(1.1.11)的实现

http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

参数:
1、penalty : str, ‘l1’ or ‘l2’, default: ‘l2’用来指定惩罚项。当solvers为‘newton-cg’,‘sag’和‘lbfgs’只支持l2惩罚项。在0.19版本中,solvers为SAGA时,惩罚项为l1 (允许‘multinomial’ + L1)。

2、dual : bool, default: False。双重的或者原始的公式。双重的公式(dual=True),仅适用于liblinear求解器(solvers为liblinear)惩罚项为l2(penalty =l2)这种情况。当n_samples > n_features时,dual=False。言下之意就是保持它为默认值false不要改了。

3、tol : float, default: 1e-4,迭代停止条件。

4、C : float, default: 1.0,反正则化的强度。必须是一个float型正数。就像支持向量机一样,更小的值指定了更强的正则化。

5、fit_intercept : bool, default: True,指定是否在决策函数中添加一个常数(即偏差或者截距)。

6、intercept_scaling : float, default 1,仅当 “solvers=liblinear” 且 “fit_intercept=True” 时才有用。在这种情况下,x变成了[x, self.intercept_ scaling] ,也就是说,一个具有常数值的“合成”特性等于intercept_scaling,附加到实例向量中。截距变成了intercept_scaling * synthetic_feature_weight。
注意:合成的特征权重和其他特征一样,都服从与l1/l2正则化。为了减少正则化对合成特征权重的影响,intercept_scaling必须增强。

7、class_weight : dict or ‘balanced’, default: None,字典型或者“balanced”,默认None。权重和类别在{class_label: weight}这种形式上有联系,如果没有给出,所有类别的权重都是1。
“balanced”模式,利用y值自动调整权重,和输入数据的类别的频率成反比。n_samples / (n_classes * np.bincount(y))。
请注意,如果指定了sample_weight,这些权重将会和sample_weight相乘(通过fit方法)。
在0.17版中,class_weight=’balanced’

8、random_state : int, RandomState instance or None, optional, default: None,随机种子。当solver ==‘sag’or‘liblinear’时才有用。

9、solver : {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’},default: ‘liblinear’优化问题中使用的算法。
1>对于小数据及来说,‘liblinear’是个不错的选择,相反’sag’和 ‘saga’对于大数据集来说更快。
2>对于多分类问题,只有‘newton-cg’, ‘sag’, ‘saga’和‘lbfgs’ 可以处理多项损失。‘liblinear’仅限于one-versus-rest方案。
3>‘newton-cg’,‘lbfgs’and‘sag’只能处理L2损失,‘liblinear’ 和‘saga’只能处理L1损失。
请注意,“sag”和“saga”的快速收敛只在各个特征的数值范围差不多的情况下才能得到保证。

10、max_iter : int, default: 100,仅在solver取值为 newton-cg, sag and lbfgs时,才起作用。使得solver收敛的最大迭代次数。

11、multi_class : str, {‘ovr’,‘multinomial’}, default:‘ovr’,多分类的选项可以是ovr或者multinomial。如果选择“ovr”,那么每个label都被拟合为一个二分类问题。如果选择“multinomial”,那么最小损失,是整个概率分布拟合的多项式损失。对“solver=liblinear”不起作用。

12、verbose : int, default: 0,对于solver=liblinear/lbfgs,可以设置任意一个正数作为冗长因子。

13、warm_start : bool, default: False,当设置为True时,重用上次调用的解决方案来作为拟合的初始值,否则,擦除前面的解决方案。对liblinear解算器不起作用。

14、n_jobs : int, default: 1,并行计算的CPU核数(仅当 multi_class=‘ovr’)。当solver=liblinear时,这个参数会被忽略,不论multi_class是否被指定,如果给值-1,那么将使用全部的核。

属性:
coef_ : array, shape (1, n_features) or (n_classes, n_features),决策函数中特征的系数,如果是二分类问题,coef_ 的shape是 (1, n_features)。

intercept_ : array, shape (1,) or (n_classes,),添加到决策函数中的截距(又称偏差),如果fit_intercept被设为False,则intercept_ 被设为0。如果是二分类问题,则intercept_的shape是(1,)

n_iter_ : array, shape (n_classes,) or (1, ),所有分类的实际迭代次数。

方法:
decision_function(X):预测样本的置信度得分。样本的置信分数是该样本与超平面的符号距离。

densify():将系数矩阵转换为密集的数组形式。将coef_的返回值转换成numpy.ndarray 的形式。这是coef_的默认格式,也是拟合所需要的格式。因此这个方法的调用,只能在被预先系数的模型上,否则是无效的。

fit(X, y[, sample_weight]),拟合。

get_params([deep]),得到估计函数的参数。

predict(X),预测。

predict_log_proba(X),估计函数的对数概率。返回的所有类别的估计值,是按照label的类别排序的。

predict_proba(X),估计概率。返回的所有类别的估计值,是按照label的类别排序的。

score(X, y, sample_weight=None),返回给定测试集的feature和label的平均正确率。

set_params(**params),给定估计函数的参数。

sparsify(),将系数矩阵转换为稀疏格式。

1、penalty,惩罚项l1,l2,acc会有轻微的变化,可以根据数据尝试改变,不同的solver支持不同的penalty,要协同调节。
2、dual的true和false个solver和penalty都有关系,可以协同调整。
3、tol,这里的迭代停止条件的默认值给出的是一个非常小的值,已经达到了收敛。(保持默认)
4、C,C越小,指定了更强的正则化,根据数据调节吧。
5、class_weight,默认None和‘balanced’,修改会有轻微变化。(保持默认)
6、max_iter,给出的是一个比较大的迭代次数,已经达到了收敛。(保持默认)
总体来说,逻辑回归涉及到的参数不是很多,调整了每次参数,发现对正确率的影响都不是很大。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容