运用toad包进行评分卡的构建,其中有一步是要训练一个逻辑回归模型进行违约概率的预测,然后后面构建评分卡模型时,并没有再牵扯该模型的引用,我想知道逻辑回归模型是什么时候被引入到评分卡构建中去的?
小魔女参考了bing和GPT部分内容调写:
在构建评分卡模型时,需要引入逻辑回归模型,它主要是用来预测违约概率。逻辑回归模型是一种分类模型,它可以根据输入的特征,预测出一个类别标签,例如违约或不违约。在构建评分卡模型时,需要使用逻辑回归模型来预测违约概率,以便计算每个特征对违约概率的影响程度,从而构建出一个评分卡模型。
回答不易,记得采纳呀。
toad默认的分箱方式为‘卡方分箱’。
# initialise
c = toad.transform.Combiner()
# 使用特征筛选后的数据进行训练:使用稳定的卡方分箱,规定每箱至少有5%数据, 空值将自动被归到最佳箱。
c.fit(train_selected.drop(to_drop, axis=1), y = 'isDefault', method = 'chi', min_samples = 0.05) #empty_separate = False
{'term': [5], 'installment': [161.42, 251.46, 301.11, 322.9, 451.73, 496.96, 602.3, 662.21, 793.85], 'subGrade': [3, 5, 8, 10, 13, 18], 'employmentTitle': [55.0, 203741.0], 'homeOwnership': [1, 2], 'annualIncome': [28038.0, 37104.87, 45505.0, 54003.0, 60626.0, 65940.0, 75500.0, 85002.0, 100671.0, 120024.0], 'verificationStatus': [1, 2], 'dti': [10.12, 14.85, 19.15, 21.45, 24.38, 26.81, 30.26], 'ficoRangeLow': [665.0, 675.0, 685.0, 700.0, 710.0, 725.0, 740.0], 'revolUtil': [19.5, 35.0, 42.6, 52.0, 62.0, 79.7], 'n2': [4.0, 6.0, 8.0], 'n14': [1.0, 2.0, 3.0, 4.0, 5.0], 'issueDateDT': [2496, 3227]}
分箱是否需要调整可以通过可视化每个箱体内的badrate直观感受:
from toad.plot import bin_plot
col = train_selected.columns[2]
bin_plot(c.transform(train_selected[[col,'isDefault']], labels=True), x=col, target='isDefault')
分箱的调整可以如下进行:
rule = {'issueDateDT':[2496, 3227]}
c.update(rule)
bin_plot(c.transform(train_selected[['issueDateDT','isDefault']], labels=True), x='issueDateDT', target='isDefault')