toad评分卡模型构建问题

运用toad包进行评分卡的构建,其中有一步是要训练一个逻辑回归模型进行违约概率的预测,然后后面构建评分卡模型时,并没有再牵扯该模型的引用,我想知道逻辑回归模型是什么时候被引入到评分卡构建中去的?

小魔女参考了bing和GPT部分内容调写:
在构建评分卡模型时,需要引入逻辑回归模型,它主要是用来预测违约概率。逻辑回归模型是一种分类模型,它可以根据输入的特征,预测出一个类别标签,例如违约或不违约。在构建评分卡模型时,需要使用逻辑回归模型来预测违约概率,以便计算每个特征对违约概率的影响程度,从而构建出一个评分卡模型。
回答不易,记得采纳呀。

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 关于该问题,我找了一篇非常好的博客,你可以看看是否有帮助,链接:逻辑回归评分卡实战-toad
  • 除此之外, 这篇博客: 逻辑回归评分卡实战-toad中的 4. 特征分箱并调整 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    toad默认的分箱方式为‘卡方分箱’。

    # initialise
    c = toad.transform.Combiner()
    
    # 使用特征筛选后的数据进行训练:使用稳定的卡方分箱,规定每箱至少有5%数据, 空值将自动被归到最佳箱。
    c.fit(train_selected.drop(to_drop, axis=1), y = 'isDefault', method = 'chi', min_samples = 0.05) #empty_separate = False
    
    {'term': [5],
     'installment': [161.42,  251.46,  301.11,  322.9,  451.73,  496.96,
      602.3,  662.21,  793.85],
     'subGrade': [3, 5, 8, 10, 13, 18],
     'employmentTitle': [55.0, 203741.0],
     'homeOwnership': [1, 2],
     'annualIncome': [28038.0,  37104.87,  45505.0,  54003.0,  60626.0,  65940.0,
      75500.0,  85002.0,  100671.0,  120024.0],
     'verificationStatus': [1, 2],
     'dti': [10.12, 14.85, 19.15, 21.45, 24.38, 26.81, 30.26],
     'ficoRangeLow': [665.0, 675.0, 685.0, 700.0, 710.0, 725.0, 740.0],
     'revolUtil': [19.5, 35.0, 42.6, 52.0, 62.0, 79.7],
     'n2': [4.0, 6.0, 8.0],
     'n14': [1.0, 2.0, 3.0, 4.0, 5.0],
     'issueDateDT': [2496, 3227]}
    

     分箱是否需要调整可以通过可视化每个箱体内的badrate直观感受:

    from toad.plot import bin_plot
    
    col = train_selected.columns[2]
    bin_plot(c.transform(train_selected[[col,'isDefault']], labels=True), x=col, target='isDefault')

     分箱的调整可以如下进行:

    rule = {'issueDateDT':[2496, 3227]}
    c.update(rule)
    bin_plot(c.transform(train_selected[['issueDateDT','isDefault']], labels=True), x='issueDateDT', target='isDefault')


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^