source(here::here("R/load.R"))
orig_score <- rep(1:10000,4) %>% sort
(length(orig_score) -> len_orig)
## [1] 40000
hist(orig_score)

评分卡的分数,可以通过放缩分数的间隔区间,来实现分值的分布。
比如 orig_score 用 modified_score 的每个值来代替,
参考 Stack Overflow 那么分布为
mu1 <- log(1)   
mu2 <- log(500000)
sig1 <- log(3)
sig2 <- log(3)
cpct <- 0.4   
bimodalDistFunc <- function (n,cpct, mu1, mu2, sig1, sig2) {
  y0 <- rlnorm(n,mean=mu1, sd = sig1)
  y1 <- rlnorm(n,mean=mu2, sd = sig2)
  flag <- rbinom(n,size=1,prob=cpct)
  y <- y0*(1 - flag) + y1*flag 
}
modified_score <- bimodalDistFunc(n=40000,cpct,mu1,mu2, sig1,sig2) %>% sort
hist(log(modified_score))

如果逾期、成交这些字段区分度高才有意义。 不然顶多只是个特征变量。特征变量的效果,总是要被标签检验的。