tutoring2

双峰分布构建

source(here::here("R/load.R"))

orig_score <- rep(1:10000,4) %>% sort
(length(orig_score) -> len_orig)

## [1] 40000

hist(orig_score)

评分卡的分数，可以通过放缩分数的间隔区间，来实现分值的分布。

比如 orig_score 用 modified_score 的每个值来代替，

参考 Stack Overflow 那么分布为

mu1 <- log(1)   
mu2 <- log(500000)
sig1 <- log(3)
sig2 <- log(3)
cpct <- 0.4   

bimodalDistFunc <- function (n,cpct, mu1, mu2, sig1, sig2) {
  y0 <- rlnorm(n,mean=mu1, sd = sig1)
  y1 <- rlnorm(n,mean=mu2, sd = sig2)

  flag <- rbinom(n,size=1,prob=cpct)
  y <- y0*(1 - flag) + y1*flag 
}

modified_score <- bimodalDistFunc(n=40000,cpct,mu1,mu2, sig1,sig2) %>% sort
hist(log(modified_score))

如果逾期、成交这些字段区分度高才有意义。不然顶多只是个特征变量。特征变量的效果，总是要被标签检验的。

This site is open source. Improve this page.