learn_pul

PU learning

PU learning 主要思想是选一部分 unlabelled data 作为 negatives,进行标准的分类模型训练。 模型效果体现在

  1. negatives 选的越好
  2. positives 更具备正样本的代表性

这其中无论是直接法、bagging 法、两步法,都是这个思想。

例如,参考 roywright

We will “hide” some of the positives.

# Keep the original targets safe for later
y_orig = y.copy()

# Unlabel a certain number of data points
hidden_size = ### ENTER A NUMBER HERE ###
y.loc[
    np.random.choice(
        y[y == 1].index, 
        replace = False, 
        size = hidden_size
    )
] = 0

kaggle 上也没找到 pu learning