learn_pul

PU learning

PU learning 主要思想是选一部分 unlabelled data 作为 negatives，进行标准的分类模型训练。模型效果体现在

negatives 选的越好
positives 更具备正样本的代表性

这其中无论是直接法、bagging 法、两步法，都是这个思想。

例如，参考 roywright

We will “hide” some of the positives.

# Keep the original targets safe for later
y_orig = y.copy()

# Unlabel a certain number of data points
hidden_size = ### ENTER A NUMBER HERE ###
y.loc[
    np.random.choice(
        y[y == 1].index, 
        replace = False, 
        size = hidden_size
    )
] = 0

kaggle 上也没找到 pu learning