PU learning 主要思想是选一部分 unlabelled data 作为 negatives,进行标准的分类模型训练。 模型效果体现在
这其中无论是直接法、bagging 法、两步法,都是这个思想。
例如,参考 roywright
We will “hide” some of the positives.
# Keep the original targets safe for later
y_orig = y.copy()
# Unlabel a certain number of data points
hidden_size = ### ENTER A NUMBER HERE ###
y.loc[
np.random.choice(
y[y == 1].index,
replace = False,
size = hidden_size
)
] = 0
kaggle 上也没找到 pu learning