分类模型的正负样本

在机器学习,数据挖掘和推荐系统这几个大领域中,用支持向量机模型(Support Vector Machines)或者逻辑回归模型(Logistic Regression)做模型的预估是十分常见的事情。既然是分类模型,那么就需要确定正负样本,以便模型进行合理而有效的分类,因此如何根据具体的业务来确定正负样本就是一个十分关键的问题。

点击率预测的正负样本如何产生:

对于视频或者音频节目而言,分成几个种类:

喜欢的节目:用户当天播放过的节目;

历史的节目:用户在过去的一段时间内播放过所有节目;

曝光的节目:一段时间内对用户曝光的节目。

由此,正样本可以定义为用户当天播放过的节目,也就是“喜欢”。负样本则有两种选择方案:

(1)负样本指的是对用户曝光过的节目,但是用户至始至终都没有播放过,也就是说该节目并不在“历史”和“喜欢”两个分类里面。

(2)负样本指的是在整个抽样的池子里面,但是用户至始至终都没有播放过,也就是说该节目并不在“历史”和“喜欢”这两个分类里面。

此时还需注意抽样比例,一般来说 负样本的个数/正样本的个数 = 1:1 或者 2:1。

但是视频类节目和广告有区别,有可能该节目只是因为标题取得好或者图片配的好,才会吸引用户进去点击,但是用户观看了很短的时间就发现不喜欢该节目。所以在选择正样本的时候,从某种层面上来说需要考虑用户的观看时间,设定一定的阀值或者一定的观看比例才能够反映用户是否喜欢该节目。比如YouTube的视频节目,不止有“订阅”,“添加到”,“分享”,还有能够反映用户喜好的“like”(顶一下),“dislike”(踩一下)。有的时候顶一下可能不足以反映用户是否喜欢,但是踩一下基本上可以确定该用户不喜欢这个视频节目。除了“like”和“dislike”,对于其余的一些APP或者视频网站,还会有其余的操作,比方说评论,分享,收藏,下载等操作。这些操作从某些层面上也会看出用户是否喜欢该节目。