26万条抖音数据背后的推荐逻辑,以及严重失调的男女比例

下面是正文

丨数据介绍

数据区间是2018年2月1日—5月10日,历时两个月,累计260968条。

采集过程中,对作者做了去重处理,也就是说每个作者只取了TA的一条视频数据。

这也代表着我们拥有26W个作者的数据。

数据包含视频描述、发布时间、播放数、点赞数、评论数、转发数、尺寸、清晰度、时长、是否包含商品广告、是否包含水印,以及视频作者的昵称、性别、生日、账号创建时间、是否认证、认证类型等数据。

另外,数据均为前端可见数据,未使用任何违规操作。

丨首次推荐分水岭是5000,请把赞“刷”到100+

做过今日头条自媒体账号的人应该了解,头条的推荐算法是先把文章做小范围推荐,查看文章在该部分人中的阅读数据,如果阅读数据良好,则会扩大文章的推荐范围。

数据越好,推荐范围则越大。

既然抖音是头条系产品,那肯定采用了同样的推荐逻辑。

从用户的方便程度来看,点赞评论转发,那么点赞作为推荐算法的指标权重应该会大于其他两个。

从头条的推荐算法推测,视频应该会先被推荐给一部分用户,如果点赞数达到某个水平,则会将视频推荐给更多的人;如果没有,那么视频大概率会凉了。