中国好创意CCF大赛

作者: 云中布衣   分类:  数据比赛    热度: (804℃)   时间: 2015-10-27 16:44   标签: #国科大  #作业    

我们组的选题是:广告点击行为预测

项目背景:

用户在上网浏览过程中,可能产生广告曝光或点击行为。对广告点击进行预测,可以指导广告主进行定向广告投放和优化,使广告投入产生最大回报

竞赛简介:

本次竞赛提供了100万名随机用户在六个月(2015年1月1日-2015年6月22日)的时间范围内广告曝光和点击日志,包括广告监测点数据。参赛者需 要预测每个用户在一周的时间内(2015年6月23日-2015年6月30日)是否会在各监测点上发生点击行为。

竞赛交流

QQ群:490656601

作品提交:

线上环节: CSV结果文件。具体格式说明详见“提交说明”部分。 线下答辩: 竞赛报告书等说明性文档。获奖参赛者需向主办方提供源代码。

数据描述

本次竞赛提供100万名随机用户在六个月(2015年1月1日-2015年6月22日)的时间范围内广告曝光和点击日志作为训练数据,训练数据中涉及的全部用户和监测点作为测试数据。日志为文本格式,每行表示一次广告曝光或点击,由半角逗号(",")分隔的字段组成:

1)用户id,已加密;

2)用户id是否稳定,即第一次和最后一次出现时间是否超过24小时,未超过为0,已超过为1;

3) 广告活动id,可区分不同广告活动,例如肯德基6元早餐或东风日产汽车,已加密;

4) 监测点id,可区分同一广告活动内的不同媒体或创意,例如肯德基6元早餐在搜狐门户上的广告是监测点1,东风日产汽车在搜狐门户上的广告是监测点5,在优酷视频上的广告是监测点6,已加密;

5) 操作系统类型;

6) 浏览器语言、浏览器内核、浏览器外壳,以下划线("_")分隔;

7) IP地址,已加密;

8) 时间,以UNIX时间戳格式提供;

9) 曝光或点击标识符,0为曝光,1为点击。

训练数据解压后大概60G左右,鉴于数据量较大,可以参考XZ Utils文档,使用xzcat等命令行工具,结合Linux管道,直接读取并处理压缩文件。示例: xzcat train.data.xz | head -n 20

XZ Utils也支持通过编程来读取xz文件。

数据获取

百度云网盘:http://pan.baidu.com/s/1hqhfLze (或者http://123.103.19.83/train.data.xz)
密码:uy7r

任务描述

参赛者需要预测训练数据中出现的每个用户,在一周的时间内(2015年6月23日-2015年6月30日),是否会在训练数据中出现的每个监测点上发生点击行为。由于点击行为通常比例很低,因此参赛者只需要提交每个监测点上发生点击行为的用户id列表。

提交文件说明

参赛者提交的结果文件应为CSV文件格式,以\n换行,每行是由半角逗号(“,”)分隔的若干列,第一列为监测点id,第二列以后每列是一个用户id,即参赛者预测该监测点上发生点击行为的用户id。如果参赛者预测该监测点没有发生点击行为,该行只存在第一列。

需要预测的监测点id即训练数据所包括的全部监测点id。

56.8K

发表评论:

© 云中布衣 2015 | Driven by EMLOG  | SiteMap | RunTime: 10.36ms&RSS  | MORE  |   | TOP

文章数量【258】 评论数量【238】 稳定运行【1211天】

Visitor IP Address【54.92.193.89】

Email:ieeflsyu#outlook.com