本篇文章2870字,读完约7分钟
如果你走出咖啡馆,服务员会知道你会在每周三早上8: 15准时来到这里,并提前准备好你最喜欢的玛奇朵。这种感觉一定很棒。
这篇文章是写在全球著名的预测建模与分析平台kaggle的数据对话全球算法竞赛的介绍页上的。
kaggle平台的注册用户超过60万,他们来自世界194个国家,拥有各行各业的背景。kaggle平台也因其科学的竞赛体系和开放的态度而成为许多重要数据科学竞赛的支撑平台。目前,在kaggle算法众包平台上已经举行了1200多次竞赛,其中大部分来自行业,提供了许多数据科学解决方案。
从另一个角度来看,这个平台类似于一个江湖武林榜,有些人会在第一场战斗中成名。
2012年,美国制药公司默克(merck)发布了一项针对卡格尔的60天挑战。参与者通过15种药物的各种数据预测其生物活性,如药物靶标和非靶标。结果,来自加拿大多伦多大学的五人小组gggg获得了第一名。
如果你直接介绍这个团队,你可能不得不翻白眼——你是谁?,但是他们身后的人有很多。我相信许多从事数据科学的人都不是陌生人。他是杰弗里·辛顿。
三头牛Yann lecun、yoshua bengio和geoffreyhinton因其在深度学习领域的地位而闻名。吃瓜的人可以看看。他看起来像这样。
说了这么多,这意味着卡格尔非常棒。如果他拒绝接受,他将试着参加比赛。
在强大的平台kaggle上,中国第三方移动数据平台talkingdata和机器学习公司turi联合举办了一场全球算法竞赛。这场比赛从7月11日开始,到9月5日结束。
据数据科学系直接负责此次竞赛的科学家路遥告诉雷锋。在中国似乎司空见惯的算法竞赛不应该产生任何重大新闻。然而,在决赛之后,1689支队伍参加了比赛,其中包括1961名参赛者,并提交了超过24000次。
而且,路遥也在这次比赛中点了一些有趣的东西。在引起大家的兴趣之前,让我们来谈谈这是一场什么样的比赛。
牛!这场竞赛的挑战是通过移动设备行为数据预测设备用户的性别和年龄分组。
竞赛提供了大约200,000名用户的脱敏数据,这些用户被分成12组,如男性、22-25岁、女性、30-35岁等等。同时,它还提供了用户行为属性,如时间点、地理位置、手机品牌、型号、安装或使用的应用程序等。玩家应该利用这些信息来猜测用户属于哪个组。
嗯,这似乎有点困难。
竞赛的评估方法是——参赛者需要计算不同组中用户的概率,一个用户只能在一个组中。在理想状态下,如果概率可以计算为1,而其他的都是0,那么就没有概率损失,但是他们的答案一般是在不同的组中,并且这个用户属于这个概率不同的组,所以会有概率损失。比赛的评价指标是概率损失。
再看一遍,这很复杂,不是吗?嗯,我们可以更复杂。
表中的数据首先按年龄和性别分组,每个用户由一个id表示。用户的行为是在一系列事件中发生的,每个事件中的信息包括:id出现在哪个纬度和经度上,安装了哪些应用程序,使用了哪些应用程序,以及手机的品牌和型号。
当然,应用程序的id,包括纬度和经度,已经被严格科学地去除了敏感性。
然而,只有不敏感的id出现在应用程序上,参赛者对应用程序本身一无所知。为了让参赛者更好地解读数据,组织者在应用上贴了一些标签,比如社交游戏等等,总共有1000多个标签。
旁观者说这看起来像大海捞针,对吗?
对这些数据的解释只是成功的第一步,下一步是特征工程。
参赛者提取了哪些特征?例如,用户何时处于活动状态?休息日还是工作日?白天还是晚上?
数据还包括海外数据和时差。当用户有轨迹时,轨迹分布是什么?聚集在一块。还是聚集在几个点上?他们之间的距离有多远?它经常位于中国的东南沿海还是西北?这些地方有什么特点?
此外,哪些应用程序已经安装但很长时间没有使用?这能提供什么样的信息?
时间不早了,10万。为什么?不可否认的是,这些特性的值是非常有学问的,选择01值或更具体的权重是一项技术活动。
路遥介绍完,又出现了“星星的眼睛”。因为比赛中有一种非常有想象力的方式,这是她在项目中没有想到的!
当您预测结果时,结果能否作为一个特征反馈给模型?例如,预测年龄和性别的分组,性别是相对可预测的,并且具有较高的准确性。预测后回归性别特征能提高年龄预测吗?年龄准确度会较低,但一些特殊的年龄特征更明显。如果您找到这些并将其返回到模型中,您还能改善整体结果吗?
完成特征工程后,我们进入模型调整环节,这也是对数据科学家的经验和技能的考验。当单个模型的参数向下调整时,如何选择最简单的初始参数?它是随机值还是特殊值?它可能对收敛速度有很大影响。
在模型集成中,有更多的知识。以神经网络为例,在设计神经网络中的神经元时,我们应该知道每层有多少层,并且在模型集成时应该有相似的思想。这些模型分为几层,即谁并联谁串联。如果它是串联的,下一层应该处理什么样的信息,是直接处理结果、错误还是什么?
有了好的模型,好的功能,和提交的结果,它在排名中是非常高的。这件事办完了,你能得到奖金吗?
打哈欠,真的不一定。
还有一个敌人叫做试衣。
过拟合方法在特定的数据集上会表现得非常好,但是当数据集稍微改变时,模型的性能会迅速下降。
本次比赛分为测试组和训练组。在训练集中,所有的信息都被告知给玩家,然后测试集被分组。
玩家提交结果后可以看到公开名单,但只有管理员可以看到私人名单,但比赛结果由私人名单决定,公开名单仅供参考。
公开列表的测试集只包含1/4~1/3的数据,kaggle不限制提交的次数。如果你在公众名单上排名很高,呵呵,那么你在私人名单上的排名可能很差。
如何解决这个问题,卡格尔的老司机告诉你,永远要做交叉验证!!!!拿一个小笔记本,把它写下来!!
到目前为止,虽然获胜者名单还没有正式公布,但私人名单已经在卡格尔的主页上公布了!让我们来看看——
这场比赛有几个有趣的地方,可以简单地问一下!1.“1.talkingdata”首席数据科学家张夏添告诉雷锋。搜索“雷锋”。尽管数据量相对较小,只有大约200,000组,但它是“稀疏的”数据,也就是说,在与真实数据脱敏之后,一些数据可能具有不完整的维度。与一些比赛提供的标签完整的数据相比,这意味着难度更大,你很开心。
2.在卡格尔社区,第一次出现了《对话中国》的资料,上面的大神对此很感兴趣,甚至在卡格尔名单上炸了很多所谓的“古兽”。那些更擅长卡格尔的人已经玩了很长时间,没有什么兴趣,所以他们不喜欢出现在平台上。在卡格尔的名单中,前10名中有7名参加了talkingdata竞赛,前20名中有14名。是的,中国是一个神秘的国家...
3.最终,来自70多个国家的参赛者提交了他们的结果,大多数参赛者不是中国……而是美国。第二个呢?第二个仍然不是中国,而是印度,第三个是中国,包括台湾和香港,第四个是俄罗斯,第五个是英国。
4.在卡格尔的talkingdata竞赛社区,由于数据来自中国,许多玩家需要讨论中国的国情。最热衷于给你介绍中国科普特征的是一位法国兄弟...