本篇文章3795字,读完约9分钟
国家电网应该对窃电感到担忧,因为它正试图找到一个大数据解决方案来解决这个问题。
9月24日,在第四届ccf大数据与计算智能竞赛的启动仪式上,国家电网发布了两个相关的竞赛问题。
国家电网公司表示,希望通过大数据分析技术,科学地对窃电行为进行监控和分析,从而提高防窃电效率,减少窃电行为分析的时间和成本。同时,国家电网公司希望通过大数据分析技术对电力敏感客户进行科学分析,从而准确识别敏感客户并量化敏感度,进而支持针对性和精细化的客户服务策略。
除了国家电网希望借此机会解决上述问题外,搜狗、蚂蚁金服、admaster、时宇科技、中国联通研究院等多家公司和机构还发布了另外九个竞争问题,涉及搜索广告、o2o营销、舆情分析、监控与识别、计算广告、无人驾驶、市场预测、lbs营销、气候预测等领域。
雷锋。据了解,这11个竞赛题公布的累计奖金池已达65万元,根据以往竞赛的经验,不仅学生团体,企业、社会个人和组织都专门组织了团队参加竞赛。
据竞赛组织者中国计算机联合会(ccf)和发布竞赛试题的企业称,与一些类似竞赛提供的标准数据库数据不同,竞赛试题提供的大量真实数据可能是吸引众多参赛者的原因之一。
国家电网代表表示,他们发布的竞争问题来自以下几个方面:
一是提供国家电网供电区域某一区域用户的日常用电信息;二是业务判断后的用电异常信息,专业分析后确实异常。
通过异常用户信息,参与者可以根据这些数据找出窃电用户的行为特征,形成窃电用户的肖像,准确识别窃电用户。对于国家电网来说,可以提高窃电监控效率,减少窃电损失。
搜狗代表说,
我们提供10万用户的查询行为,这意味着10万用户通过各种方式通过问卷在线搜索获得真实的性别、年龄、教育程度等数据。我们希望拿出一半的数据作为训练问题,另一半作为测试问题来研究行为,以确定一个人的年龄、性别和教育程度。
中国联通还表示,它提供了3万名用户的详细在线记录,即3个月的在线行为记录和通话记录,以及1万名商户的位置数据和活动行为数据。除了原始数据,还在原始数据的基础上提供中间过程数据。
当然,上述图书的出版商也强调,上述信息已经变得麻木了。
或者说“培训”和“人才招聘”这个竞赛的主要目的是什么?
雷锋。网站编辑注意到上海市教育部的专家和一些高校的代表支持启动仪式。不难看出,许多高校都想借此机会“培训”。
对于发布竞争问题的企业,admaster的代表直言不讳地表示,他希望通过竞争问题真正解决企业的一些问题。他说:
举一个我们公司的例子——如何识别虚假流量。如果这次比赛的方案做得好,可以直接应用到我们公司的商业场景中,也可以应用到整个广告业。它有几个优点。首先,对于参赛者来说,无论他们是学生、组织还是其他参赛者,他们都可以通过各种知识将各种数据直接应用到行业中。我们不仅提供奖金,还为整个行业做出巨大贡献。其次,如果他们是学生,他们也可以给他一个机会。
中国基督教儿童基金专家委员会秘书长程学启从现场案例开始“宣传”。他告诉雷锋。搜索“雷锋”。com "公共号码注意)编辑:
第一场比赛的一等奖获得者上海交通大学的团队,获奖后没有毕业,直接去创业了。当然,这是交通大学校长给的政策。在创业期间,他们可以暂时中止学业,现在他们将很快获得第二轮融资。
在第二场比赛中,一个团队参加了大众科技组织的比赛。当时的比赛题目是“网络热点事件的快速发现”。这种方法完成后,大众科学技术立即使用了这一成果。后来,在天津事件发生时,所使用的算法比所有其他系统业务更准确和及时。
链接-竞争问题是什么?1.监控场景中的行人精细识别
行人属性的精细识别是智能监控技术的重要组成部分。本次比赛提供了监控场景中带有标记信息的大量行人图像。要求参与者研究基于定位(头、上身、下身、脚、帽子和包)的改进行人识别算法,并自动识别行人图像中行人的属性特征。标记的行人属性包括性别、头发长度、上下服装、鞋子、包的类型和颜色,并在图像中提供行人头部、上身、下身、脚、帽子和包位置的标记。
2 .人类还是机器人?
与传统的电视广告和户外广告相比,流量欺骗一直被认为是网络广告的一个独特的缺点。随着网络数据技术的发展,流量欺骗也呈现出规模化、机器化和产业化的趋势。这些方法包括用人力和机器制造虚假交通,或者用技术手段窃取他人的交通。反作弊需要强大的数据支持,包括丰富的数据存储、大量的项目积累和经验积累,以及广告不同环节的数据接触。本主题要求参赛者建立一个基于ip、cookie、设备id、访问时间序列、ua信息分布和其他行为属性的模型,以区分正常用户暴露记录和欺骗记录并标记它们。
3.基于视角的领域情感分析
情感分析是网络舆情分析中不可或缺的技术,基于视角的领域情感分析是将情感分析应用于特定领域的关键技术。在分析一个句子的情感时,从不同的角度来判断同一个句子的情感倾向会有所不同。本次比赛的目的是在情绪分析任务中,从数据用户的角度进行具体的情绪分析,使数据分析的结果更加有用。本次比赛可分为两个部分:“视角提取”和“基于视角的情感分析”。
4.鸡肋还是福利?O2o优惠券使用预测
o2o是复兴旧用户或吸引新顾客进入商店的重要营销手段。然而,随机分发的优惠券会对大多数用户造成无意义的干扰。对于商家来说,滥发优惠券可能会降低品牌声誉,而且很难估计营销成本。
个性化配送是提高优惠券注销率的一项重要技术,它可以使具有一定偏好的消费者获得真正的利益,同时赋予商家更强的营销能力。本次比赛为参赛者提供了丰富的o2o场景相关数据。希望参赛者通过分析和建模,准确预测用户是否会在指定时间内使用相应的优惠券。
5.挖掘大数据精准营销中搜狗用户的肖像
在现代广告投放系统中,多层次、系统化的用户肖像构建算法是实现精确广告投放的基本技术之一。其中,基于群体属性的广告定位技术是广泛应用于品牌展示广告和精确竞价广告的关键技术。人口属性包括自然人的基本属性,如性别、年龄和教育背景。
在搜索竞价广告系统中,用户可以通过在搜索引擎中输入特定的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性和潜在需求密切相关。
6.自动驾驶场景中的交通标志识别
交通标志的检测是一项非常具有挑战性的任务,准确的检测在后续的识别和辅助定位导航中起着决定性的作用。交通标志种类繁多,由于其大小和角度不同,难以准确检测。在真实的驾驶环境中,由于天气、光线等因素的影响,交通标志的检测更加困难。我们将在完全真实的场景中提供图片数据,用于比赛训练和测试,以便开发的算法可以实际应用于自动驾驶。
7.用户用电异常行为分析
为了进一步提高社会用电安全,保护发电企业、电网企业和用电客户的正常利益,尽可能防止窃电。本次竞赛题目是基于国家电网公司提供的用户用电量、电能表停止、电量损耗流量、开灯计量异常情况、窃电行为等相关数据。,以及现场电工确认的窃电用户名单。希望参赛选手利用大数据分析算法和技术,发现窃电用户的行为特征,形成窃电用户的行为画像,准确识别窃电用户,从而帮助系统更快、更准确地识别窃电用户,提高窃电监控的效率。
8.顾客肖像
经过多年的发展和沉淀,国家电网已经积累了4亿多客户档案数据、海量供电服务信息、公司营销、电网生产等数据。如何从海量用户数据中发现对停电事件和供电稳定相关事件敏感的客户群体,并对客户停电敏感性进行量化排序,对电网企业的客户满意度、电力服务水平、客户粘性的提高以及供电维修工作的路径优化至关重要。
参与者需要基于电力用户的95598工单数据、供电抢修服务数据和停电信息数据,构建客户停电敏感性模型,并结合对科技和工程订单文本内容的分析和挖掘,定量分析客户对停电的敏感性,以确定用户是否对停电敏感。
9.基于多源数据的青藏高原湖区
本课题希望通过研究青藏高原湖泊面积变化的各种影响因素,建立青藏高原湖泊面积预测模型。
例如,通过对2000-2015年青藏高原总降水量、气温变化趋势、地形起伏、海拔高度、湖泊面积及分布数据的研究,分析了各种因素对湖泊面积变化的影响,并对2015年的湖泊面积进行了预测。
10.农产品价格预测与分析
价格预测是大数据的本质。通过分析大量的历史数据,我们可以预测未来的价格趋势,为决策者提供更有力的数据支持。在初步竞争阶段,参与者只需分析所提供的价格历史数据,并预测下一个固定时间需要预测的农产品价格。在半决赛中,参与者需要使用尽可能多的对价格有影响的其他数据来提高预测的准确性,比如天气数据。细节将在半决赛前在网站上公布。
11.基于用户轨迹的商家精准营销
精准营销是网络营销和广告营销的新方向。如何利用现有的用户头像对用户进行分类,并根据不同的分类进行业务推荐,特别是当用户在特定的地点和商家时,如何根据用户头像匹配商家和用户,并通过不同的渠道推送相应的优惠和广告信息。
目前,主要有两种解决问题的能力:一种是用户的实时位置和商家的位置之间的匹配,另一种是用户的肖像和商家的店铺之间的匹配。
在本次比赛中,参赛者需要根据商家位置和分类数据以及用户标签肖像数据,提取用户标签和商家分类之间的关联关系,然后根据用户在一定时间内的位置数据,判断用户已经进入300米范围内的商家状态(经纬度在一秒钟内超过30米),然后将商家位置和其他符合用户肖像的优惠信息推给用户。