本篇文章6517字,读完约16分钟

科技公司现在是数据公司。

本文由风瑞资本授权的黑马(微信号:freesvc)从线迹数据中发布,张小冉编辑。

美国数据工程概述

目前,linkedin上有6500人自称为数据工程师。仅在旧金山,就有6600个这样的工作是徒劳的。去年,数据工程师的数量翻了一番,但工程主管仍然觉得人才短缺。

深扒一个独角兽公司标配 但仍被低估的岗位

对数据人才的强烈需求源于一个根本性的变化:技术公司现在是数据公司。

优步、airbnb和spotify等公司都在大力开发数据产品,导致数据系统开发和维护人才的激烈竞争。

深扒一个独角兽公司标配 但仍被低估的岗位

slack的数据工程师Josh wills在2016年数据大会上半开玩笑地说:“我的数据工程师都在会场,请不要在角落里挖东西。”甚至像slack这样受欢迎的硅谷公司也担心如何留住这些有价值的人才。

深扒一个独角兽公司标配 但仍被低估的岗位

我们的研究集中在以下几个方面:

目前市场上数据工程师的数量;

数据工程师的背景和核心技能对于高管学习如何将软件工程转化为数据工程特别有用(编者按:缓解招聘数据工程师的压力);

深扒一个独角兽公司标配 但仍被低估的岗位

数据工程师的就业信息帮助你解释为什么你应该在这项昂贵的技能上投资(时间/精力/金钱)。

深扒一个独角兽公司标配 但仍被低估的岗位

通过与stripe、mit和looker的工程主管分享发现和保留数据人才以及开发数据工程师团队项目等一系列策略,我们找到了这些问题的答案,这使得本报告清楚地呈现了数据工程的现状。

深扒一个独角兽公司标配 但仍被低估的岗位

关键指标:

人数:在linkedin上有6500人自称为数据工程师。

发展:从2013年到2015年,数据工程师的数量至少翻了一番。

分布:50%的数据工程师在美国。

以前的职位:42%的数据工程师出生在软件工程领域。

行业:数据工程师主要在信息技术和服务行业工作。

技能:数据工程师的五大主要技能是:sql、java、python、hadoop和linux。r甚至没有进入前20名。

深扒一个独角兽公司标配 但仍被低估的岗位

分析方法:

该报告基于linkedin用户数据,包括所有公开可见的个人和公司档案、技能和工作经验,数据基于2016年3月的统计数据。

深扒一个独角兽公司标配 但仍被低估的岗位

我们根据文件上的职称和头衔来识别数据工程师,这里只包括可识别公司的数据工程师文件。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:linkedin个人资料摘要]

▲截至2016年3月1日,linkedin上大约有4.3亿个个人文件。这一次,引用了2.6亿个文件,包括至少一个近1.9亿的经验、一个超过1亿的认证经验和近8000万的当前经验。

深扒一个独角兽公司标配 但仍被低估的岗位

在这些数据工程师中,我们分析了:

30,000次工作经历

82,000次个人经历

3,400家公司

分析工具:

分析使用了python、sql和jupyter。

高轴和高图的交互可视化效果是通过python的绘图包和Python-highcharts实现的。

Aws红移用于数据存储和处理。

1.有多少数据工程师

数据工程师(所有以某种方式处理数据的软件工程师)的定义仍然非常模糊,目前还没有完美的答案。我们认为这是这些从业者自己解释它的最好方法。

深扒一个独角兽公司标配 但仍被低估的岗位

我们发现linkedin上有6500人自称为数据工程师。

6500,这不是一个大数字。

事实上,我们对数据工程师如此之少感到有些惊讶。在撰写本报告时,有6600个数据工程师的职位公告,事实上,只有在旧金山和海湾地区。

深扒一个独角兽公司标配 但仍被低估的岗位

薪资数据也证实了数据工程师非常受欢迎。据说,在facebook、亚马逊和谷歌等大公司工作的顶尖数据工程师的收入超过50万美元。的确数据分布比较保守,但是,工资已经达到了六位数。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:旧金山地区数据工程师的人数和薪资比例]

▲从上图可以看出,薪酬在10万美元以上的岗位有80%以上,其中11-12万、12-13万和13万+的岗位很多,都超过了20%。数据工程师现在成了黄金职业!

深扒一个独角兽公司标配 但仍被低估的岗位

专家见解

乔纳森·柯文尼,《条带数据工程师:对数据工程师人才的需求》。

在过去的十年里,乔纳森一直深入数据领域,并在twitter、spotify和其他公司建立了数据系统。在他看来,有三个主要趋势推动着对数据工程师的需求:

深扒一个独角兽公司标配 但仍被低估的岗位

公司对数据和管理数据的人考虑得更多。数据不再是副产品,而是公司运营的核心。

深扒一个独角兽公司标配 但仍被低估的岗位

越来越重视机器学习。随着机器学习的进步,掌握专有数据逐渐成为各个领域(爱基、净值、信息)公司最重要的竞争优势。

深扒一个独角兽公司标配 但仍被低估的岗位

该公司开始生产数据产品。以地图为例,机器学习主要在交通路径检测和规划中发挥作用,而地图的基本构造在于管理和组织大规模数据,这就是数据工程。

深扒一个独角兽公司标配 但仍被低估的岗位

2.数据工程师的数量随着时间而变化

领英的简历显示了一个人公开的职业发展历史,包括不同时期的职位。这些数据让我能够构建一个职位的连续演变。

深扒一个独角兽公司标配 但仍被低估的岗位

下图显示了数据工程师职位的快速发展:

[图表]累计数据工程师人数(单位:千)

▲从2013年到2015年,数据工程师的人数增加了一倍多。此外,根据上述就业需求数据,增长趋势不会放缓。

深扒一个独角兽公司标配 但仍被低估的岗位

相比之下,数据科学家的人数大约是数据工程师的两倍(约11,400人),但数据工程师的增长率更高:在同一时期,数据科学家的人数仅增加了50%。

深扒一个独角兽公司标配 但仍被低估的岗位

3.数据工程师来自哪里

数据工程师的疯狂增长提出了一个问题:这些人来自哪里?他们以前的职业是什么?

深扒一个独角兽公司标配 但仍被低估的岗位

通过观察数据,我们调查了数据工程师的dna和他们以前的职业。

在我们调查之前,我们有以下猜测:

数据工程师是软件工程师和数据科学家之间的桥梁:他们编写生产代码来帮助数据科学家进行大规模的计算实验。因此,我们怀疑大量的数据工程师以前是软件工程师或数据科学家。

深扒一个独角兽公司标配 但仍被低估的岗位

因为数据工程师的大部分工作都围绕着计算的规模,他们也是软件工程师和devops之间的桥梁。因此,我们猜测,有些人是从运行和维护开发转移过来的;

深扒一个独角兽公司标配 但仍被低估的岗位

数据库管理员曾经在企业中扮演过类似的角色。因此,不难假设一些数据库管理员致力于这一更高级的职业。

深扒一个独角兽公司标配 但仍被低估的岗位

结果显示我们的猜测部分正确,有一点非常清楚:数据工程师的dna与软件工程师的最接近。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:十大数据工程师来源]

▲数据工程师的岗前调查包括软件工程师、分析师、顾问、业务分析师、数据架构师、数据分析师、数据库管理员、数据科学家、实习生、研究助理等。

深扒一个独角兽公司标配 但仍被低估的岗位

4.数据工程师在哪里

50%的数据工程师在美国。这并不奇怪,因为数据科学家这个头衔本身和许多基础技术都来自美国的科技公司和大学。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:数据科学家的全球化]

▲大部分数据技术来自少数大学,特别是伯克利大学的放大器实验室,或者来自世界上最大的网络公司的软件工程团队。

深扒一个独角兽公司标配 但仍被低估的岗位

长期以来,谷歌、脸书、领英和亚马逊一直领先于该行业的其他竞争对手,并已开始挑战大数据,投入了大量资源。他们不仅创造了大量的数据技术,还成为了数据人才的培养基地。

深扒一个独角兽公司标配 但仍被低估的岗位

然而,这幅图有些误导。

迄今为止,美国拥有最多的数据工程师,也拥有世界上最多的数据工程师文件:几乎是印度的四倍,印度位居第二。

深扒一个独角兽公司标配 但仍被低估的岗位

为了使数据标准化,我们图片中的前十个国家进行了详细的扩展,以查看它们各自的数据工程师数量与linkedin文件数量和总人口之间的比较。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:拥有最多数据工程师的十大国家]

▲这个统计中没有以色列。以色列是我们以前的参考标准。它曾经在每百万人的数据科学家排名中排名最高。如上所述,以色列长期以来一直被视为数据科学的起源国,并在以色列的硅溪拥有强大的科技展示。但出乎意料的是,这并没有转化成高密度的数据工程师。

深扒一个独角兽公司标配 但仍被低估的岗位

5.哪个行业雇佣的数据工程师最多

面临数据存储、传输和处理扩展挑战的公司对数据工程人才的需求最大。这些挑战经常出现在科技公司,但是像电信、生物技术和保险这样的行业呢?这些行业在数据扩展方面不需要帮助吗?

深扒一个独角兽公司标配 但仍被低估的岗位

当我们审视数据工程师的工作领域时,我们发现一系列行业都需要数据人才。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:20大数据工程师的行业分布]

▲不出所料,电信和金融服务业已接近顶峰,但生物技术领域的dna测序尚未发展到顶峰。

深扒一个独角兽公司标配 但仍被低估的岗位

从这张表中,我们不应该认为这些行业之外的领域不需要或雇佣具有数据工程师功能的人才。相反,虽然数据工程已经在某个领域流行起来,但是互联网技术公司这一特定职位的使用还处于起步阶段。这一领域的技术、流程和思维方式正开始延伸到其他行业。

深扒一个独角兽公司标配 但仍被低估的岗位

6.哪些公司雇佣的数据工程师最多

当我们看到雇佣数据工程师的特定公司时,它们在科学技术领域的受欢迎程度就变得更加明显。在前十大公司中,只有两家公司不擅长技术或数据:一家电信公司(verizon)和一家金融机构(capital one)。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:雇佣数据工程师的50大公司]

▲亚马逊、facebook、网飞、capitalone和其他经常分享数据会议经验的公司都是业内数据应用非常成功的公司,这与他们雇佣的数据工程师数量成正比。

深扒一个独角兽公司标配 但仍被低估的岗位

有趣的是,一些公司雇佣了不成比例的数据工程师。例如,spotify(1600多名员工)比Pitney Bowes(16,000名员工)要小得多,但他们雇佣的数据工程师数量相同。

深扒一个独角兽公司标配 但仍被低估的岗位

这些数据清楚地表明,一些技术独角兽现在非常重视数据工程师的职位。同时,考虑到目前旧金山有6600家公司在寻找数据工程师,这一趋势在短期内似乎不会改变。

深扒一个独角兽公司标配 但仍被低估的岗位

7.数据工程师的基本技能

数据工程师的工作大致分为两部分:

在整个业务流程中,消费者可以访问数据

创建一个产品化的算法,并将其转化为数据产品

一般来说,与数据直接相关的技能越来越受到重视。另一方面,一些核心软件技能也受到数据工程师的青睐。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:数据工程师的20大基本技能]

▲从图中可以看出,使用sql回答分析问题、编写脚本进行数据集成、清理etl任务以及使用hadoop生态工具是数据工程师的主要工作。

深扒一个独角兽公司标配 但仍被低估的岗位

第一SQL(结构化查询语言):

即使在数据技术领域,许多nosql的支持者也想尽快摆脱它,但sql仍然是数据工程师最常用的技能。

深扒一个独角兽公司标配 但仍被低估的岗位

第二名java:

Java是最受数据工程师欢迎的编程语言。自从分布式系统基础设施hadoop大约在2000年开发以来,JVM (Java Virtual Machine)一直处于数据处理的中心。

深扒一个独角兽公司标配 但仍被低估的岗位

3号蟒蛇皮:

它不仅用于数据工程,还可以服务于分析任务。与经常与python一起出现在新闻中的R语言相比,它更擅长分析和统计,这应该是R语言不在列表中的主要原因。在数据科学界,数据工程和分析同等重要。

深扒一个独角兽公司标配 但仍被低估的岗位

专家见解

Looker的数据架构师Mike Xu:找出你想要的数据工程师。

迈克的职责之一是倾听开发者的意见:什么让他们开心?是什么让他们不开心?抱怨最多的是什么?不同的数据工程角色之间有细微的差别,但是许多公司不知道如何去做。

深扒一个独角兽公司标配 但仍被低估的岗位

在mike看来,数据工程师有四个主要角色,这是招聘人员应该理解的:

数据仓库:专注于优化数据仓库进行分析,主要负责数据的读取、写入和管理。

深扒一个独角兽公司标配 但仍被低估的岗位

工具:总是在一系列的数据工具箱中,非常擅长一两个特定的工具(编者按:类似于hive、hbase、弹性搜索等)。)。

深扒一个独角兽公司标配 但仍被低估的岗位

架构:有才华的端到端思考者,无论是收集数据还是帮助团队在收集后使用数据,都需要考虑许多事情,这些事情贯穿于业务的许多环节。

深扒一个独角兽公司标配 但仍被低估的岗位

运营和维护(ops):我们主要花时间建立数据库和其他事务,我们还需要管理权限和担心数据安全。

深扒一个独角兽公司标配 但仍被低估的岗位

8.随着公司规模的变化,数据工程师的技能如何变化

作为一名数据工程师,我们还需要认真应对公司和企业规模带来的挑战。业务越来越多,数据集越来越大,所需的数据能力和工作方法也将随之发展。

深扒一个独角兽公司标配 但仍被低估的岗位

让我们猜一猜:公司越大,就越重视与规模相关的技能。真的是这样吗?让我们先看看下面的图表。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:不同公司的数据工程师之间的差异]

▲纵轴代表技能,横轴代表相对差异(相对差异:某一测量值的绝对偏差与平均值的百分比)。深蓝色、天蓝色和橙色代表三种公司规模:1-200名员工、200-1000名员工和1000多名员工。离图表顶端越近,这项技能就越多地应用到小公司。相反,最底层的技能更常见于拥有1000人或更多人的公司。

深扒一个独角兽公司标配 但仍被低估的岗位

读完表格后,我们可以用数据回答前面的猜测:不

事实是,在大公司中,数据工程师更关心企业级的相关技能,如etl(提取-转换-加载)、bi(商业智能)、数据仓库等。,而在较小的公司中,数据工程师在python、java和其他编程语言上花费更多(编者按:python和java作为常见的编程语言,可以用来构建产品,这是为小公司准备的。(

深扒一个独角兽公司标配 但仍被低估的岗位

专家见解

麻省理工学院主数据工程师/建筑师威尔·史密斯:数据工程@大公司vs初创公司

威尔已经为像诺基亚和华纳兄弟游戏这样的大公司建立了数据技术。在他看来,数据工程师所依赖的技术并不取决于公司本身的规模,而是应该从这样一个角度来看待:你所负责的数据是写时模式还是读时模式?

深扒一个独角兽公司标配 但仍被低估的岗位

他认为,大公司经常在数据工程中积累商业智能,informatica、甲骨文和思爱普将接触并使用这些数据工程。这样的公司通常在一个写时间的环境中工作。

深扒一个独角兽公司标配 但仍被低估的岗位

但是现在,许多建立数据技术的公司实际上是在读时间模式下工作的。想象一下,公司给你几兆字节的日志数据,使用json,这是关于广告效果的。数据工程师不知道可以从这一堆数据中挖掘出什么,所以您需要开发人员编写代码来进行数据挖掘,而不是一出现就直接应用sql。这与大公司在编写时间模式的环境中所做的截然不同。

深扒一个独角兽公司标配 但仍被低估的岗位

2011年,威尔为诺基亚工作。虽然当时主要处理企业级数据,但团队选择了阅读时间模式的思想来进行相关工作。

深扒一个独角兽公司标配 但仍被低估的岗位

现在很多数据工程师都这样做,这更适合规模的需要。以这种方式设计和开发的东西可以消化来自各种来源的数据。传统和旧的bi系统不能做到这一点,主要是因为它是基于写时模式。这种旧技术不知道数据堆里有什么,所以我们工程师没有线索。

深扒一个独角兽公司标配 但仍被低估的岗位

9.数据工程师和数据科学家之间的技能差异是什么

这个数据集反映了数据工程师和数据科学家之间明显的技能差异,因此数据工程师和数据科学家的技能构成可以被视为一个光谱的两个相反的面。

深扒一个独角兽公司标配 但仍被低估的岗位

下图显示了一系列数据技能。顶级技能在数据工程师的简历中更常见,而低端技能在数据科学家的简历中更常见。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:数据工程师和数据科学家的区别]

▲从图表的技能构成可以看出,数据工程师更倾向于在战术层面上掌握特定的数据技能,侧重于使数据可用并能够在生产环境中处理数据,如特定的编程语言、操作系统和数据库;然而,数据科学家往往具有战略性数据技能,如数据分析、数据挖掘、统计分析、机器学习等。

深扒一个独角兽公司标配 但仍被低估的岗位

10.数据工程师和软件工程师的技能有什么不同

数据工程师和数据科学家之间的差异非常明显,那么数据工程师和软件工程师之间的技能差异是什么呢?毕竟,正如我们之前所展示的,大多数数据工程师都有软件工程师的背景。

深扒一个独角兽公司标配 但仍被低估的岗位

[图表:数据工程师和软件工程师的区别]

▲大多数人选择以数据工程师为中心的技能是hadoop、数据仓库和bi,正如你所料。相反,软件工程师方面列出的几乎所有技能都与web前端开发相关。最大的两个例外是C语言和c++语言,这两种语言在现代大数据技术栈的开发中很少使用。

深扒一个独角兽公司标配 但仍被低估的岗位

虽然许多数据工程师都有软件工程师的背景,但他们并不只是为了加薪而换一个新的工作头衔;他们必须通过学习新技能来适应新角色。

深扒一个独角兽公司标配 但仍被低估的岗位

专家见解

《激励:在数据工程师和数据科学家之间建立更好的关系》的首席技术官瑞安·欧尔班

深扒一个独角兽公司标配 但仍被低估的岗位

考虑到设计师和前端开发工程师之间的关系,ryan orban说,一个角色负责通过想法完成工作,而另一个角色负责将想法付诸实践,这可能会导致很多紧张和对立。瑞安认为,数据工程师和数据科学家之间的关系是相似的,因此缓解他们之间紧张关系的方法也是相似的。正如设计师经常被告知要学习编写一些代码,前端开发工程师经常被告知要制作一些原型一样,我鼓励数据科学家和数据工程师学习一些彼此需要掌握的数据技能。

深扒一个独角兽公司标配 但仍被低估的岗位

那么,数据工程师需要多深才能理解数据科学家的世界?

数据工程师应该具备一些机器学习的基础知识。ryan说他们不需要知道所有的数学理论,但是他们应该能够判断效率和准确性。相反,数据科学家应该理解体系结构以及如何扩展它,并对产品级编程语言有初步的了解。

深扒一个独角兽公司标配 但仍被低估的岗位

这种对其他相关学科专业知识的深入理解的变化也发生在其他领域。公司习惯于雇佣数据科学家来负责市场、产品或业务分析,同时雇佣数据工程师来完成更广泛的工程功能。这导致目标放错了地方。Ryan认为这种趋势正在改变:数据团队由数据科学家和数据工程师组成的概念越来越流行。这个简单的改变将极大地改善这两组人之间的关系。

来源:罗盘报中文网

标题:深扒一个独角兽公司标配 但仍被低估的岗位

地址:http://www.lzn4.com/lpbxw/15378.html