本篇文章1669字,读完约4分钟

简介:本文来源于kdkings对十大算法的调查,对数据工程师常用的算法进行了排序,并介绍了它们在2011年到2016年间的变化。根据调查,KD kings总结了数据科学家最常用的十大算法。它们是:1 .回归返回算法2。聚类算法3。决策树/规则决策树4。可视化可视化5。k-最近邻算法6。主成分分析算法7。统计统计算法8。随机森林算法9。时间十点。series/sequence时间序列中的文本挖掘,其中,受访者表示平均使用了8.1种算法,与2011年的类似调查相比有了很大改进。

与2011年的类似调查相比,我们发现最流行的算法是返回算法、聚类算法、决策树和可视化。相对而言,增长最大的是由(pct2016 /pct2011-1)确定的以下算法:提升,从2011年的23.5%提升到2016年的32.8%,文本挖掘同比增长40%,从2011年的27.7%提升到2016年的35.9%,可视化同比增长30%,从2011年的38.3%提升到2011年的48.7% 从2011年的16.4%增至2016年的19.5%,同比增长19%。从2011年的28.3%增至2016年的33.6%,同比增长19%,从2011年的28.6%增至2016年的33.6%,同比增长18%,从2011年的57.9%增至2016年的67.1% 此外,2016年最流行的新算法有:k-最近邻法,46%主成分分析,43%随机森林算法,38%优化,24%神经网络深度学习,19%奇异值分解,16%下降最大的是:关联规则,从2011年的28.6%下降到2016年的15.3%,从2011年的4.8%下降到2016年的3.1%,同比下降了36%。因子分析显示,从2011年的18.6%到2016年的14.2%,同比下降了24%。生存分析从2011年的9.3%下降到2016年的7.9%,同比下降15%。政府和工业数据科学家比学生或学术机构使用更多不同的算法,工业数据科学家倾向于使用元算法。接下来,我们继续分析10种最流行的算法,并通过员工类型深入学习。为了使这些差异更容易观察,我们设计了一种算法,用于计算与特定员工类型相关的平均算法使用量。偏差(alg,type)=用法(alg,type)/用法(alg,All)-1。我们注意到工业数据科学家更倾向于使用回归算法、可视化、统计算法、随机森林算法和时间序列。政府/非营利组织更倾向于使用可视化、主成分分析和时间序列。学术研究者更倾向于使用主成分分析算法和深度学习。学生通常使用较少的算法,但他们会做更多的文本挖掘和深入学习。此外,参与投票的读者主要来自美国/加拿大、40%欧洲、32%亚洲、18%拉丁美洲、5.0%非洲/中东、3.4%澳大利亚/新西兰和2.2%。在2011年的调查中,我们将行业/政府划分为同一组,将学术研究人员/学生划分为第二组。此外,通过该算法,IND _ GOV)/N (ALG,ACA _ STU)-1N (IND _ GOV)/N (ACA _ STU)具有0的良好度。ig亲密度越高,该算法在工业中的应用越广泛,越“学术性”。最“工业”的算法是增量建模、2.01异常检测、1.61生存分析、1.39因子分析、0.83时间序列/序列、0.69关联规则、0.5,其中增量模型提升建模再次成为最“工业”的算法,但令人惊讶的是,它的利用率真的很低——只有3.1%,这几乎是本次调查中最低的。最“学术性”的算法是神经网络-常规,-0.35朴素贝叶斯,-0.35支持向量机-支持向量机,-0.24深度学习,-0.19em,-0.17下图显示了所有算法及其在行业/学术界的亲密度:数据科学家最常使用的算法行业与学术界在2016年数据科学家使用的算法调查汇总表中的含义是:N:根据使用情况对算法进行排名:算法名称,类型:s-监督,u-监督,m-元,z-其他%指的调查者的比例这篇文章是雷锋独家编辑的。搜索“雷锋”。com "公开号),并拒绝未经许可转载!工作中的数据科学家通过KD线索找到工作中的数据科学家

来源:罗盘报中文网

标题:最新出炉——数据科学家最常使用的十大算法

地址:http://www.lzn4.com/lpbxw/11443.html