本篇文章4248字,读完约11分钟

据雷锋说。这篇文章最初是在kdkings上发表的,译者是白雪(一家有10年以上it从业经验的大型国有企业,第一稿译者)和龙兴护卫(互联网从业人员,最终稿译者)。文章来源于电脑广告(微信号:comp _ ad)和雷锋。搜索“雷锋”。com "公共号码注意)已被授权。

21天混入数据科学家队伍(上)

在kdkings上,“科学家发现虚假数据的20个问题”是一月份阅读量最大的文章。因为作者只问了问题,但没有给出答案,这篇文章也让厨师和火车司机更难融入数据科学家。

21天混入数据科学家队伍(上)

现在没事了!kd掘金的编辑们聚在一起回答这些问题。此外,我还补充了一个经常被忽视的问题。这里正好有21个问题,你可以在一天之内掌握一个,这正好需要三个星期,你可以找到一个与数据科学家混合的捷径!

21天混入数据科学家队伍(上)

请特别注意用蓝色字体标记的关键词。即使你不能完全理解内容,如果你在日常交流中经常使用这些术语,你也可以被认为是一个数据科学家。

21天混入数据科学家队伍(上)

注意:本文中提到的一些重要参考资料和相关工具都放在网络磁盘上,所以请在公共号码的背景下发送消息“data1”来获取它们。

21天混入数据科学家队伍(上)

第一天:什么是正规化?它是做什么的?[马修·梅奥的解决方案]回答:正则化项是一个调整参数,用于确保模型的平滑度,防止过度拟合。正则化的通常方法是通过l1(套索)或l2(脊)变换现有的权重向量,但是变换也可以是其他形式。模型优化的最终目标是加入正则项后的损失函数。Xavier amatriain给出了一个比较l1和l2正则化的好例子。

21天混入数据科学家队伍(上)

Lp球:p值降低,相应的lp空值也降低

第二天:你最喜欢的数据科学家和初创企业是什么?答:这个问题没有标准答案。以下是我个人最钦佩的12位数据科学家,他们的排名没有特别的顺序。

21天混入数据科学家队伍(上)

12位著名的数据科学家

杰夫·辛顿、扬·勒昆和约舒亚·本吉奥在神经网络方面做出了不懈的努力,这开启了深度学习的革命。

21天混入数据科学家队伍(上)

Demis hassabis对DeepMind(AlphaGo的发明者,谷歌的一个子公司)的杰出贡献使机器在玩雅达利游戏和最近的Go游戏时达到了人类或超人的水平。

21天混入数据科学家队伍(上)

来自datakind的Jake porway和来自u. chicago/dssg的rayid ghani让数据科学为社会福利做出贡献。

21天混入数据科学家队伍(上)

Dj帕蒂尔是美国政府的第一位首席数据科学家,他为美国政府提供数据科学服务。

21天混入数据科学家队伍(上)

柯克·d·伯恩以他在社交媒体上的影响力和领导力而闻名。

克劳迪娅·珀里奇在广告生态学方面做得非常出色,他也是2014 KDD的主席。

希拉里·梅森的伟大贡献激励其他人成为大数据摇滚明星。

Usama fayyad在kdd和数据科学方面的领导和计划技能帮助并激励了我和数百万其他数据科学家尽他们最大的努力。

21天混入数据科学家队伍(上)

Hadley wickham在基于r的数据科学和数据可视化方面的杰出工作,包括dplyr、ggplot2和rstudio。

21天混入数据科学家队伍(上)

在数据科学领域有许多杰出的初创公司。为了避免利益冲突,我不会一一列举。

21天混入数据科学家队伍(上)

第三天:通过多重回归生成定量产出的预测模型。如何验证其有效性?[马修·梅奥。答案]

21天混入数据科学家队伍(上)

答:有很多方法可以验证多元回归模型。我们推荐以下方法:

如果模型的预测值远远超出响应变量的范围,则模型的预测精度显然存在问题。

21天混入数据科学家队伍(上)

虽然预测值看似合理,但参数存在以下问题,也可以判断存在预测问题或多重共线性问题:与期望值相反的迹象;该值特别大或特别小;在模型中输入新数据时发现不一致。

21天混入数据科学家队伍(上)

通过向模型中输入新数据,我们进行预测,然后使用相关系数来评估模型的正确性。

21天混入数据科学家队伍(上)

将数据分成两部分,一部分用于训练模型参数,另一部分用于验证。

如果数据集非常小,则应使用折刀重采样技术,并使用均方误差(mse)来衡量有效性。

21天混入数据科学家队伍(上)

第四天:什么是精确和回忆?与roc曲线的关系?[格雷戈里·皮亚特斯基回答]

答:计算精确度和召回率实际上非常简单。例如,10,000个病例中有100个阳性病例。如果在你的预测中有200个阳性病例,很明显回忆起这100个阳性病例的概率自然会更高。根据您的预测结果和实际标签,将结果中的正确或错误次数相加,并有以下四个统计数据:

21天混入数据科学家队伍(上)

1、

TN/真负:例子是负的,预测也是负的

2、

Tp/true正数:实例是正数,预测也是正数

3、

fn/假阴性:示例为阳性,但预测为阴性

4、

FP/假阳性:实例为阴性,但预测为阳性

现在你可以回答以下三个问题:

1、

预测的正确百分比是多少?

回答:准确率为(9,760+60)/10,000 = 98.2%

2、

你对实际上是一个正面例子的样本的正确预测是多少?

回答:召回率为60/100 = 60%

3、

预测为阳性病例的样本中有多少百分比是实际阳性病例?

回答:精度是60/200 = 30%

准确性和召回率

Roc曲线反映了敏感性(回忆)[原始:敏感性(回忆)]和特异性(非精确性)[原始:特异性(非精确性)]之间的关系。通常用于衡量二进制分类器的质量。然而,当处理正负样本分布极不均匀的数据集时,pr曲线显示了更具代表性的信息。

21天混入数据科学家队伍(上)

第五天:如何证明算法的改进真的有用?[anmol rajpurohit解决方案]

答:在追求快速迭代(也叫“快速成名”)[原创:快速创新(又名“快速成名”)]的过程中,违反科学方法论的原则往往会导致误导性创新,尤其是一些没有经过严格验证的有吸引力的想法。考虑下面的场景,你需要改进算法的效果,并且有几个改进的想法。当务之急是尽快列出这些想法并付诸实施。当需要支持数据时,只能共享有限的结果,这些结果很容易受到已知或未知的选择偏差或误导性全局优化的影响(由于缺少适当更改的测试数据)。

21天混入数据科学家队伍(上)

对于数据科学家来说,最忌讳的事情是将情感置于逻辑推理之上。虽然证明算法改进有效性的方法取决于实际案例,但仍有一些一般性的指导原则:

21天混入数据科学家队伍(上)

确定用于效果评估的测试数据没有选择偏差。

确保测试数据有足够的变化,以便扩展真实数据(帮助避免过度拟合)。

确保遵循受控实验的原则,例如,当比较结果时,确保测试环境(硬件等。)的新旧算法是完全一致的。

21天混入数据科学家队伍(上)

确保测试(近似)结果可以重复。

检查结果反映局部最大值/最小值或全局最大值/最小值。

A/b测试是遵循上述原则的常用方法,它将两种算法放在一个相似的环境中运行很长时间,并将实际输入数据随机分成两种算法。这种方法通常用于网络分析。

21天混入数据科学家队伍(上)

第6天:什么是根本原因分析?[格雷戈里·皮亚特斯基回答]

答:维基百科解释说根本原因分析是一种确定错误或问题根本原因的方法。当从问题故障序列中移除某个因素以避免最终不良事件再次发生时,该因素将被识别为根本原因;相反,激励会影响事件的结果,但它们不是根本原因。

21天混入数据科学家队伍(上)

根本原因分析最初用于分析工业事故,现在已广泛用于医疗保健、项目管理和软件测试。

21天混入数据科学家队伍(上)

本质上,通过反复问“为什么”,我们可以找到问题的根本原因和原因之间的关系,直到我们找到问题的根源。这种方法通常被称为“五个为什么”。当然,问题的数量不一定是五个。

21天混入数据科学家队伍(上)

“为什么”分析的例子,来自根本原因分析的艺术

第七天:你熟悉以下概念吗?价格优化,价格弹性,库存管理和竞争情报。请举例说明。[格雷戈里·皮亚特斯基回答]

21天混入数据科学家队伍(上)

答:这些术语来自经济学,在数据科学中并不常见。然而,理解这些术语是有意义的。

21天混入数据科学家队伍(上)

价格优化是使用数学工具来确定消费者对通过不同渠道获得的不同价格的产品或服务的反应。

21天混入数据科学家队伍(上)

大数据和数据挖掘使个性化定价成为可能。现在,像亚马逊这样的公司可以根据用户的历史行为进一步优化价格,为不同的用户实现不同的价格。当然,这是否公平仍有很大争议。

21天混入数据科学家队伍(上)

价格弹性分为需求价格弹性和供给价格弹性:

需求价格弹性是价格敏感度的一种度量,其计算公式如下:

需求价格弹性=需求变化百分比/价格变化百分比

【原文:需求价格弹性=%需求数量变化/%价格变化】供给价格弹性是指商品或服务的供给量随着商品价格的变化而变化的情况。

21天混入数据科学家队伍(上)

库存管理是指对公司在生产过程中使用的各种物品的订购、储存和使用的监督和控制,以及对销售的成品数量的监督和控制。

21天混入数据科学家队伍(上)

根据维基百科的定义,竞争情报如下:

竞争情报:定义、收集、分析和发布关于产品、客户、竞争对手以及做出战略决策所需的任何方面的情报。

21天混入数据科学家队伍(上)

谷歌趋势、alexa、compete等工具。可以在互联网上获得总体趋势,然后分析竞争对手的情况。

21天混入数据科学家队伍(上)

第八天:什么是统计能力?[格雷戈里·皮亚特斯基回答]

答:维基百科将二元假设检验的统计功效或敏感度定义为当替代假设h1为真时,正确拒绝零假设的概率。从另一个角度来说,统计功效是当一个效应存在时检测它的可能性。功效越高,ii型错误的可能性就越低(也就是说,检测结论没有效果,但实际上有效果。译者注:假阴性)。

21天混入数据科学家队伍(上)

第9天:什么是重采样?它有什么用?限制是什么?[格雷戈里·皮亚特斯基回答]

21天混入数据科学家队伍(上)

答:经典的统计参数检测将实测统计量作为理论抽样分布。重采样是数据驱动的方法,而不是理论驱动的方法。这是一种在同一样品中重复取样的技术。

21天混入数据科学家队伍(上)

以下方法可以称为重采样:

样本统计的准确性(中位数、方差、百分位数)[原文:中位数、方差、百分位数]是通过使用可用数据集的子集或随机重复采样一批数据点来估计的。

21天混入数据科学家队伍(上)

在显著性测试期间交换数据点的标记(替换测试,也称为精度测试、随机化测试或重新随机化测试)[原文:置换测试,也称为精确测试、随机化测试或重新随机化测试]

21天混入数据科学家队伍(上)

通过随机子集验证模型(引导,交叉验证)[原文:引导,交叉验证]

第十天:假阳性还是假阴性越多越好?请解释原因。[devendra脱盐溶液]

这个问题取决于要解决的问题和领域。

例如,在医学检查中,假阴性可以给病人和医生提供错误的检查信息,但是当病人生病时,检测到他没有生病,这将导致病人得不到适当的治疗。因此,在这个时候,我们希望有更多的假阳性。

21天混入数据科学家队伍(上)

但是,在过滤垃圾邮件时,假阳性意味着正常邮件将被视为垃圾邮件,从而干扰邮件的传递。反垃圾邮件应该能够拦截或过滤大多数垃圾邮件,但减少误报造成的意外伤害也非常重要。因此,在这个时候,我们希望有更多的假阴性。

21天混入数据科学家队伍(上)

第11天:什么是选择偏见?它有多重要?我们如何避免它?[马修·梅奥回答]

答:一般来说,选择偏差是指一个错误是由一个不完整的随机样本引起的情况。例如,如果有100个测试样本,它们被分为四类(60/20/15/5),但实际训练样本中每一类中的样本数量很接近,则模型可能给出错误的假设——每一类的比例是决定性的预测因子。避免非随机抽样是解决选择偏差的最佳方法,但在实践中遇到困难时,使用重采样、提升和加权等策略也有助于解决这个问题。

来源:罗盘报中文网

标题:21天混入数据科学家队伍(上)

地址:http://www.lzn4.com/lpbxw/12703.html