加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

解读数据科学家“可复制”的成功之道!

发布时间:2018-04-17 12:37:55 所属栏目:动态 来源:李佳惠
导读:副标题#e# 【资讯】很多拥有计算机科学、统计学、工程学、经济学背景的人会疑惑,我怎样才能开始数据科学? 我如何建立自己的技能和知识,才能把数据科学作为职业呢? 所以今天这篇文章希望帮助到那些试图转型的人,使他们的经历中拥有数据科学技能、知识库存
副标题[/!--empirenews.page--]

  【资讯】很多拥有计算机科学、统计学、工程学、经济学背景的人会疑惑,我怎样才能开始数据科学? 我如何建立自己的技能和知识,才能把数据科学作为职业呢?

  所以今天这篇文章希望帮助到那些试图转型的人,使他们的经历中拥有数据科学技能、知识库存的标签。

  从宏观角度来看,现展示下面的维恩图给大家,以帮助理解所需的技能/知识。  

解读数据科学家“可复制”的成功之道!

  从上面的维恩图可以看到有三个组成部分:

  1-数据和IT管理

  2-数学模型

  3-领域的专业知识

  ·数据和IT管理

  先来解释下为什么是这些组件。作为一名数据科学家,我们必须就IT和数据基础设施中的一些领域提出建议,例如如何处理缺失值,能否更细致地捕获数据,如何提高数据质量,如何实施记分卡到现有的系统等。通过对数据和IT基础设施的深入了解,我们可以提出建设性的管理数据并使用我们建立的模型的建议。通过实际的建议,数据科学可以在组织中不断增值和蓬勃发展。

  ·数学模型

  数学模型不需要数据科学家知道它的重要性。但是,有必要考虑计算的复杂性,而不是只有单向的街道进入“最高精度”的城市。

  ·领域专长

  那么,域名专业知识呢?以前作者把这个圈子当做商业专业知识,不过随着经验的积累,发现非政府组织和慈善机构已经开始利用他们现有的数据来使这些捐赠或者事业更长久。因此,这儿想改为“专业领域”,以正确地反映当前的数据科学环境。

  一般来说,当我们决定建立任何模型时,数据科学家应该考虑利益相关者对它的反应。例如,如果我们建立一个模式,将学生细分,并为可能在分班后取得成功的学生提供资源,这将在学生中引起轩然大波,特别是那些被归类为“穷人”的学生。因此,我们希望以真正符合业务目标的方式来构建业务/组织目标和模型,而不会将“损害”带给业务的其他方面。这需要对商业模式、流程和运营等商业专业知识有很好的了解。

  另一个例子是,如果我们需要建立一个推荐系统,精确度永远不会是选择最佳模型的唯一考虑因素。作为一名数据科学家,我们也必须确定所选模型的计算复杂性。

  结论

  对于任何想要学习数据科学的人来说,他们可以从两个主要领域着手,即“数据与IT管理”和“数学模型”。

  解读数据科学家“可复制”的成功之道!

  以上是一个数据科学家所需要的技能和知识的全面观点。以下的内容将重点解读维恩图中的一个内容:数学模型

  介绍

  如果你对数据科学稍有了解,就可以发现我们实际上是使用数学模型来模拟(并希望通过模型来解释我们已经看到的一些事物)如一些业务、环境等,并通过这些模型,我们可以得到更多的见解,如我们做决定的结果,下一步应该做什么,或者我们应该怎样做才能提高胜算。所以数学模型很重要,选择正确的答案能够为企业带来巨大的价值。

  1.线性代数与微积分

  首先是最重要的,就像大多数的功夫电影,主角总是会被一个不好的老板击败的时候,然后继续在外面打拼的时候,遇到了一个聪明的老师教功夫,逆袭击败了那个大坏的老板。在这个过程中,你可以看到,老师们总是从基础的东西开始教起比如:蹲马步。

  线性代数和微积分将被认为是最基本的。鉴于我们所处的“深度学习”环境,尤其如此。深度学习需要我们理解线性代数和微积分,理解它是如何工作的,例如向前传播,反向传播,参数设置等。我们了解这些模型是如何工作的,做出了什么假设以及如何得出参数。

  那么潜在的数据科学家应该学习什么?

  对于线性代数,有矩阵运算(加,减,乘,除)、标量积、点积、特征向量和特征值。

  对于微积分,数据科学家需要了解各种微分(到二阶导数)、积分、偏微分。在阅读一些材料时,他们确实触及了像泰勒级数等数学系列。

  在设计机器学习/统计模型的损失函数、正则化和学习率时,微积分和线性代数的应用非常广泛。

  2.统计数据

  那么在分析的时候如何能逃离统计而不需要进一步的介绍呢?根据经验,当我们打算做市场营销等实验和测试时,需要理解统计,我们有A / B测试。我们通常想了解两个样本之间是否存在统计学差异,或者在某些“治疗”之后是否产生统计学显著效应。

  所以统计学领域就是简单的统计学,比如测量中心性、分布和不同的概率分布(威布尔,泊松等)、贝叶斯定理(后来学习人工智能时非常重视)、假设检验等。

  3.机器学习/统计模型

  解读数据科学家“可复制”的成功之道!

  计量经济学,可能是最接近机器学习/统计模型的。在这项研究中,还有线性和逻辑回归需要注意。该模块在回归模型的假设中涵盖非常大,即异方差性、自相关性、E(e)= 0和多重共线性。为什么这些假设是重要的,因为在训练模型中,我们试图实现所谓的BLUE(最佳线性无偏估计)参数,即包括截距的系数。

  但是当学习机器学习模型时,发现对于回归模型的课程,不再强调这些假设,而是强调设置损失函数、正则化背后的原理、梯度下降和学习率。

  回顾一下,对于任何数据科学家来说,了解机器学习模型是必须的,因为他们需要提出可以帮助为组织提供见解的机器学习模型。数据科学家需要转换业务目标,并将其转化为机器学习模型,以获得答案和见解。

  通常有两种类型的机器学习模型,有监督和无监督学习模型。

  ·监督学习模型

  假设你有两组数据。设置A的行为数据在第1期和第二阶段的结果。集合B仅具有第三阶段(或2)中的行为数据,但是在第四期(或3)中没有任何结果。

  使用集合A,你将训练一个模型,通过观察行为,就能“预测”(或给出概率)结果。随着模型的训练,你将“评分”行为数据,并试图“预测”(或有概率)结果。

  可以使用的模型被称为监督学习模型。它的监督是因为A组“监督”模型的结果提出了很好的预测指标。

  ·无监督的学习模式

  所以你可能已经猜到了,对于无监督学习模型,A组数据没有“结果”,它通常不用于B组数据。实际上,无监督学习模型只是试图找出集合A中的模式,这些模式是由模型的训练算法识别的。

  ·从业务目标转向建模目标

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读