机器学习过程的三个坑，看看你踩过哪一个

发布时间：2019-08-13 09:06:26 所属栏目：经验来源：大数据文摘

导读：副标题#e# 大数据文摘出品编译：Vicky、曹培信几十年来，机器学习领域一直饱受坦克问题(tank problem)的折磨。故事发生在上个世纪60年代(此研究已知的最早文献，此处感谢软件工程师Jeff Kaufman)，事件的细节已湮没在时间的迷雾当中，不过故事大概是这样

机器学习算法要求研究员明确一个用来估量各种错误严重度的“损失函数”，例如到底是有两个1%的错误好，还是单个2%的错误更合理。从业者们倾向于应用函数的一小部分，从而导致他们无法得到真正需要的内容。

还是举个例子，大家一直有用机器学习来辅佐求解微分方程。这些公式在包括流体力学、电磁学、材料科学、天体物理学和金融建模中很常见，一般情况下它们必须以数字方式解决，然后开始训练模型，从而能在有限的条件下提供更高的精确性。

比如说从一个方程开始描述水波如何在一维进行传播吧。该算法的任务是从当前的时间步长来重复预测下一步，在这方面可以准备两种略微不同的方法与训练模型。根据损失函数来看，这两个模型是一样优秀的，但实际上其中一个做了一堆无用功，另一个的产生结果更接近预期。

原因就是控制学习的损失函数只考虑到了下一步的错误，而不是研究者真正想要的多重步骤的解决方案有效性。

我们在糖尿病视网膜病变的机器筛查方面也出现了分歧目标。这是糖尿病的一种并发症，也是世界上可预防性失明的主要原因。如果能从眼后图像及时检测到该病症，它就能被有效治疗。当我们收集数据并且让眼科医生通过图像进行诊断时，我们让机器学习的工具预测一下医生都会说些什么，此时出现了两种情况。

机器学习过程的三个坑，看看你踩过哪一个

在印度Madurai的Aravind医院，工作人员和谷歌研究员正在进行眼科检查，试图自动诊断由糖尿病引起的失明。图源：Atul Loke /纽约时报/ Red / eyevine

情况一是眼科医生经常不认同诊断，因此研究人员意识到不能通过单一的预测来建立模型。总不能来个投票说少数服从多数，因为在医疗上，有时候少数人的意见才是正确的。情况二是单一疾病的诊断实际上并不是真正的目标。因为往往需要问的是：“这个患者需要去看医生吗?”，然后通过这种方式将目标从单一疾病的诊断扩展到多重疾病。

机器学习从业者很容易迷恋上数据标签都清晰的 “明显“目标，但他们可能正在设置算法来解决错误的问题。所以必须牢记大方向和总目标，否则就只会为错误问题埋单。

那可以做什么呢?

首先，机器学习专家需要让自己和同事们持有更高的标准。当有新实验设备到来时，大家总是寄希望于实验室的小伙伴们搞懂其功能，怎么校准，怎么检测到问题，还要了解其功能的限制。因此，面对机器学习时也应如此。机器学习不是魔法，工具的使用者们必须了解如何掌控它们。

其次，当需要使用机器学习时，不同学科需要为其制定出明确的标准。合适的控制、健全性检查和错误的测量会因领域而异，所以这些都需要解释清楚，以便研究者、审查者和从业者有规可循。

第三，机器学习科学家们所受的教育需要包括一些更广泛的内容。即使有些类似于这样开源的资源存在，需要做的仍然很多。授人以鱼不如授人以渔，可能更多人只去学算法与工具，但学习如何应用算法与适当地提出质疑也很重要。

所有从事机器学习的人都正处在一个神奇的点上——计算能力、数据和算法交织在一起，在机器学习的的协助下碰撞出了新的美妙火花，利用好这个机会将是整个科学界义不容辞的责任。

谷歌AI教育：http://ai.google/education

相关报道：https://www.nature.com/articles/d41586-019-02307-y

【本文是51CTO专栏机构大数据文摘的原创译文，微信公众号“大数据文摘（ id: BigDataDigest）”】

大数据文摘二维码

戳这里，看该作者更多好文

（编辑：南平站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

hosts是什么意思？hos	win7连接轻量服务器提
wordpress优点与缺点各	网站建设的步骤和流程