专访“流利说”首席科学家林晖：如何用机器学习帮中国人说好英语

发布时间：2016-11-21 06:10:57 所属栏目：模式来源：品玩

导读：副标题#e# 由于长期“哑巴英语”式的语言教育，大部分以英语为第二语言的中国人一直都有着一个问题，那就是擅长读写，却在不擅长口语。但由于资源有限，不是每一个有英语口语提升需求的人都能得到外教的一对一辅导。针对这个问题，英语流利说的解决方法是利

其实懂你英语里面还有我们核心技术的另外一块，就是所谓的自适应的学习的部分。就相当于你可以认为之前的识别是听觉，评测也是听觉，感知，但是人工智能需要认知和决策。你到这个教学里面的话，它就是要能够懂你，为什么叫懂你英语。懂你英语不单是能听懂你，它要知道你的知识点的缺陷，你的各种能力，你的技能都掌握到什么程度，它要懂你这个内容，和内容能够帮你提升什么。

有了这些以后，那它的另外一个技能就是它做决策，怎么样一个方式来教你是能够最适合你的，最能帮助你提升你的水平的。这里面是我们叫自适应学习的技术。它也用到了深度学习的一些进展。

PW：能不能大概讲一下这个自适应是怎么样运作的，以及它达到的目的。

林晖：现在在线教育这一块，自适应其实还蛮火的，大家都在说做自适应。它本质上要解决的问题就是千人千面，个性化教学，因材施教。每个人的学习路径是不一样的，那怎么做到这一点?自适应是这么做的，建立一个知识图谱，把内容和学生关联起来，就是通用做法。其实也不难理解，一句话来说就是缺啥补啥。我要知道我这一块内容是补啥的，我要知道你缺啥，那我就给你什么内容，这是最简单的一个解释，其实比这更复杂，但是基本的思路是这样的，缺啥补啥。

但我们的自适应学习系统是没有做知识图谱的。一个学英语的人，他会说英语，他可能真的不知道什么语法，他可能不知道什么是定冠词，什么是不定冠词，这个东西其实不确定。

另外更大的原因是说，你有了这个知识体系以后，你还得把你的内容挂上去，这件事情是非常繁琐的。你想象，比如说如果你有一千个知识点，你要更细的话一万个，甚至十万个知识点，你要把你的内容都跟这个做对应，这个工作量大，比你编写这个教材的工作量要大得多得多。这件事情其实我们觉得不太靠谱。

所以我们决定还是用以前的思路，也就是数据加深度学习。如果我们能够有不断的数据进来，我们再结合深度学习技术，是不是能够来解决这个问题，那其实你想想，知识点的作用是什么呢?它其实就是解决了一个把学生和内容关联起来这件事情，缺啥补啥。

机器要知道这种关联性，需要大量的数据，这个我觉得OK呀，我们产品上线，用户在用，所以数据就源源不断进来。

这个数据是什么?这个数据其实是我觉得互联网产品最神奇的地方。比如说Google的搜索，它的数据其实也是源源不断来的，但是这个数据很有价值，因为它来自用户点击。用户的点击行为就能够教到机器说用户喜欢什么，这个我们在术语叫做带标签的数据。

到我们这个场景里面，其实也是很有意思说，我们这批数据也是带标签的，是什么?学生答题的数据。他答题的对错我们是知道的，学生答题的行为，答题的对错，这些数据就是你说的这种另一种形式的数据，另一个框架内的数据。

而且我们也发现，随着产品的上线，用户数据越来越多，我们的预测是越来越准的，这个准度怎么衡量?就是我们的AI能够预测一个学生答题的对错。现在比如我题库里面有一万道题，你做了大概100道题以后，我基本上能够以超过90%的准确率，预测你其他9900道题里面，你虽然没做，但是我能知道以你现在的水平做对还是做错。

我们看到，随着我的用户进来的数据越来越多，我这个预测准确性也是在不断攀升的，就是说这个智能是在不断进化的。

PW：后来加入你们的那个语言学家Lance Knowles博士主要负责什么工作?

林晖：他跟我们合作的一个原因就是，他试用了英语流利说后觉得我们上的语音评分是他用过的世界上最好的。他看到我们的技术就非常想跟我们合作，他现在是我们的一个顾问。我们结合他的理念和我们的技术，想把把懂你英语的模式发挥得淋漓尽致。其实现在用户用下来的感觉就是，一开始可能有些不习惯，但是其实慢慢发现，这真的是管用的，我觉得效果才是核心。

PW：你们还推出了一个“雅思流利说”的付费产品，这个产品背后是用的什么技术呢?

林晖：雅思这件事情其实是沿着我们整个技术脉络的一个自然的产品。我们希望用AI的技术，让教育，比如说语言学习这件事情更高效，把它的效率提升。那么你要做到效率提升这件事情，首先得把学习的过程数字化、量化。到语言学习这一块，前面很重要的就是，对这种口语能力评判的一个数字化，一个量化，这就是很自然的一个技术重点。

后面的自适应是在你做了数字化、量化以后，怎么样去优化它的效率，怎么样去编排你的内容，怎么样选择这个策略，相当于决策的过程。前面这部分语音评测、语音评价，相当于是感知的部分。这整个技术的脉络是这样的。

当我们把感知这一块做得足够好的时候，其实很自然的出来的产品就是雅思流利说，我们能够给考雅思的用户，考生，提供一定的价值，能够帮他们解决像刚才之前跟你聊的那些痛点，就是模考难，想得到反馈难，周期长且贵。我们用这样的技术来解决这样的问题。

这里面从技术上来看，脉络上其实跟我们原来想的是一致的，这是一个自然的产品出来。像之前说的，比如说从跟读里面积累语音识别的语料，最能听懂中国人说英语的识别引擎，都是这个基石。而在这之上做一些自然语言处理，自然语言理解的技术，给出反馈。这部分我们觉得是很还蛮有意义，蛮有价值的。

PW：能不能讲一下模拟雅思考试的整个评判过程?

林晖：雅思的口语考试呢，是现在公认的能够比较客观、比较全面地衡量一个人口语水平的考试，它是一个真人考试，一个考生进来，你是面对一个真人考官，真人考官会问你问题，你根据他问的问题去回答。是一个真正的语言交流的过程，考察的是你的语言的使用能力。

这里面对于雅思考生来说，他其实很难去做一个模拟，是因为他需要真人，你需要有这样评分能力的老师，这样的老师毕竟少。所以雅思流利说就是从这个角度切入，我们提供这样一个模考成绩，并且给你一个评分的报告，这个报告首先够精准，第二个它能够给你一些具体的建议和反馈所以我们在做雅思流利说关注的技术上的指标其实有好几个，第一个是评分的一致性，评分是否足够精准跟你去真的雅思拿到的分数一样的。

而这个是怎么来做的?这里面我也觉得是AI能够做得比较好的地方，就是AI比较客观。人难免主观，人难免会有误差，会犯错。尤其是对于这种没有标准答案的测试。你写个作文，满分就还是比较主观的东西，你让人去改，虽然有一定的雅思评分标准，但是人去改的时候，难免会有一些主观，会有一些误差。

（编辑：南平站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/7

首页

尾页