刘烁|新东方刘烁炀:技术是教育行业的“加速器”,而非“推土机”( 二 )


我想问一个问题 , 有没有人想过为什么在过去6年里 , 教育科技发生了如此之大的变革?2020年之前 , 很多人都在做直播 , 功能做得很炫 , 往往做得越炫越忽视稳定性 。
疫情给新东方的技术团队一个特别大的机会是 , 我们一开始上线的时候也会崩 , 但用了3天时间 , 把底层系统重新写 , 做结实了 , 现在内部开几万人的大会都用的是我们自己的直播技术 。
以上这一切都是在过去5年、6年里快速迭代实现的 。 问题来了 , 为什么?你们是怎么做到的?我想告诉大家 , 主要原因在于“卷” 。 一个是外卷 , 过去5年 , 整个教育行业的技术发展真的太快了 , 公司之间相互PK;另一个是内卷 , 很多公司对同样一个应用 , 担心押宝在一个团队万一做不成怎么办?就分成A、B组 , 谁赢了谁留下 , 另一个团队出局 。
过去这几年 , 我们教育行业的AI人才有多么的优秀 。 10年前从来不敢想我们的IT人才会从腾讯、阿里、百度等公司挖来的 , 在过去5年都实现了 。 我们一度在和这些游戏公司、互联网公司PK这些IT人才的薪酬 , 动辄3倍工资我们也敢去挖 , 坦率讲还是行业快速发展的力量 。
我们要承认 , 过去这几年我们的技术变革是行业快速发展带来的 , 而行业快速发展带来的是优秀人才集聚 。
2
第二部分 , 如果有明天 , 下一步该怎么走?个人有三个小的体会:垂直深耕、场景贴近、内容为王 。
什么是垂直深耕?无论是语音识别 , 还是OCR技术 , 我们更愿意把它理解为通用技术 。
举个例子 , 新东方和ETS合作 , 一起做了语音识别测评工具 , 对方提供原形、样本 , 我们和新东方内部AI研究院就做了一个口语测评 。
教学有“讲、练、测、评、考” , 评价一个学生英文说的是什么 , 用语音识别就可以 , 但评价他说得好不好 , 是否符合托福考试的标准 , 就没那么简单 。 我们都知道所有这些引擎、技术是需要用数据去投喂的 。

刘烁|新东方刘烁炀:技术是教育行业的“加速器”,而非“推土机”
文章图片

举一个例子 , 这是一篇代码 , 这个代码我也看不懂 , 这张PPT是IT同事帮我做的 。 他告诉我 , 在这页代码当中 , 有这样一些关键指标(上图) , 是托福口语对一个学生的评判给出的关键指标 , 分别是总分式结论 , 包括语速检测、流利度检测、完整度检测、停顿检测、强调检测、发音长度检测、连读检测、语调检测、单词识别 。
这么多个指标当中我举一个例子 , 叫做语调检测 。 为了验证语调检测这件事做得是否正确 , 我们先建立模型 , 找了十几位托福口语满分的老师 , 按不同评分标准去朗读 , 通过数据的反复验证 , 实现对引擎的训练 。
在雅思批改引擎中 , 每一个题目同样需经过成百上千篇不同水平、维度的文章来训练评分引擎 , 以此来实现更高的准确性 。
这件事情告诉大家 , 所有技术在深耕领域去做才有真正的价值和意义 , 至少新东方是这样认为的 。
除了口语的AI测评之外 , 还有写作批改 。 到现在为止 , 我们都不敢说所有雅思文章都能实现自动批改 , 原因是每一篇文章要给这个评分引擎投喂至少1000份作文 。 你要知道雅思考试有多少题目 , 每一个题目都是一个单独的评分引擎 , 这件事情做得很累 , 但是新东方在做 。
除了垂直领域之外 , 第二个叫做场景贴近 。
5年前流行一个话题叫“微课” , 就是今天的视频课片段 , 有大量的老师录制微课 , 我冒昧地问各位一句 , 大家有没有想过 , 语文老师和数学老师录制微课的需求是一样的吗?不一样 。 数学老师特别在意的一个事是自己一边说 , 一边写这个过程 , 这个过程 , 这个停顿、这个写写画画代表的是书写的逻辑推理的过程 。

推荐阅读