摘要:人机大战的问题:参与实验的几十个学生样本较小,实验时间也较短

国庆期间,人工智能自适应网络教育公司乂学教育在郑州举行了一场教学领域的人机大战——乂学教育的智适应教学机器人与真人教师分别给中学生教授了四天的初中数学课程。

实验结果显示,智适应教学机器人超过真人教学,在最核心的平均提分上以36分(机器教学)胜于26分(真人教学),最大提分和最小提分两项上,机器组也分别高出真人组5分和4分。

人机教学大战在国内似乎还很新鲜,但在国外,早已存在大量人机大战实证研究。

据乂学教育《中学数学智适应教育实证研究报告》举例称:Knewton公司2015年的研究对比了6400门课的学习数据,结果显示通过其自适应系统学习的1600门课,相对于没有通过其系统学习的4800门课,对于提高学生成绩更有效,其中通过其自适应系统学习总量最多的1000名学生的平均提分比没有通过其自适应系统学习的学生的平均提分高出4分。美国雷丁区社区学院学生使用 Pearson MyMathLab 智适应学习的学生,比未使用的学生数学分数高出 12.5%……

我们忍不住好奇,机器教师真的超过了真人教师吗?智适应、自适应与人工智能之间有何关系?有科学家向鲸媒体坦言,此次人机教学实验其实仍然是一种基于题库或老师录像等组织形式的变化,而不是真的塑造了一个很人格化的、机器智能的教师,也不是基于对学科本身的透彻理解而构造的智能知识体系的传输。那么AI+教育的终极目标——对所有学生普及的个性化学习又有多长的路要走呢?

 

一问:机器教学比真人教学提分高,怎么测评?

据介绍,实验开始前,乂学教育先给78名中学生进行了一轮数学摸底测试,根据成绩段划分为两组,分别接受机器教学和真人教学。活动招募了三名17年平均教龄的中高级老师在对照组进行真人授课,实验组学生完全使用乂学教育开发的智适应教学机器人进行学习。在四天时间里对初中数学做针对性和集中性的教学辅导。

两组学生都在10月1日至4日连续学习,每天学习4小时,学习流程也一致,包括休息时间、休息次数等。所有学生在最后一次课结束后,进行了60分钟的纸质卷后测。通过前测和后测来比较两组学生的学习效果。

实验结果显示,真人组共有38名学生完成了对比试验,平均提分26.18分;智适应系统组共有40名学生完成了对比试验,平均提分36.13分。智适应教学机器人效果高于真人教学,在最大提分和最小提分两项上,机器组也分别高出真人组5分和4分。

乂学教育在分析报告中还指出,真人教学提分在低分数区间(0-16,24-40)的学生人数比机器教学的更多,机器教学提分在高分数区间(40分以上)的学生人数比真人教学的更多。智适应系统(机器教学)的提分分布比真人教学更加右移,说明通过智适应系统学习更有可能达到更好的提分效果。

除了前测和后测卷之外,此次对比试验还使用了问卷、访谈和命题作文做为研究工具。收集学生对课程和系统的反馈数据,并让学生点评所使用的系统。

在本对比试验中,学生通过系统学习后一共对33名使用智适应系统学习的学生进行了访谈,访谈数据如下所示

(截图来自乂学教育《中学数学智适应教育实证研究报告》)

为保证人机大战公平公正公开,乂学教育介绍,共采取了五重措施来保证参加测试样本的真实有效:1)所有前测卷和后测卷都由第三方教育局教研室资深老师独立出题;2)四天的试验过程都进行了实时直播和录像供所有人监督和回放复核;3)试验过程中有媒体、艾瑞和其他教育机构做观察员实地监控;4)测试卷和智适应教学机器人上的试题经过媒体抽样调查保证无重复或类似试题;5)使用智适应教学机器人的学生访谈都有录音记录备查。

我们观察到的一个细节是,真人组有38名学生,而在机器有40名学生为什么真人组和机器组的学生人数不一样?这是否会影响到实验结果?

鲸媒体就此专门采访了一名业内专家,他表示,“对比实验采用的分析方法没有问题,是统计学常用的标准方法,从统计的意义看,并不需要关注参加实验的两组人数的不明显差异,即使人数有明显差异,也有对应的实验方法可以保证分析结果的客观性。”

 

二问:智适应自适应人工智能之间有何关系

乂学教育在新闻稿中称:“乂学智适应教育组织的这次人机大战,证明人工智能在更复杂的教育领域也超过了人类。”

我们好奇的是,何为智适应教育?它和自适应学习有何区别?和人工智能的关系如何?

乂学教育创始人栗浩洋对鲸媒体解释称,自适应的发展已经有二十多年的历史,自适应技术之前是基于规则的,没有应用人工智能,所以一直没有取得非常好的效果。“因为基于规则的自适应就好像是自动驾驶的汽车,在小区里面开5公里/小时,小路开10公里/小时,大路开20公里/小时,上高架时开60公里/小时,这种方式遇到完全与众不同的学生时,会发现和学生的学习速度、学习效果匹配不上,规则自适应就会完全失灵。所以过去的自适应给学生的知识点测试全部都是基于规则。 

“而智适应是基于人工智能的算法,实时根据学生的学习情况进行互动,然后实时根据这个学生的学习情况和其他的大数据来去运行算法进行分析,什么才是最好的、最佳的学习优化方案。

在乂学教育公布的《中学数学智适应教育实证研究报告》中,对数学智适应系统的两个功能特点是这么阐述的:

栗浩洋认为,在此次人机教学实验中,因为机器教学更有针对性,学生时间都花在了薄弱知识点上,做到了查缺补漏,而真人教学是一刀切的教学模式,学生只在老师讲授的知识点上有所收获,不能够针对不同学生的不同程度给予不同的教学内容,机器教学的学习效率更好,因此学习效果也更出色。

既然智适应系统如此强大,那么它赚钱了吗?又是怎么创造收入的?

鲸媒体从乂学教育方面了解到,目前公司的商业模式是加盟,即付加盟费,机构使用智适应系统并露出乂学教育的品牌;目前乂学教育还未实现盈利。该公司有600多人,接近1/2是研发人员,包括AI工程师、数据科学家、算法工程师、系统架构师、中高级教研老师、产品和技术人员等;非研发人员包括线下团队(市场、销售、老师)和线上团队(全国学校的拓展和支持服务)。

成立于2015年6月的乂学教育在当年获得了3100万人民币的种子轮投资,由青松基金、正和磁系资本、好未来集团和新东方创始人俞敏洪共同投资。2016年,乂学教育获得1.2亿元天使轮投资,由国科嘉和、景林资本和新东方教育集团共同投资。

 

三问:所以,AI老师教学质量比真人老师还高吗?

此次试验结果表示智适应教学机器人效果高于真人教学,那么这就意味着AI老师教学质量比真人老师还高吗?

北京师范大学数学科学学院副教授赵亮对鲸媒体表示,实验本身所采取的抽样、统计分析的方式并无不妥,但几十个学生样本较小而且实验时间只有四天,时间太短并不能充分评估这种学习方式的实际效果和长期效果。“作为新的学习方式,又是顶着实验和高科技的帽子,学生在学习过程中会特别关注这种方式,所以短期实验可能会影响到客观性。”

中央财经大学中国精算研究院副教授、大数据中心负责人张宁也对鲸媒体表达了类似观点。“对于一个只使用四天的系统,大部分学生开始肯定是喜欢的;如果这个系统一年365天都在用,其结果可能不一样。”

他认为,此次人机教学实验其实仍然是一种基于题库或老师录像等组织形式的变化,而不是真的塑造了一个很人格化的、机器智能的教师也不是基于对学科本身的透彻理解而构造的智能知识体系的传输。

比如数学中的几何证明题,某类题型的解题方法是有限的,假设只有5种方式。机器会根据具体题目从5种解题方式中选择最优的方式推给学生,但并没有创造新的(第6种)思路或方式。

张宁坦言,“如果真的产生了一个很智能的老师,不管是设计还是其他方面,它都需要对这门学科有非常深的把握,然后再基于一些可能是我们不知道的黑箱技术,能够产生更多思想甚至创造思想但目前这种技术还没有用在教学上面,不过即使用上了,我觉得对中学生来说意义并不是很大,毕竟高考不是以这个为考核标准。”

值得一提的是,上述两位专家都指出,该智适应系统可以在学习的某些阶段上起辅助作用,作为一个很好的助教功能“比如老师讲了很多天课,可能中间有两三天换做这种方式;或者是老师针对某些题型的技巧来使用(智适应系统),我想这种形式是很适合的,因为它是通过研究很多人经验后总结出来的,通常会比普通的、固定的某个学校的一个老师(更适合),更适应学生的一种学习习惯。”张宁解释道。

不过,他认为,如果长期来看,这可能会带来一个很大的问题,“中国的数学教育是基于技巧型的,是属于‘术’而不是‘道’,这跟国外教学不一样,我觉得未来中国这种基于技巧形式(的教学)可能也会慢慢转变,这对这种形式(机器教学)的影响也蛮大的。”

不可否认的是,在某些特定场景下,AI或机器可以替代真人教师,也一定会发展出大量有用的辅助手段,但赵亮认为,现阶段要完全替代真人教师暂时还看不到希望。单看人工智能在个性化学习上的应用,他认为需要走的路还非常长,“即使现在还达不到最终的理想状态,这个事也可以做的非常高级,很多有挑战性的工作已经有技术基础,也一定可以做到比单纯靠人的教学效果好。”

在AI或机器还未替代真人教师时,或许我们也应该意识到AI老师和真人老师的区别。AI老师可能脑容量很大,但与学生的互动、对学生感情和情绪的照顾似乎目前还没办法像“大白”一样;除了教授解题技法,学生依旧需要真人教师的关怀。尤其对处于叛逆期的青少年而言更是如此,教育的核心在于人的心灵,心灵的成长和身体的成长同样重要。教育不是培养学习的机器,而是培养有健康心态、有创造力、有学习能力的人。

 

四问:个性化学习的门槛是什么?

鲸媒体采访获悉,除了数学科目,目前乂学教育的智适应学习系统还运用在了语文、英语、物理学科。

不过,业内资深人士M先生对鲸媒体坦言,乂学教育的智适应系统确实有一些机器学习的方法使用得较为成熟了,但还不是现阶段公认的AI,即深度的神经网络,“深度学习网络的标注是非常复杂的。”他解释说,AlphaGo与人对战的围棋是所有人都知道规则,“当所有都是定量、只有一个变量的时候,可以人机大战。而提分则没办法界定到底是否因为学生本身就能力很强,变量太多,所以不好衡量。”

也许AI+教育的终极问题是,如何才能有足够强大的算法,真正了解每个学生?真正实现个性化?

首先应该考虑尽量多维度的数据,学生数量、题目数量,推送频次等等各方面;而且对此还需投入足够多的时间、人力、资金、资源等,以及由时间带来的数据的增量。此外,在算法上的研究和投入也不可或缺。

目前,我们听到最多的人工智能其实是深度学习,深度学习因其框架的开源、计算能力的大幅提高,而得到突破性发展。深度学习一般都会用到自然语言理解、图像识别、语音相关等等技术。而自适应技术其实在二三十年前是和神经网络并行发展的一种技术,甚至那时候比神经网络还要热门,但自适应学习并不是自适应神经网络。“目前在商用或公益性质方面运用较多的产品还是自适应学习产品,确实是有效的教学手段,可以认为这都是机器学习的一种。”赵亮坦言。

他透露,在现有技术条件下,可能有些公司知道实现个性化或人工智能教学的路线和场景,“但是多数公司没有条件和耐心去收集足够的数据做一个足够完善的工程,一般都是抓住其中一点深耕。全盘规划和探索是科研人员和政府应该主导的事情。”

在张宁看来,人工智能对教育的改变有三步:学习规律的探究和应用(适应方法的画像)知识理解和迁移情感交流和心理认知。“我相信深度学习可以突破到第二层面,但是第三层面可能需要更突破的人工智能技术的支撑。”

现阶段而言,乂学教育方面采用的还是人机结合的教学模式,70%智适应系统学习+30%老师个性化辅导,虽然可以节约一部分老师成本,但可能还处于初级阶段,真正的行业壁垒要建立起来还需时日。AI改变教育市场要成熟并且受到认可,似乎还需要较长的酝酿发酵期。

可以预想到的是:未来,教育领域还会出现更多的人机大战,惊喜和惊吓,哪个会更多?