摘要:智适应人机大战的疑问和回答

今年国庆期间,乂学教育的智适应教学机器人与真人教师对战,结果显示,最终在平均提分上,机器教学班以36分胜于特级教师班的26分。对此,鲸媒体刊发了观察文章《听说真人老师惨败AI老师?你可能想多了……》

日前,乂学教育针对业界疑问进行了回应。本文为公司投稿,不代表鲸媒体立场。

 

关于实验时间及样本的疑问

北京师范大学数学科学学院副教授赵亮就针对本次人机大战的效果提出了质疑,他认为实验本身所采取的抽样、统计分析的方式并无不妥,但样本群体本身太小,试验时间太短,最终的结果无法有效评估这种学习方式的实际效果和长期效果。

中央财经大学中国精算研究院副教授、大数据中心负责人张宁也表达了类似的观点。“对于一个只使用四天的系统,大部分学生开始肯定是喜欢的;如果这个系统一年365天都在用,其结果可能不一样。”

针对两位教授提出的心理和激励上的教学要求,以及对短时间实验的质疑,乂学教育方面称:四天内实验得到的效果证明,是基于广泛和长期的科学方法,即针对个人的特点,采用最合适的教学内容和手段,达到提高同等时间内的效果提升。

因此,乂学教育的教学方式,其优势是可以根据时间的长短进行积累,在大规模运用的状态下,更可以集中得以体现。

在教育更为发达的美国,在K-20教育领域,自2014年开始也逐渐向智适应方向发展,经过多个十万级的测试研究,也都证实了智适应方法的广泛有效性,Knewton旗下一款智适应产品“Adaptive follow-ups”可以根据学生需求为学生安排不同的任务和作业。一个针对该产品的大规模研究分析发现,分析2013年夏季和秋季学期大约6400门课程中约288000名学生所提交的答案,研究结果显示在课程中使用智适应作业的学生的效果平均要比未使用的学生好4个百分点。在计算能力和算法呈指数级增长的大环境下,这种优势会滚雪球式地扩大。

 

关于教学模式的疑问

张宁对于人机大战的质疑,除了使用时间长短带来的心理激励因素外,他认为,人机教学实验本质仍然是基于题库或老师录像等组织形式的变化,而不是真的塑造了一个很人格化的、机器智能的教师,也不是基于对学科本身的透彻理解而构造的智能知识体系的传输。

基于此,赵亮和张宁都认为,智适应系统可以在学习的某些阶段上起到辅助的作用,作为一个很好的助教功能。但现阶段要完全替代真人教师暂时还看不到希望。

乂学教育回应称,智适应系统首先是对学科知识体系的输入和学习,包括纳米级拆分的知识点体系,还有思维、方法、能力模块。语文学科有识记、理解、运用、分析、综合、评价六大认知层次,以及40个细分认知能力;物理学科有观察猜想能力、数形结合能力、模型应用能力、试验方案设计能力、空间想象能力、实验操作能力等16种物理能力,以及分割累积、等效、整体隔离等10种物理思维方法;数学学科有观察与发现、联想与猜想、方程的思想、数形结合思想等13种思想维度,以及构造法、类比法、反证法等19种方法维度。

区别于以教师为中心的传统课堂,智适应教学模式是以学生为中心的。教学过程以智适应系统为主,老师为辅。在人机大战实验中,机器组的学生是独立自主地在机器上学习,完全没有真人老师的教学干预。

乂学教育的智适应系统能够提供测学练测完整闭环的教学过程,做到完全代替老师教学。智能化测试快速高效地精准地定位学生知识状态,找到学生的薄弱环节;学习过程中,系统实时评估学生知识掌握的熟练程度、追根溯源分析学生学不会的原因,并及时动态调整学生接下来的学习内容和学习路径,最大化学生的学习效率。

值得注意的是,在回应中,乂学教育表示将用最好的技术来打造模拟优秀特级老师的教学机器人。用全球创新界领袖人物之一、奇点大学创始人彼得·戴曼迪斯的话说,几十年后,世界上最好的教育将由人工智能提供。

根据国务院印发的《新一代人工智能发展规划》中对于教育领域的表述,人工智能在教育行业全面铺开,具体应用包括AI为学生提供个性化学习;拍照搜题回答问题;语音识别测评;对教学体系进行反馈和评测等。

乂学智适应教学产品,采用70%机器算法,30%真人老师个性化辅导的构成,取长补短,达到更现实的使用性均衡。乂学的教学模式是人机结合的教学模式,人机大战也只是比较机器与真人的教学能力,如果把教育”这个词拆开来讲,可以分析教学育人这两部分,人机大战比较的是前半部分。

人的精力是有限的,人类老师大部分精力花费在备课、授课、出卷子、改卷子这些重复的劳动中,极少或没时间去做“育人”的事情。人工智能与教育的结合,将带来更好的教学体验,老师们会被解放出来去做那些更有价值的、机器无法替代的重要事情,比如关心学生内心的想法和感受,缓解学生情绪和压力,给学生做心理辅导,增强学生的学习动力,培养学生的创新、创造能力和解决问题的能力。

AlphaGo再厉害,它的技能也无法传授给人类,因为AlphaGo是个下围棋的高手,但不会教人下围棋,AlphaGo背后强大的算法模型也不是人类能够学习会的。而教学机器人则不一样,它的价值和意义就是去模拟优秀的特级老师如何帮助学生更高效地学习。人工智能对教育的改变,确实不可能完全替代,一步到位。

 

关于AI技术的疑问

针对乂学教育的智适应系统,有专家认为,并不是现阶段公认的AI当所有都是定量、只有一个变量的时候,可以人机大战。而提分则没办法界定到底是否因为学生本身就能力很强,变量太多,所以不好衡量。

乂学教育回应该质疑时表示,人工智能在60年发展的历史长河中,产生出了多个学派,包括神经网络学派、概率统计学派、统计机器学派。深度学习是一种神经网络技术,神经网络是一种人工智能技术,机器学习也是一种类型的人工智能技术。

智适应学习并不是机器学习的一种,虽然人工智能中也有智适应学习方法,但是教育领域的智适应学习与机器学习是不同的概念。

智适应学习(adaptive learning)是一种结合人工智能、数据挖掘、认知科学、教育学、心理学、行为科学和计算机科学的技术,其最终目的是让智适应学习系统在一定程度上能够模拟人类教师的角色,根据学习者的学习目标、学习行为、偏好和学习状态,利用特殊的教学策略动态地调整学习内容,以达到个性化教学的目的。

国外的智适应学习技术已经发展了20年,有了很多的积累和沉淀,特别是在针对教育的AI算法这块。AI算法有成百上千种,没有一种普适性的算法能够应用在所有领域,只有适合该领域最合适的算法。寻找到哪一种最合适应用在教育领域、适合模拟认知过程和教学模式,是一个长期探索、不断尝试的过程。国外的智适应学习产品已经找到了合适的算法模型。

国外的智适应学习已经应用得非常广泛,智适应学习产品有几十个,比较知名的包括Knewton、RealizeIt、Smart Sparrow, CogBooks、ALEKS、Knowre、Dreambox等。应用在了所有的学习阶段:从小学、初中、高中,到大学、成人、职业教育都有应用,而且各种不同的学科都有覆盖。

乂学教育采用了当前世界领先的智适应学习技术,并且做了本地化,与中国的应试教育和中国教育体系有机结合在一起。乂学教育研发的智适应系统采用了多种AI技术,包括贝叶斯网络、贝叶斯推理、信息论、模糊逻辑、进化算法和神经网络。

大数据的采集在乂学教育是实时完成的,学生在智适应系统上完整的学习过程都被记录下来,包括学生观看视频的数据、做题的数据、登录系统的数据等,这些数据经过清洗后用来训练和优化我们的AI算法模型。最重要的是,核心的智适应学习技术结合多种模型来给学生和教师不断地提供个性化的建议。但对于智适应AI而言,特别是随着现代技术(比如GPU加速的深度学习)的发展,这样的分析和帮助可以随时自动完成。

 

理论普及:

贝叶斯推理和贝叶斯网络等贝叶斯理论是人工智能的重要分支。机器学习分为联结主义和符号主义两大学派,后来华盛顿大学教授Pedro Domingos在2015年的ACM Webminar上提出了机器学习五大流派的划分:符号主义、联结主义、进化主义、行为主义还有贝叶斯派。贝叶斯之父Judea Pearl是人工智能领域最高荣誉图灵奖的获得者。比尔·盖茨曾说过,微软的竞争优势在于“贝叶斯网络”方面的专业能力;为大家所知的是,谷歌在无人驾驶汽车中也使用了贝叶斯系统。另外,贝叶斯模型还被Autoonomy、Netflix等公司使用,甚至被用来精确推测50个州的总统竞选结果。

2015年12月11日,《Nature》封面论文谈到,三名来自麻省理工学院、纽约大学和多伦多大学的研究者,开发了能像人类一样学习的“写字”系统,其背后的原理就是贝叶斯程序。论文提出了一个概念:人工智能可以像人类一样学习了。它的摘要中写着:人们学习新的概念,往往能从单一的案例中学习,而机器学习则需要成千上万的数据才能达到类似的精度。人们也可以用更丰富的方式学习概念,例如在行动、想象和解释层面。我们提出了一个计算模型,捕捉到人类的学习能力,为基于字母的手写体创造出直观的概念。在这模型背后,研究者使用了简单的贝叶斯程序完成。在这个具有挑战性的分类任务中,贝叶斯程序战胜了深度学习方法,达到了人类的水平。这个模型也通过了图灵测试。

信息论的发明者香农,也是图灵机理论和人工智能领域的先驱者,对人工智能做了开拓性的贡献。

遗传算法(Genetic Algorithm)是人工智能技术领域的一个分支,是模拟达尔文生物进化自然选择理论的计算模型。

 

鲸观察:

自适应学习是多学科融合的一种教学手段,很多相关产品的有效性是经过科学验证的,在国内也不是新鲜事物,每个落地的产品,都有它的优点和独到之处。现阶段自适应学习在国内未得到普适性的使用,有技术原因,有产品推广的原因,也有文化、政策的原因。

在乂学教育关于人机大战的评估报告中,用来说明这种教学手段有效性的数据,是通过统计方法得到。事实上,除了看统计结果,还应该评估统计结果的可信度,而这和样本的数量及抽样方式有密切联系。此前Knewton旗下智适应产品“Adaptive follow-ups”的实验样本是2013年夏季和秋季学期大约6400门课程中约288000名学生所提交的答案(研究结果显示在课程中使用智适应作业的学生的效果平均要比未使用的学生好4个百分点)。乂学教育还是个年轻公司,从人机大战的总体数量和样本数量,我们也可以感觉到未来在样本方面还有可提升的空间。

因此,根据乂学教育所提供的评估报告,不能否定或者完全肯定这种教学手段的有效性,可以由评估报告得到的客观结论是:相应的统计数据表明,智适应系统值得在更大范围内进行长期测试。