3.3 教育大数据分析技术
20世纪90年代,美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,啤酒与尿布这两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。
背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。
由此,沃尔玛就在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而极大提升商品销售收入。
这个故事就已经告诉我们数据和数据思维的重要性。这种数据分析技术和方法称为数据挖掘,如今,我们在各行各业都能看到利用数据挖掘辅助决策的经典案例。
以我们熟悉的NBA为例,《体育画报》里的一篇关于NBA的文章中提到:“二十年来,所有年度防守球员退役时都有枚戒指戴。”同一期《体育画报》中另一处写道:“关键时刻(最后5分钟双方分差小于5)中,麦克格雷迪有80%的得分靠单打得来。相反,姚明在‘关键时刻’有高达60%的得分依赖助攻。”
从这些充满质感的数据和来自数据中的事实可以看出,NBA掌握了非常行之有效的数据分析技术,并运用这样的技术对其数十年如一日不厌其烦收集的数据进行了挖掘。
在教育领域,教育数据挖掘是从技术层面来获取更多的教育大数据的内涵,可以利用多种成熟的数据挖掘方法,如分类(Classification)、估计(Estimation)、预测(Prediction)、关联(Affinity grouping or association rules)、聚类(Clustering)等。但要从教育大数据中发现重要的教和学的规律,仅仅依靠数据挖掘技术是不够的,还需要结合教育学、心理学等多个学科的理论和方法。这些技术混杂在一起,形成了一门新的技术:学习分析技术。
2005年,educause上的一篇文章预测了学习分析技术的出现。自2011年起,与学习分析相关的国际学术会议每年定期召开,学习分析技术逐步成为高等教育领域内的研究热点,也被认为是教育技术大规模发展的第三次浪潮。
学习分析技术的飞速发展,一方面是大数据的出现使得相关的模型、算法、体系架构不断成熟和完善;另一方面,借助在线学习的热潮,研究人员更容易得到全方位的学习过程数据。此外,商务智能、网站分析、行动分析、教育数据挖掘、运筹学、社会网络分析等相关领域的快速发展,为学习分析提供了理论和技术支持。
如今,学习过程数据来源非常广泛(图3-11),除了学习者在参与各项活动时直接产生的数据,还有通过语义分析、智能连接所生成的间接数据。
图3-11 学习数据来源
借助于学习分析技术,我们能够将这些数据结合起来,对学习的过去、现在和将来进行深度的理解和描述。
对“过去”的分析是描述发生了什么,为什么发生,如何发生。比如为什么选同一门课的学生成绩普遍偏低——原因可能包括缺乏相关基础知识。
对“现在”的分析可以帮助我们了解正在发生什么,可以采取的最好措施是什么。比如当发现某某学生课程可能通不过,教师可以及时提供学习材料,引导学生进行补救。
对于“将来”则是预测可能发生什么,将过去的数据当作推断的根据,预测、模拟其他措施的效果,确认最优举措。比如以往某一学习活动对不同学习风格的学生的影响有所不同,可以推断针对不同学习风格设计的学习活动能提高学生成绩。
学习分析技术发展至今,已经建立了比较完整的分析体系和相应的工具集,主要包括学习网络分析、学习内容分析、学习能力分析和学习行为分析。
学习网络分析
21世纪的学习呈现出一种越来越个性化、分散化、生态化的趋势。事实上,独自坐在电脑屏幕前学习的你并不是孤独的。学习者和学习者之间、学习者和学习资源之间都存在着某种联系(图3-12),找出这种关联,并作出详细的描述与归纳,这就是学习分析技术中的学习网络分析。具体而言,学习网络分析需要了解某个体在学习平台中的活跃程度如何、与哪些学习同伴交互信息、从哪些同伴处得到了哪些启示、对哪些内容存在认知困难、哪些因素影响了学习者的知识建构等。此外,还可以分析网络中各个体之间的关系、角色、网络形成的过程与特点,网络中学习信息的分布以及学习进展,学习者如何在网络学习中建立并维持关系从而为自己的学习提供支持等。
图3-12 学习网络
我们以“学堂在线”的一门具体的课程为例,系统根据讨论区里每个人的发帖和回帖数进行了统计和分析,生成了社会关系网络图(图3-13)。在这个图中,蓝色的圈表示老师,其他的圈表示学生,圈越大表示发帖数和回帖数越多。在课程之初,老师参与的答疑与讨论比较多,因此蓝色的圈明显大于周围的圈。随着课程的进行,一部分学生成长了起来,他们积极参与讨论,热心解答班级里面其他同学的问题,因此,代表他们的红色的圈越来越大,有的甚至和代表老师的蓝色的圈同样大小了。这说明,在学习的过程中,这一部分学生已逐步成为这个学习网络中的重要节点,他们很有可能就是那些学有余力又热心帮助他人的学生。经过适当的引导和鼓励,他们会在这个学习网络中发挥巨大的作用。此外,图中还有一些很小的圈甚至是灰色的圈,这代表了那些很少甚至不参加讨论的学生。发现这种情况时,老师或者助教可以在较早的阶段介入,对这一部分学生进行跟踪和辅导,了解他们在学习中的困难,鼓励他们树立学习的信心,让他们逐渐适应这种网络化、分散化的学习模式。
图3-13 论坛互动关系图
学习行为分析
在学习管理系统普及之前,摆在众多老师面前的问题是:有多少学生预习了、多少学生复习了?给的学习资料,有多少学生阅读了?有多少学生平时不学习,考试前临时抱佛脚?甚至还有不少老师在感叹:今天的课堂似乎和14世纪前的课堂没什么两样(图3-14),同样是站在讲台上的老师、课本上的笔记以及台下睡觉的学生。
图3-14 14世纪的课堂
如今,借助于学习管理系统,学习者登录系统的时间、访问时间、视频观看情况、完成作业情况等都被系统自动捕获并记录,我们不仅能详细地获取到学习者与系统的人机交互数据、监测学习者访问系统的行为,还能够获取到学习者课堂学习的数据,如课堂互动频率、小组协作表现、随堂测验分数等。通过对这些学习过程数据的分析,不仅可以了解到学习者的学习轨迹、学习特征,还可以更进一步地探索教育变量之间的相互关系,构建学习行为模型,挖掘学习者的行为模式,了解学习过程的发生机制,分析学习者的学习需求、学习进展等,预测学习者未来可能的行为,从而优化教学,为学习者提供个性化的服务。
还是以“学堂在线”这门具体课程的数据为例,图3-15是这门课程的学习活跃时间的热力图,直观地展示用户最近 2 周的学习习惯(喜欢在周几学?喜欢在哪个时间段学?),格子越深,表示当日该小时的在线学习人数越多。与之相应,通过图3-16的学习时间分布图,老师和助教就能够了解学习时间的具体分布,比如了解到在周二晚上7点到9点有较多的学习者进行线上学习,老师和助教可以针对这一情况对线上辅导的时间点作出调整。图3-17直观地展示了每一位学习者在每一个章节的学习行为的综合统计,包括视频学习、讨论发言以及完成习题的情况。通过追踪每一章不同学习者的学习行为数据,能够找出不活跃者或存在困难的学习者,对这一部分人,老师和助教可以提供额外的激励与引导。此外,如果发现在习题测试中出错率较高的部分,可在论坛中针对该题的知识点进行延伸讲解和讨论。
图3-15 学习活跃时间热力图
图3-16 学习时间分布图
图3-17 章节学习进度统计
学习内容分析
2017年的时候,有一款叫作“今日头条”的新闻软件一下就火起来了,竟以一己之力几乎一举击败了《中青报》《南方周末》这些传统媒体,以及四大门户网站和各种新闻客户端 。“今日头条”没有一个编辑、不生产内容。它的巨大成功在于其精准的算法,通过分析用户的阅读内容,向其持续推荐相关内容,从而实现个性化阅读。举例来说,如果你是一个足球爱好者,在使用“今日头条”浏览内容时,会持续收到来自不同新闻源的足球相关报道。如果你关注过iPad, iPhone等这一类新兴科技产品,你也会在这个平台上获取到大量的关于这些科技产品的信息。
与之相似,学习内容分析研究学习内容本身,如文本内容、多媒体内容等,通过对相似内容的分析标注,发现特征相似的文本内容,从而提供更符合学习者需求的学习内容,实现个性化推荐。除此之外,在学习过程中,对教师与学生,学生与学生交流所产生的内容,如面对面的对话、网络课程与会议中产生的文本、网上同步或异步交流等,进行定性和定量的分析,建立清晰的可视化模型以了解学生知识建构过程。
“一起作业”这个APP目前被广泛运用到了各个小学的课后学习中。它有一个“纠错”的功能,通过分析具体的错题内容,然后推荐与之类似的其他题目,学生通过大量的练习和纠错,直到掌握相关的知识。学习过程中没有教师的人工干预,仅仅通过内容分析和推荐算法,实现了学生的个性化学习。
学习能力分析
玩过足球游戏的人知道,这个游戏里包含了大量的数据,精确到每一个球员的每一项能力,如速度、盘带、体能、传球等都有具体的数值。这些数值汇合在一起,以雷达图的方式展现给玩家(图3-18),也是玩家选择球员组建球队的重要依据。
图3-18 球员能力雷达图
类似的,学习能力分析利用教育大数据对学生的学习能力、学习水平等维度(如探究意识、创造力、心理弹性等)进行分析,评估学习进展,并将结果以可视化形式(如蛛网、旋涡图、折线图等)反馈给学习者及教师。学习者根据图示了解自身的学习能力层次并反思,教师依据图示对学习者提供针对性的教学策略和辅助,帮助他们提高学习绩效。
如今,结合人工智能技术,很多系统都对底层数据进行智能分析,从而对用户进行画像。如图3-19所示的学生画像中,对于学生的数据描述已经经过了标签化的处理,我们可以很直观地从画像中的学习水平一项了解到:该生上课纪律好,成绩稳定,无挂科,学霸。
总的来说,学习分析技术是面向教与学的。在教的方面,学习分析技术可以用于评估和优化课程,为教师提供数据驱动的教学决策,同时提供更加深层次的教学建议,为教师优化教学提供了可能。在学的方面,学习分析技术基于对行为数据和学习轨迹的分析,提供有助于个性化需求的学习路径和适应性帮助,以支持学生的自我改进和自我提高,同时整合与学习者相关联的背景信息及过程数据,利用多种分析方法和建立的数据模型来解释与预测学习者的学习表现,进而提升学习的成效。
图3-19 学生画像
【注】框架是一个在计算机领域常用的词汇,每一个框架中都包含了大量的工具。它把大家共通性的需求和问题整合到工具中进行解决。这样在做具体项目时,开发人员只需要从业务的角度去考虑如何实现,而不用去关注底层大量的技术细节,大大节省了项目的开发时间。