在教育方面有哪些数据挖掘的应用可以做?

本人现在硕士马上面临开题,想做跟教育相关的数据挖掘,但是一直没有思路,请教各路牛人,能否指导下在教育方面有哪些数据挖掘的应用可以做,感激不尽
已邀请:

min

赞同来自: 安之若素 candy

建议可以看看“学习分析技术”方面的东西,业余时间翻译了George Siemens教授的《什么是学习分析技术?》可能有些地方翻译的还比较晦涩,但希望能对你有所帮助:
什么是学习分析技术?

[作者] George Siemens
什么是学习分析技术(LA)?
学习分析技术是使用智能数据、学习者数据,以及分析模型来发现信息和社会性联系,并以此为依据进行学习预测和提供建议。EDUCAUSE(美国高等教育信息化协会,详细介绍见附1)在“新时代的教育挑战”中提供了一个不同的定义:“学习分析技术是使用数据和模型来预测学生学习进展和成果,并在这些信息基础上采取行动的能力。”他们给出的定义比我的更加清晰,但只是为了在现有教育体制下实施而不是改变它(我后面会提到)。我对于学习分析技术如何重构教、学以及教育管理非常感兴趣。
学习分析技术是建立在网络分析技术(通过类似google分析等工具)和数据挖掘技术基础上的。这些分析方法试图让学习者的学习活动(通过鼠标点击、热点地图、社交网络分析、推荐系统等)有意义。学习分析技术不只关注数据分析技术,还包括学习者行为、课程地图、个性化和适应性,预测,干预以及决策。
学习分析技术如何运转?
以下是我对于学习分析技术在教育中角色的看法:

学习者原始数据(Learners off-put data):有些数据非常明确,比如更新twitter、facebook、登录学习管理系统或者发布博客内容;而有些数据是间接的,比如日常事务产生的过程数据(或者由别人提供的数据-比如在facebook上被人圈出来或者暴露你的所在地点)。这些数据静静的躺在数据库里,等待着被分析。学习者个人档案(Profile)补充了学习者原始数据(Learners off-put data)。例如,我的个人档案以各种各样的格式和网站遍布整个络:
Linkedin、Facebook、Elgg、Google、博客、机构服务等。Facebook,Twitter,谷歌正试图成为登录其他网站的默认入口,以减少混乱。至今为止,网络身份和个人档案还非常混乱。
随着数据变得越来越智能化(语义或关联数据),学习者数据、个人档案信息和课程数据可以以某种形式放在一起进行分析。我将回过头来谈谈对于课程数据产生的影响。现在,这足以说明我们的数据轨迹和个人档案,结合现有的课程数据,可以进行分析,进而作为预测,干预,个性化和适应性的基础。我将使用外部技术知识和学习理论来完成这个过程。值得强调的是适应并不仅仅是技术——适应的概念源自社会系统,在过去的几年中已经通过推荐系统、小型网络集群等证明了它们的价值。适应和个性化需要从整体上和多角度上整合技术,社会化和教育学。
简单的过程图如下所示:

有效利用学习分析技术可以帮助学校和大学及时捕捉到学习者学习出现困难的信号。比如通过在学习过程中出现的学习时间的缩短、论坛发言中体现出的挫败感,长时间未登录,缺乏与其他学习者和教师的交流等信号,我们可以及时发现学生学习中出现了问题。
最后一张图很简单,但它体现了学习分析技术可以帮助我们改变教育:

学校的课程通常是预先计划好的。课程设计者在学习者进入课程学习(在线或面授)之前创建课程内容、交互环节和支持资源。这是一个“有效学习者假说”(ELF)-假设学习者处于大致相同的层次,当他们开始学习课程时,他们的步调也大致相同。任何教育者都知道这不是真的,并反对别人将他们的教学定义为ELF。但是系统不会说谎。教育机构该如何设计学习将面临重构——课程的设计、开发和交付模式目前由学校、企业和大学决定,而现有的模式与实际的学习过程是相抵触的(即使只是简单的回顾学习科学也能够揭示ELF的失败)。
学习内容应该是被计算得出的——基于学习者档案(对于主题的概念理解以及以前的经验)实时渲染的学习资源和学习建议。例如,一个完整的学习系统应该能够跟踪我的线下和线上的交互行为、分析我的技能和能力,然后比较我目前的技能和某一学科或领域知识 要求的差距(这种比较有可能是因为一门学科将利用智能/语义/关联数据来定义它的知识)。而后,学习管理系统应该告诉我,我目前达到了心理学博士学位要求的64%,科学硕士学位要求的92%,100%达到了在线学习认证要求等。如果我决定考取心理学博士学位,学习系统应该提供一个个性化的学习路径,并在我学习的过程中不断调整。
我认识到以上的一些断言可能有点太遥远。然而,我认为在先进的数据分析、预测和概率模型、学习研究、智能数据和社会学习理论发展下,它们已经揭示了早期的一些迹象。介于教育和学习机构的缓慢变化过程,对于机构来说现在是个理想的时期来思考网络技术对于学习和知识生成的结构化冲击。我确信教育的明天看起来更像上面提到的模型而不是我们目前在传统机构所看到的。
附1:EDUCAUSE(美国高等教育信息化协会)简介
EDUCAUSE是一个在世界范围内居于领导地位的高等教育信息化专业组织。目前麾下拥有来自43个国家的2316所高等院校,其中美国高校2040所,涵盖了几乎所有类型的高等教育机构,因此具有最广泛的代表性。EDUCAUSE下设“当前议题委员会”,每年都针对高等教育信息化实践进展中的重大问题向各成员院校负责信息化工作的资深专业人士进行大规模问卷调查,迄今已连续进行了十次,在高等教育信息化领域形成了广泛影响。从某种意义上说,EDUCAUSE当前议题委员会十年来的工作记录了美国高等教育信息化从产生、发展到壮大的整个历史进程,其每年发布的研究报告已成为人们了解美国高等院校信息化发展现状的窗口,指引着世界各国高等教育机构利用信息技术进行大学变革。
EDUCAUSE帮助管理,领导和使用信息技术的人士在高等教育的各个阶段做出战略性信息技术决定。EDUCAUSE作为一个在全球高等教育信息化领域中发挥领导作用的专业组织,历来高度重视战略层面的研究,强调科研成果对高等院校信息化建设和数字化改造的宏观指导价值。因此,EDUCAUSE历年调查的焦点都集中于那些事关高等教育信息化取得战略成功的关键议题。
附2:George Siemens教授简介
George Siemens教授是国际知名学者,关注教育领域中的学习、技术、网络及开放性等问题。他著有《网络时代的知识和学习——走向连通》(Knowing Knowledge)和《学习中的新技术手册》(The Handbook of Emerging Technologies for Learning)。其中《网络时代的知识和学习——走向连通》一书对网络时代的知识和学习展开了充分的研究,提出了数字化时代的学习理论——连通主义。该书已经被翻译成中文、西班牙语、意大利语、波斯语、匈牙利语等多种语言。
Siemens博士目前担任加拿大阿萨巴萨卡大学(Athabasca University)技术促进知识研究院副院长,学习分析研究团队负责人。他已在30多个国家和地区发表过关于技术和媒介对教育、组织和社会影响的主题演讲。他的研究工作曾在国内外的报纸(包括纽约时报)、广播和电视做过介绍。由于研究成果突出,他被授予许多国内和国际奖励。鉴于他在学习、技术与网络方面的杰出工作,被圣马丁大学(秘鲁最著名的综合大学)授予荣誉博士学位。
Siemens博士是学习分析研究协会(The Society for Learning Analytics Research, SoLAR)的创立者之一。自2008年以来,他一直担任教育媒体与技术世界大会(ED-MEDIA)指导委员会委员。他也是《在线学习与技术》(Journal of Online Learning and Technology, JOLT)、《教育中的交互媒体》(Journal of Interactive Media in Education, JIME)等许多杂志的编委。

安之若素

赞同来自: candy

有关教育里的大数据挖掘,入门请参考Coursera - Big Data in Education,但都是理论化的。题注在问,有哪些应用可以做。太多了

我们新东方在线有一大堆需要解决的实际问题,其实是可以通过数据挖掘去做的。
(首先你如果选择一个面授课,数据收集会是大问题,但对于我们而言,详细的学习行为数据已经都存在hadoop里了,不用从头收集)

【关于学生的问题】
学生大体分为几类(clustering),有什么样的行为特点?
什么样的指标最能预测学生完成课程/退课的可能性?
什么样的指标最决定成绩提升的速度?

【关于教学的问题】
对照组实验,在线与面授的区别有多大?
哪些老师教学质量高?对学生的提升最明显?
哪些地方是我们教学最不足的地方?

【关于自适应学习的问题】
不同题目的难度都有哪些?(IRT)
哪些知识点会有潜在的依赖关系?

【关于文本挖掘的问题】
如何对题目自动归类,打知识点标签?(classification)
如何在将句子拆分成各种组成成分,并标出生词、固定搭配?
如何通过机器为学生作文打分?

candy

赞同来自:

有关教育里的大数据挖掘,入门请参考Coursera - Big Data in Education,但都是理论化的。题注在问,有哪些应用可以做。太多了

我们新东方在线有一大堆需要解决的实际问题,其实是可以通过数据挖掘去做的。
(首先你如果选择一个面授课,数据收集会是大问题,但对于我们而言,详细的学习行为数据已经都存在hadoop里了,不用从头收集)

【关于学生的问题】
学生大体分为几类(clustering),有什么样的行为特点?
什么样的指标最能预测学生完成课程/退课的可能性?
什么样的指标最决定成绩提升的速度?

【关于教学的问题】
对照组实验,在线与面授的区别有多大?
哪些老师教学质量高?对学生的提升最明显?
哪些地方是我们教学最不足的地方?

【关于自适应学习的问题】
不同题目的难度都有哪些?(IRT)
哪些知识点会有潜在的依赖关系?

【关于文本挖掘的问题】
如何对题目自动归类,打知识点标签?(classification)
如何在将句子拆分成各种组成成分,并标出生词、固定搭配?
如何通过机器为学生作文打分?

要回复问题请先登录注册