第17卷第4期 智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202112020 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.tp.20220419.1703.007.html 可拓数据挖掘在学生成绩分析中的应用研究 刘大莲2,田英杰3 (1.北京联合大学数理部,北京100101:2.北京联合大学数理与交又科学研究院,北京100101:3.中国科学院 虚拟经济与数据科学研究中心,北京100190) 摘要:为了充分利用教育大数据资源,促进教学改革良性发展,本文利用可拓支持向量机、可拓k均值聚类 等多种可拓数据挖掘方法及皮尔逊相关系数,对高校学生数学课程的平时作业、期中和期末考试成绩等进行挖 掘和分析,探索试卷设计的科学性,学生对知识点的掌握程度,以及哪些题目是影响学生成绩的主要因素,针 对每个学生给出其该门课程日后学习的侧重点等。将不断发展的前沿科研方法应用于需要不断改革的教育教 学中,同时也对长期沉睡的庞大的学生成绩数据加以充分利用,科研指导教学,教学反哺科研,起到很好的示 范作用。 关键词:可拓学:数据挖掘:分类:聚类;支持向量机;皮尔逊相关系数;教育大数据;学生成绩分析 中图分类号:TP18文献标志码:A 文章编号:1673-4785(2022)04-0707-07 中文引用格式:刘大莲,田英杰.可拓数据挖掘在学生成绩分析中的应用研究.智能系统学报,2022,17(4):707-713. 英文引用格式:LIU Dalian,.TIAN Yingjie..Application of extension data mining in student achievement analysis.CAAI transac-. tions on intelligent systems,2022,17(4):707-713. Application of extension data mining in student achievement analysis LIU Dalian,TIAN Yingjie' (1.Institute of Mathematics and Physics,Beijing Union University,Beijing 100101,China;2.Institute of Fundamental and Interdis- ciplinary Sciences,Beijing Union University,Beijing 100101,China;3.Research Center on Fictitious Economy and Data Science, Chinese Academy of Sciences,Beijing 100190,China) Abstract:To make full use of the educational big data resources and promote the sound development of teaching re- form,this paper applies several extension data mining methods,including an extenics support vector machine,an im- proved k-means algorithm based on extension distance,etc.,and the Pearson's correlation coefficient,to analyze the usual homework,midterm,and final examination results of a college students'mathematics course,to explore the scien- tificity of test paper design,students'mastery of knowledge points,and which topics are the main factors affecting stu- dents'performance.Furthermore,some advance information is given to each student to tell them which point they should focus on in this course later.This paper applies the constantly developing,cutting-edge scientific research meth- ods to the education and teaching that need constant reform and makes full use of the huge student achievement data that has been sleeping for a long time.It has played a good example of scientific research guiding teaching and teaching feeding scientific research. Keywords:extenics;data mining;classification;clustering;support vector machine;Pearson's correlation coefficient; big data in education:analysis of student score 当代社会,随着信息技术的突飞猛进,高等学 法提供了新思路。学生成绩在高等学校里不但是 校的教育教学改革的深入化也受到了深刻的影 衡量学校人才培养水平的一个重要指标,同时也 响。尤其处于大数据时代,数据挖掘的各种方法 是教育大数据中的一个重要内容。由于学生成绩 被应用到教育行业6,为寻找更好的教育教学方 具有数据类型相对统一,数据量较大,相对容易 获取等特点,因此依据恰当的数据挖掘技术,对 收稿日期:2021-12-11.网络出版日期:2022-04-22. 基金项目:国家自然科学基金面上项目(72071049):教育部人 学生成绩进行不同角度的深入挖掘和分析,从而 文社科规划基金项目(18 YJAZH049);北京联合大学 教育教学研究与改革项目(J2021Y053). 得到指导教学的新方法或新理论的研究成为高等 通信作者:田英杰.E-mail:yj@ucas.ac.cn 学校教学改革的一个研究热点。丁智斌等利用
DOI: 10.11992/tis.202112020 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20220419.1703.007.html 可拓数据挖掘在学生成绩分析中的应用研究 刘大莲1,2,田英杰3 (1. 北京联合大学 数理部,北京 100101; 2. 北京联合大学 数理与交叉科学研究院,北京 100101; 3. 中国科学院 虚拟经济与数据科学研究中心,北京 100190) 摘 要:为了充分利用教育大数据资源,促进教学改革良性发展,本文利用可拓支持向量机、 可拓 k-均值聚类 等多种可拓数据挖掘方法及皮尔逊相关系数,对高校学生数学课程的平时作业、期中和期末考试成绩等进行挖 掘和分析,探索试卷设计的科学性,学生对知识点的掌握程度,以及哪些题目是影响学生成绩的主要因素,针 对每个学生给出其该门课程日后学习的侧重点等。将不断发展的前沿科研方法应用于需要不断改革的教育教 学中,同时也对长期沉睡的庞大的学生成绩数据加以充分利用,科研指导教学,教学反哺科研,起到很好的示 范作用。 关键词:可拓学;数据挖掘;分类;聚类;支持向量机;皮尔逊相关系数;教育大数据;学生成绩分析 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2022)04−0707−07 中文引用格式:刘大莲, 田英杰. 可拓数据挖掘在学生成绩分析中的应用研究 [J]. 智能系统学报, 2022, 17(4): 707–713. 英文引用格式:LIU Dalian, TIAN Yingjie. Application of extension data mining in student achievement analysis[J]. CAAI transactions on intelligent systems, 2022, 17(4): 707–713. Application of extension data mining in student achievement analysis LIU Dalian1,2 ,TIAN Yingjie3 (1. Institute of Mathematics and Physics, Beijing Union University, Beijing 100101, China; 2. Institute of Fundamental and Interdisciplinary Sciences, Beijing Union University, Beijing 100101, China; 3. Research Center on Fictitious Economy and Data Science, Chinese Academy of Sciences, Beijing 100190, China) Abstract: To make full use of the educational big data resources and promote the sound development of teaching reform, this paper applies several extension data mining methods, including an extenics support vector machine, an improved k-means algorithm based on extension distance, etc., and the Pearson’s correlation coefficient, to analyze the usual homework, midterm, and final examination results of a college students’ mathematics course, to explore the scientificity of test paper design, students’ mastery of knowledge points, and which topics are the main factors affecting students ’ performance. Furthermore, some advance information is given to each student to tell them which point they should focus on in this course later. This paper applies the constantly developing, cutting-edge scientific research methods to the education and teaching that need constant reform and makes full use of the huge student achievement data that has been sleeping for a long time. It has played a good example of scientific research guiding teaching and teaching feeding scientific research. Keywords: extenics; data mining; classification; clustering; support vector machine; Pearson’s correlation coefficient; big data in education; analysis of student score 当代社会,随着信息技术的突飞猛进,高等学 校的教育教学改革的深入化也受到了深刻的影 响。尤其处于大数据时代,数据挖掘的各种方法 被应用到教育行业[1-6] ,为寻找更好的教育教学方 法提供了新思路。学生成绩在高等学校里不但是 衡量学校人才培养水平的一个重要指标,同时也 是教育大数据中的一个重要内容。由于学生成绩 具有数据类型相对统一,数据量较大,相对容易 获取等特点,因此依据恰当的数据挖掘技术,对 学生成绩进行不同角度的深入挖掘和分析,从而 得到指导教学的新方法或新理论的研究成为高等 学校教学改革的一个研究热点。丁智斌等[7] 利用 收稿日期:2021−12−11. 网络出版日期:2022−04−22. 基金项目:国家自然科学基金面上项目(72071049);教育部人 文社科规划基金项目(18YJAZH049);北京联合大学 教育教学研究与改革项目 ( JJ2021Y053). 通信作者:田英杰. E-mail:tyj@ucas.ac.cn. 第 17 卷第 4 期 智 能 系 统 学 报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022
·708· 智能系统学报 第17卷 决策树中的D3算法对学生成绩进行分析,从而 5)对于输入x,首先用决策函数fx)得到其 得出了影响学生成绩的内部原因及一些其他相关 对应的预测类别,然后用其可拓变量对应的可 结论。喻铁朔等II是基于支持向量机(support 拓区间d和b分别代替[x],这样对E个可拓变 vector machine,.SVM)等4种数据挖掘的方法对学 量,就得到2旧个不同的组合值。相应的,基于x得 生成绩进行预测,从不同角度对4种模型进行对 到了2个新的输入,分别用决策函数来判断,若 比,得出不同模型适用于不同课程的结论,对高 有一个被判断为-y,则认为该输人是可变换的。 校学生课程成绩预测。钟文精等9基于k-means 1.2基于可拓距的k-means聚类算法 聚类算法,对学生成绩进行聚类分析,为进行深 可拓k-meanst22基于可拓学中点x与区间 入的教学改革和设计提供数据依据。本文依据可 X=的距离定义,提出了一种选取k-means 拓数据挖掘中的几种重要算法及皮尔逊相关系 算法初始聚类中心的新方法,算法描述如下: 数,对北京某高校经管类学生的数学课程相关成 1)计算出两两样本间距离及等效密集距离 绩进行多角度深入分析,从而得到一些和教学相 区间Z=[A,B]=[min(D),max(D列,其中D=dld= 关的重要结论,为改进教学方法,提高教学质量 给出合理化建议。 V∑伏-}为两两样本间距离集合: 2)按照两样本的距离Z对区间的左右测距的 1基础知识与算法 距离和左、右侧距的定义,将距离映射为左侧 1.1可拓支持向量机 距pp及可拓右侧距pp,将pp按从小到 可拓学是由广东工业大学蔡文研究员创立的 大顺序依次排序,同S={(x1,y),(,2),…,(,)}时 一门原创学科。在众多专家学者的不解努力下, 计算样本间可拓平均左侧距p及可拓平均右侧 历经30余年的潜心研究,建立了可拓论体系和可 距p,; 拓创新方法体系018。可拓数据挖掘92是将可 3)遍历排序好的可拓距,将其中首个大于样 拓学的理论和方法与挖掘数据的方法技术相结 本间可拓平均左侧距p的可拓距对应中心点坐标 合的一门新技术,可拓支持向量机2就是其中一 作为第一个初始聚类中心: 种经典机器学习算法与可拓理论深人结合而产 4)计算排好序可拓距中下一个值对应中心点 坐标并依次计算出其与已确定的初始聚类中心的 生的新算法。与标准的支持向量分类机不同,可 拓支持向量机是解决可拓分类问题的,其在进行 可拓距,将其与样本平均可拓右测距p进行比较, 标准分类问题预测的同时,更注重于找到那些 若其均大于可,则该中心点坐标作为下一个初始 聚类中心;否则重新执行步骤4: 通过变化分量(特征)的值而转换类别的样本,这 样的样本称为可拓样本,而相应的变量称为可拓 5)如果遍历一次后,初始聚类中心未达到K, 则按式(1)计算出缩小因子,动态缩小样本平均 变量。 可拓右侧距p,重新回到步骤3; 算法可拓支持向量分类机算法(ESVM) 1)给定训练集:其中x∈R",∈Y={1,-1, Ca-k K≠K (1) i=1,2,…,l。给定可拓样本x的可拓变量j的可 1 k'=K 拓区间d和b,j=1,2,…,n;选择合适的惩罚参数 式中:《为每次遍历后所获得的初始聚类中心个 C>0: 数;K为指定聚类中心数 2)构造并求解最优化问题: 6)若聚类中心数达到K时,则完成初始聚类 min ∑∑w40+∑a 中心的选取。 l.3皮尔逊(Pearson)相关系数 S.t. 21a=0 Pearson相关系数2)用于分析定量数据,当数 0≤a≤C,i=1,2,…,l 据满足正态分布时可用Pearson相关系数查看变 得最优解a; 量间相关性。其公式为 3)计算b: B=y-∑(x.j≤asC ∑(x-0-到 r=- i=1 4)构造决策函数: ∑G-0-亦 fe=g(∑+b)月 式中:相关系数r的取值范围为-1≤r≤1。r>0为 正相关,r<0为负相关,0<川<1表示相关程度
决策树中的 ID3 算法对学生成绩进行分析,从而 得出了影响学生成绩的内部原因及一些其他相关 结论。喻铁朔等[8] 是基于支持向量机(support vector machine, SVM)等 4 种数据挖掘的方法对学 生成绩进行预测,从不同角度对 4 种模型进行对 比,得出不同模型适用于不同课程的结论,对高 校学生课程成绩预测。钟文精等[9] 基于 k-means 聚类算法,对学生成绩进行聚类分析,为进行深 入的教学改革和设计提供数据依据。本文依据可 拓数据挖掘中的几种重要算法及皮尔逊相关系 数,对北京某高校经管类学生的数学课程相关成 绩进行多角度深入分析,从而得到一些和教学相 关的重要结论,为改进教学方法,提高教学质量 给出合理化建议。 1 基础知识与算法 1.1 可拓支持向量机 可拓学是由广东工业大学蔡文研究员创立的 一门原创学科。在众多专家学者的不懈努力下, 历经 30 余年的潜心研究,建立了可拓论体系和可 拓创新方法体系[10-18]。可拓数据挖掘[19-20] 是将可 拓学的理论和方法与挖掘数据的方法技术相结 合的一门新技术,可拓支持向量机[21] 就是其中一 种经典机器学习算法与可拓理论深入结合而产 生的新算法。与标准的支持向量分类机不同,可 拓支持向量机是解决可拓分类问题的,其在进行 标准分类问题预测的同时,更注重于找到那些 通过变化分量(特征)的值而转换类别的样本,这 样的样本称为可拓样本,而相应的变量称为可拓 变量。 算法 可拓支持向量分类机算法(ESVM) xi ∈ R n yi ∈ Y = {1,−1} i = 1,2,··· ,l xk j a k j b k j j = 1,2,··· ,n C > 0 1 ) 给定训练集:其中 , , 。给定可拓样本 的可拓变量 的可 拓区间 和 , ;选择合适的惩罚参数 ; 2) 构造并求解最优化问题: min α 1 2 ∑l i=1 ∑l j=1 αiαjyiyj(xi · xj)+ ∑l i=1 αi s.t. ∑l i=1 aiyi = 0 0 ⩽ αi ⩽ C, i = 1,2,··· ,l α ∗ 得最优解 i; b ∗ 3) 计算 : b ∗ = yj − ∑l i=1 α ∗ i yi(xi · xj), j ∈ { j 0 ⩽ α ∗ j ⩽ C } ; 4) 构造决策函数: f(x) = sgn(∑l i=1 α ∗ i yi(xi · x)+b ∗ ) ; xk f(xk) yk a k j b k j [xk]j |E| 2 |E| xk 2 |E| −yk 5) 对于输入 ,首先用决策函数 得到其 对应的预测类别 ,然后用其可拓变量对应的可 拓区间 和 分别代替 ,这样对 个可拓变 量,就得到 个不同的组合值。相应的,基于 得 到了 个新的输入,分别用决策函数来判断,若 有一个被判断为 ,则认为该输入是可变换的。 1.2 基于可拓距的 k-means 聚类算法 x X0 = 可拓 k-means[ 2 2 ] 基于可拓学中点 与区间 的距离定义,提出了一种选取 k-means 算法初始聚类中心的新方法,算法描述如下: Z = [A,B] = [min(D),max(D)] { D = d |d = √∑m p=1 (x p i − x p j ) 2 } 1) 计算出两两样本间距离及等效密集距离 区 间 ,其中 为两两样本间距离集合; Z ρ (i, j) i ρ (i, j) i ρ (i, j) j ρ (i, j) r ρ (i, j) i ρ (i, j) i S = {(x1, y1),(x2, y2),··· ,(xl , yl)} ρl ρr 2) 按照两样本的距离 对区间的左右测距的 距离和左、右侧距[9] 的定义,将距离映射为左侧 距 及可拓右侧距 ,将 按从小到 大顺序依次排序,同 时 计算样本间可拓平均左侧距 及可拓平均右侧 距 ; ρl 3) 遍历排序好的可拓距,将其中首个大于样 本间可拓平均左侧距 的可拓距对应中心点坐标 作为第一个初始聚类中心; ρr ρr 4) 计算排好序可拓距中下一个值对应中心点 坐标并依次计算出其与已确定的初始聚类中心的 可拓距,将其与样本平均可拓右测距 进行比较, 若其均大于 ,则该中心点坐标作为下一个初始 聚类中心;否则重新执行步骤 4; K η ρr 5) 如果遍历一次后,初始聚类中心未达到 , 则按式(1)计算出缩小因子 ,动态缩小样本平均 可拓右侧距 ,重新回到步骤 3; η = 1+ c 2 n −k ′ c 2 n , k ′ , K 1, k ′ = K (1) k ′ K 式中: 为每次遍历后所获得的初始聚类中心个 数; 为指定聚类中心数 6) 若聚类中心数达到 K 时,则完成初始聚类 中心的选取。 1.3 皮尔逊(Pearson)相关系数 Pearson 相关系数[23] 用于分析定量数据,当数 据满足正态分布时可用 Pearson 相关系数查看变 量间相关性。其公式为 r = ∑n i=1 (xi − xˆ)(yi −yˆ) √∑n i=1 (xi − xˆ) 2 (yi −yˆ) 2 r −1 ⩽ r ⩽ 1 r > 0 r < 0 0 < |r| < 1 式中:相关系数 的取值范围为 。 为 正相关, 为负相关, 表示相关程度。 ·708· 智 能 系 统 学 报 第 17 卷
第4期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·709· 2高校学生成绩特点分析 为zg7~2g18)共18道题日,总结出18个主要的 知识点。同上述S数据处理类似,我们把每个学 2.1数据描述 生的知识点掌握描述成一个18维向量,根据每个 收集了北京联合大学2018一2019学年包括 学生期末试卷的考试总成绩的及格与否把学生分 旅游学院、管理学院和商务学院3个学院共计 成正负两类。这样把所有学生组成一个大小为 929名学生的数据,包括经管类概率论与数理统 841的两类分类问题的数据集2,记为S2 计(I)课程的平时作业、期中和期末考试成绩 下面将基于S,和S2进行学生成绩特点的挖 等。根据期末试卷的5道客观题(记为kg1kg5) 掘分析。 和10道主观题(记为zg6~zg15)共15道题目,总 结出15个主要的知识点。为便于分析,我们把每 2.2基于可拓SVM的试卷题目影响力分析 个学生的知识点掌握描述成一个15维向量,向量 基于成绩数据集1,探索哪些知识点是影响 的每个分量即为该生在某个知识点上的掌握程度。 学生及格与否的主要因素,从而检测试卷是否满 而知识点的掌握程度则根据学生的平时作业成 足出题意愿;进一步,对每个学生,可以给出决定 绩、期中和期末试卷上考核相应知识点的得分,综 其及格与否的某个或某几个具体题目,以便学生 合计算得到。最后根据每个学生期末试卷的考试 以后有所侧重学习。 总成绩的及格与否把学生分成正负两类,及格为 首先,对建立的训练集S1={(x1y),(2),…, 正类,不及格为负类。这样把所有学生组成一个 (,)》∈(R×Y),其中x∈R5,y,∈Y={1,-1},i=1, 大小为929的两类分类问题的数据集1,记为S。 2,…,929,利用5-折交叉验证方法,选取最优的 收集了我北京联合大学2018一2019学年包 参数C和径向基核函数参数,并用最优参数对整 括旅游学院、管理学院和商务学院3个学院共计 个训练集进行训练,得到最终的决策函数。利用 841名学生的数据,包括微积分(Ⅱ)课程的平时作 此决策函数进行规则抽取,可以得到基本的分 业、期中和期末考试成绩等。根据期末试卷的 类规则,我们这里将分类规则按照决策树的形式 6道客观题(记为kg1~kg6)和12道主观题(记 表示如图1所示。 2g153.5 毁6 value=[418.0,418.0 类型=通过 、假 2g11≤7.5 2g143.5 gni=0.303 gn=0.379 人数=220 人数=616 value-298.96768.345 value=-119.033,349.655】 类型=通过 类型=未通过 2g105 2g6s4.5 gini=0.159 gini=0.496 gn=0.338 人数=84 人数=74 gin=0.145 人数=136 人数=542 value=-[262.98.25.0191 value-=35.987,43.326 value=91,35L25.019 类型=未通过 类型=通过 value=27.682,324.636 类型=通过 类型=未通过 gn=0.059 gini=0.296 gni=0.489 zg10s4.5 人数=72 人数=64 人数=50 g1ni=0.053 alue=174.397,5.492 value=-88.583,19.527 value-=19.377,26.239 人数=492 类型=通过 类型=通过 类型=未通过」 value=8.305,298.397] 类型=未通过 gini=0.265 人数=76 人数=416 vaue=8.305.44.546] value=0.253.8511 类型=未通过 类型=未通过 图1分类规则图 Fig.1 Classification rule diagram 由图1可以看出,据此规则得到的节点数为 的区分规则是选择那些对学生是否及格判断起主 13,叶子节点数为7,树的最大深度为5,最基本 要作用的题型及题号。从树中可以看出在众多规
2 高校学生成绩特点分析 2.1 数据描述 收集了北京联合大学 2018—2019 学年包括 旅游学院、管理学院和商务学院 3 个学院共计 929 名学生的数据,包括经管类概率论与数理统 计 ( I)课程的平时作业、期中和期末考试成绩 等。根据期末试卷的 5 道客观题(记为 kg_1~kg_5) 和 10 道主观题(记为 zg_6~zg15)共 15 道题目,总 结出 15 个主要的知识点。为便于分析,我们把每 个学生的知识点掌握描述成一个 15 维向量,向量 的每个分量即为该生在某个知识点上的掌握程度。 而知识点的掌握程度则根据学生的平时作业成 绩、期中和期末试卷上考核相应知识点的得分,综 合计算得到。最后根据每个学生期末试卷的考试 总成绩的及格与否把学生分成正负两类,及格为 正类,不及格为负类。这样把所有学生组成一个 大小为 929 的两类分类问题的数据集 1,记为 S1。 收集了我北京联合大学 2018—2019 学年包 括旅游学院、管理学院和商务学院 3 个学院共计 841 名学生的数据,包括微积分(II)课程的平时作 业、期中和期末考试成绩等。根据期末试卷的 6 道客观题(记为 kg_1~kg_6)和 12 道主观题(记 为 zg_7~zg_18)共 18 道题目,总结出 18 个主要的 知识点。同上述 S1 数据处理类似,我们把每个学 生的知识点掌握描述成一个 18 维向量,根据每个 学生期末试卷的考试总成绩的及格与否把学生分 成正负两类。这样把所有学生组成一个大小为 841 的两类分类问题的数据集 2,记为 S2。 下面将基于 S1 和 S2 进行学生成绩特点的挖 掘分析。 2.2 基于可拓 SVM 的试卷题目影响力分析 基于成绩数据集 1,探索哪些知识点是影响 学生及格与否的主要因素,从而检测试卷是否满 足出题意愿;进一步,对每个学生,可以给出决定 其及格与否的某个或某几个具体题目,以便学生 以后有所侧重学习。 S 1 = {(x1, y1),(x2, y2),··· , (xl , yl)} ∈ (R n ×Y) l xi ∈ R 15 yi ∈ Y = {1,−1} i = 1, 2,··· ,929 C 首先,对建立的训练集 ,其中 , , , 利用 5–折交叉验证方法,选取最优的 参数 和径向基核函数参数,并用最优参数对整 个训练集进行训练,得到最终的决策函数。利用 此决策函数进行规则抽取[24] ,可以得到基本的分 类规则,我们这里将分类规则按照决策树的形式 表示如图 1 所示。 zg_15≤5.5 gini=0.5 人数=836 value=[418.0, 418.0] 类型=通过 zg_11≤7.5 gini=0.303 人数=220 value=[298.967, 68.345] 类型=通过 zg_14≤3.5 gini=0.379 人数=616 value=[119.033, 349.655] 类型=未通过 真 假 zg_10≤3.5 gini=0.159 人数=136 value=[262.98, 25.019] 类型=通过 gini=0.496 人数=84 value=[35.987, 43.326] 类型=未通过 gini=0.338 人数=74 value=[91.351, 25.019] 类型=通过 zg_6≤4.5 gini=0.145 人数=542 value=[27.682, 324.636] 类型=未通过 gini=0.059 人数=72 value=[174.397, 5.492] 类型=通过 gini=0.296 人数=64 value=[88.583, 19.527] 类型=通过 gini=0.489 人数=50 value=[19.377, 26.239] 类型=未通过 gini=0.265 人数=76 value=[8.305, 44.546] 类型=未通过 gini=0 人数=416 value=[0, 253.851] 类型=未通过 zg_10≤4.5 gini=0.053 人数=492 value=[8.305, 298.397] 类型=未通过 图 1 分类规则图 Fig. 1 Classification rule diagram 由图 1 可以看出,据此规则得到的节点数为 13,叶子节点数为 7,树的最大深度为 5,最基本 的区分规则是选择那些对学生是否及格判断起主 要作用的题型及题号。从树中可以看出在众多规 第 4 期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·709·
·710· 智能系统学报 第17卷 则中zg_15,2g14,zg_11,zg_6都被作为分枝的因 我们对概率统计试卷上的题型进行了影响度可视 素。从根节点带有特征取值范围来看,根节点的 化操作,可视化结果如图2所示。 两个分支分别代表两类学生成绩分布,一类是 0.5 zg15的得分大于5.5分,另一类是zg15得分小 0.4 于5.5分。 从根节点的左分支中关于g11得分是否大 于7.5的分支对比观察中可以发现,即便学生对 02 zg11得分小于8.5,学生的及格率依然很高,由 0.1 此可见,对该分支的进一步挖掘,可以找出更加 具备辨识度的特征以及取值范围。 ¥329199¥3 从根节点的右分支出发,我们可以发现,第个 化化色位位他 题型 二分支节点判断的特征为zg14的得分是否小于 等于3.5。从选择人数上看,zg_14的得分大于 图2各题影响度可视化图 Fig.2 Impact of each question 3.5的学生比相应得分小于3.5的人数高出468 人,但是在zg14得分超过3.5的同学不及格的概 主观题第15题zg15作为影响学生概率统 计及格的重要因素,该现象在管理学院、旅游学 率更高。由此可见,在众多主观题中,zg_15对学 院尤为明显。主要原因在于Zg_15得分难度低, 生的成绩及格影响更高,而zg14对是否成绩及 导致该题得高分的同学较多;对于其他的主观 格的概率呈现出较低的相关性,所以导致在14号 题,例如zg_14和zg_11也有类似的趋势。而反 主观题得分高的同学在最后的及格率分析中影响 观客观题的影响比例,可以看到影响力几乎为0, 度不高。 原因在于客观题题型分值较小,且相对得分容易 将上述分析进一步总结到规则表1,从中可 获得,所以导致客观题所占的影响力整体较低。 以看出,影响学生对概率统计及格率的主要因素 结合上述表1的分析研究,绝大多数及格学生的 有以下3点: 提分关键在于第11、14和15号主观题。 表1S,及格率规则 在上面已得到普遍规律的前提下,进一步分 Table 1 Pass rate rules of S 析影响每个学生是否及格的关键知识点: 类型 选择规则 合计人数 因每个题目学生得分都有不同,所以每个题 通过 Zg_15≤5.5→2g_11≤7.5 136 目对应的变量都是可拓变量。首先定义所有题目 通过 2g_15>>5.5→zg_14≤3.5 心 jj=1,2,…,15)的可拓区间,即[a,bl。这里将每 未通过 2g_15≤5.5→zg11>7.5 个题目不得分和得最高分设为可拓区间上下界, 84 即a=0,b,为该题目的得分。针对每个学生x的 未通过 zg15>5.5+zg14>3.5 542 →2g6≤4.5 每个题目对应的变量,用其可拓变量对应的可拓 区间d和分别代替[x,和心y小,这样对E=15个 1)第15号主观题:从5条分支规则中可以发 可拓变量,就得到25个不同的组合值。相应的, 现,将第15号主观题得分作为根节点分支范围的 基于x,利用决策函数得到了25新的输入,分别用 合计人数最多,由此可以推断第15号主观题是影 决策函数来判断,若有一个被判断为-yk,则认为 响学生对于概率统计课程及格率的主要因素。 该输入是可变换的。 2)第14号主观题:在所有的规则中同样也对 以学生1为例,我们得到kg4,Zg13是影响 第14号主观题的得分范围进行了划分,基于前面 其及格与否的2个关键题目,即如果学生1,在kg4 的第15题的分支背景,第14号主观题的取值范 和Zg13对应的知识点掌握程度从最低变为最高 围也有了相应的调整。 的情况下,其将由不及格而变成及格:而对于学 3)第11号主观题:在规则表中,存在前馈规 生12,同理可知学生对kg2,Zg13,Zg15对应的 则一致的两条规则。第11号主观题的得分是否 知识点掌握程度是影响其及格与否的关键。 超过7.5分是区分他们的关键。 2.3基于可拓距的k-means聚类算法成绩特定分析 另外,从结果上看,对规则主要的考虑因素也 基于成绩数据集S2,我们拟分析学生成绩 集中在主观题型中,而客观题影响度较低。为了 分布的整个规律,首先建立数据集S2={(x1,), 进一步探究一张试卷中各个题型之间的重要性, (22),…,(,M,其中x∈R18,y∈Y={1,-1},i=1
则中 zg_15,zg_14,zg_11,zg_6 都被作为分枝的因 素。从根节点带有特征取值范围来看,根节点的 两个分支分别代表两类学生成绩分布,一类是 zg_15 的得分大于 5.5 分,另一类是 zg_15 得分小 于 5.5 分。 从根节点的左分支中关于 zg_11 得分是否大 于 7.5 的分支对比观察中可以发现,即便学生对 zg_11 得分小于 8.5,学生的及格率依然很高,由 此可见,对该分支的进一步挖掘,可以找出更加 具备辨识度的特征以及取值范围。 从根节点的右分支出发,我们可以发现,第个 二分支节点判断的特征为 zg_14 的得分是否小于 等于 3.5。从选择人数上看,zg_14 的得分大于 3.5 的学生比相应得分小于 3.5 的人数高出 468 人,但是在 zg_14 得分超过 3.5 的同学不及格的概 率更高。由此可见,在众多主观题中,zg_15 对学 生的成绩及格影响更高,而 zg_14 对是否成绩及 格的概率呈现出较低的相关性,所以导致在 14 号 主观题得分高的同学在最后的及格率分析中影响 度不高。 将上述分析进一步总结到规则表 1,从中可 以看出,影响学生对概率统计及格率的主要因素 有以下 3 点: 表 1 S1 及格率规则 Table 1 Pass rate rules of S1 类型 选择规则 合计人数 通过 zg_15≤5.5 → zg_11≤7.5 136 通过 zg_15> > 5.5 → zg_14≤3.5 74 未通过 zg_15≤5.5 → zg_11>7.5 84 未通过 zg_15>5.5 → zg_14>3.5 → zg_6≤4.5 542 1)第 15 号主观题:从 5 条分支规则中可以发 现,将第 15 号主观题得分作为根节点分支范围的 合计人数最多,由此可以推断第 15 号主观题是影 响学生对于概率统计课程及格率的主要因素。 2)第 14 号主观题:在所有的规则中同样也对 第 14 号主观题的得分范围进行了划分,基于前面 的第 15 题的分支背景,第 14 号主观题的取值范 围也有了相应的调整。 3)第 11 号主观题:在规则表中,存在前馈规 则一致的两条规则。第 11 号主观题的得分是否 超过 7.5 分是区分他们的关键。 另外,从结果上看,对规则主要的考虑因素也 集中在主观题型中,而客观题影响度较低。为了 进一步探究一张试卷中各个题型之间的重要性, 我们对概率统计试卷上的题型进行了影响度可视 化操作,可视化结果如图 2 所示。 kg_1 kg_2 kg_3 kg_4 kg_5 zg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 0 0.1 0.2 0.3 0.4 0.5 影响度 题型 图 2 各题影响度可视化图 Fig. 2 Impact of each question 主观题第 15 题 zg_15 作为影响学生概率统 计及格的重要因素,该现象在管理学院、旅游学 院尤为明显。主要原因在于 zg_15 得分难度低, 导致该题得高分的同学较多;对于其他的主观 题,例如 zg_14 和 zg_11 也有类似的趋势。而反 观客观题的影响比例,可以看到影响力几乎为 0, 原因在于客观题题型分值较小,且相对得分容易 获得,所以导致客观题所占的影响力整体较低。 结合上述表 1 的分析研究,绝大多数及格学生的 提分关键在于第 11、14 和 15 号主观题。 在上面已得到普遍规律的前提下,进一步分 析影响每个学生是否及格的关键知识点: j(j = 1,2,··· ,15) [aj ,bj] aj = 0 bj xk a k j b k j [xk]j [yk]j |E| = 15 2 15 xk 2 15 −yk 因每个题目学生得分都有不同,所以每个题 目对应的变量都是可拓变量。首先定义所有题目 的可拓区间,即 。 这里将每 个题目不得分和得最高分设为可拓区间上下界, 即 , 为该题目的得分。针对每个学生 的 每个题目对应的变量,用其可拓变量对应的可拓 区间 和 分别代替 和 ,这样对 个 可拓变量,就得到 个不同的组合值。相应的, 基于 ,利用决策函数得到了 新的输入,分别用 决策函数来判断,若有一个被判断为 ,则认为 该输入是可变换的。 以学生 t1 为例,我们得到 kg_4,zg_13 是影响 其及格与否的 2 个关键题目,即如果学生 t1 在 kg_4 和 zg_13 对应的知识点掌握程度从最低变为最高 的情况下,其将由不及格而变成及格;而对于学 生 t2,同理可知学生对 kg_2, zg_13,zg_15 对应的 知识点掌握程度是影响其及格与否的关键。 2.3 基于可拓距的 k-means 聚类算法成绩特定分析 S 2 = {(x1, y1), (x2, y2),··· ,(xl , yl)} xi ∈ R 18 yi ∈ Y = {1,−1} i = 1, 基于成绩数据集 S2,我们拟分析学生成绩 分布的整个规律 .首先建立数据集 ,其中 , , ·710· 智 能 系 统 学 报 第 17 卷
第4期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·711· 2,…,841。为了对数据有整体的了解和把握,以 =3时效果比较好。 便于进一步从不同角度进行分析。首先,我们对 30 数据利用t-SNE方法进行降维和可视化展示, 20 图3(a)是微积分()课程的全体成绩分布图。可 0 0 以发现,图中的成绩数据分布较为紧密,紧密的 -10 样本分布为数据聚类添加了难度。同时,为了验 -20 -30 证“同一学院的学生,该门课程的总体水平较为接 -40 近”这一设想,我们按照学院划分,将管理学院、 -50 -30 -20 -10010203040 旅游学院和商务学院的学生成绩作为不同类别的 数据,利用t-SNE方法进行降维和可视化展示,如 (a)=3可视化图 图3(b)所示。很明显看出,结果和我们预期吻 30 合。(可视化图均为示意图,坐标无实际意义。) 20 40 -10 -20 0 -30 -40 -5 -20 -30 -20-10010203040 -40 b)=4可视化图 60 -0 -20 -10 0 10 20 30 30 20 (a)全体成绩分布图 10 0 40 -10 20 -20 -30 -40 20 -50 -30 -20-100 10203040 -40 (c)=5可视化图 -60 30 -20-1001020 30 图4k-means可视化图 (b)按学院划分成绩分布图 Fig.4 Visualization of k-means 进一步,我们对聚类的3类进行分析,对每一 图3整体数据可视化图 Fig.3 Visualization of the overall data 类中所有点的每个分量求均值,探索每类的特 点,得到表2。可以看出类别2与1,3在各个题 对于具有上述特征的数据,采用上述1.2节 目对应的知识点掌握程度都有明显区别,也就是 中所阐述的基于可拓距的k-means聚类算法,把 类别2的学生,几乎对所有知识点掌握都较差,这 k分别取为3、4、5,并利用t-SNE方法进行降维和 些学生需要全面补习;而类别1和3之间只在某 可视化展示得到如下结果(如图4),可以看出 些知识点上取值差别稍大,比如Zg18。 表2=3聚类分析表 Table 2 k=3 Cluster analysis table 类别个数kg1kg2kg3kg_4kg5kg62g72g_8zg_9zg_10zg_112g_12zg_132g_142g_152g_16zg_172g_18 13142.212.682.702.602.760.395.885.925.875.75.986.36.686.086.049.279.791.41 22001.731.432.111.831.980.274.453.903.683.343.354.464.264.23.296.260.960.17 32252.321.692.452.312.720.255265.075.155255.816.1965.885.669.0277.250.67 2.4基于Pearson相关系数的试卷题目相关性分析 关性分析,结果如图5所示,其中颜色越深代表着 基于数据集S,利用Pearson相关系数进行相 相关性越大。可以发现:正对角线代表着当前特
2,··· ,841 。为了对数据有整体的了解和把握,以 便于进一步从不同角度进行分析。首先,我们对 数据利用 t-SNE 方法进行降维和可视化展示, 图 3(a) 是微积分 (II) 课程的全体成绩分布图。可 以发现,图中的成绩数据分布较为紧密,紧密的 样本分布为数据聚类添加了难度。同时,为了验 证“同一学院的学生,该门课程的总体水平较为接 近”这一设想,我们按照学院划分,将管理学院、 旅游学院和商务学院的学生成绩作为不同类别的 数据,利用 t-SNE 方法进行降维和可视化展示,如 图 3(b) 所示。很明显看出,结果和我们预期吻 合。(可视化图均为示意图,坐标无实际意义。) −30 −10 −20 x 0 10 20 30 −40 −60 −20 0 20 40 (a) 全体成绩分布图 y −30 −20 −10 x (b) 按学院划分成绩分布图 0 10 20 30 −40 −60 −20 0 20 40 y 图 3 整体数据可视化图 Fig. 3 Visualization of the overall data 对于具有上述特征的数据,采用上述 1.2 节 中所阐述的基于可拓距的 k-means 聚类算法,把 k 分别取为 3、4、5,并利用 t-SNE 方法进行降维和 可视化展示得到如下结果(如图 4),可以看出 k=3 时效果比较好。 (c) k=5 可视化图 (a) k=3 可视化图 (b) k=4 可视化图 −30 −10 −20 x 0 10 20 30 40 −40 −50 −30 30 −10 −20 0 10 20 y −30 −10 −20 x 0 10 20 30 40 −40 −50 −30 30 −10 −20 0 10 20 y −30 −10 −20 x 0 10 20 30 40 −40 −50 −30 30 −10 −20 0 10 20 y 图 4 k-means 可视化图 Fig. 4 Visualization of k-means 进一步,我们对聚类的 3 类进行分析,对每一 类中所有点的每个分量求均值,探索每类的特 点,得到表 2。可以看出类别 2 与 1,3 在各个题 目对应的知识点掌握程度都有明显区别,也就是 类别 2 的学生,几乎对所有知识点掌握都较差,这 些学生需要全面补习;而类别 1 和 3 之间只在某 些知识点上取值差别稍大,比如 zg_18。 表 2 k=3 聚类分析表 Table 2 k=3 Cluster analysis table 类别 个数 kg_1 kg_2 kg_3 kg_4 kg_5 kg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 zg_16 zg_17 zg_18 1 314 2.21 2.68 2.70 2.60 2.76 0.39 5.88 5.92 5.87 5.7 5.98 6.3 6.68 6.08 6.04 9.27 9.79 1.41 2 200 1.73 1.43 2.11 1.83 1.98 0.27 4.45 3.90 3.68 3.34 3.35 4.46 4.26 4.2 3.29 6.26 0.96 0.17 3 225 2.32 1.69 2.45 2.31 2.72 0.25 5.26 5.07 5.15 5.25 5.81 6.19 6 5.88 5.66 9.027 7.25 0.67 2.4 基于 Pearson 相关系数的试卷题目相关性分析 基于数据集 S1,利用 Pearson 相关系数进行相 关性分析,结果如图 5 所示,其中颜色越深代表着 相关性越大。可以发现:正对角线代表着当前特 第 4 期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·711·
·712· 智能系统学报 第17卷 征与特征自身的相关性计算值,正对角线上的值 应用于不断深化改革的教育教学中,同时也对长 均为1,颜色最深。其余部分代表着当前特征与 期沉睡的庞大的学生成绩数据加以充分利用,教 其他特征的相关性计算,颜色的深浅代表着相关 学促进科研,科研反哺教学,起到了示范作用。 性的强弱。具体而言:客观题kg1,kg_2,kg3, 采用的相关算法是我们精心选取的算法,针对相 kg4,kg5之间相关性热力图颜色为浅绿色,说明 关成绩数据分析有一定的优势。将来我们可以进 它们之间相关性较弱,但是总体保持着正相关的 一步深入研究,探讨如何将解决矛盾问题的可拓 关系。据此可以推断,客观题一道题的得分情况 学和机器学习的相关算法深度融合,起到如虎添 对另外一题的得分情况影响较低,或者说题目本 翼的作用。深究如何进一步将科研的方法应用到 身考查的知识点不相关。而主观题之间的相关性 教育大数据中,从而对推进教学改革,进一步提 则更加复杂。根据主观题之间的相关性热力图分 高高校教学质量做出贡献。同时也希望上述分析 布,它们之间存在负相关和正相关两种相关关 能起到抛砖引玉的作用。 系。相关性的数值越接近1或-1,说明两组数据 之间正向或反向线性关联越强。例如,zg6与 参考文献: zg_7、zg7与zg_8,zg8与zg9之间的相关性热 [1]徐承俊,朱国宾.数据挖掘在全国计算机等级考试 力图颜色为黄色,说明它们之间的相关性为负相 (NCRE)成绩分析中的研究及应用).计算机应用与 关。与之相反的情况为:zg7与zg9、zg11与 软件,2020,37(8:64-67,73 Zg12之间的相关性热力图颜色为蓝色,说明具 XU Chengjun,ZHU Guobin.Research and application of 有很强的正相关性,两个特征的相关密切程度比 data mining in national computer rank examination 较高。此时就要引起注意,试卷中zg7与zg9、 (NCRE)achievement analysis[J].Computer applications zg11与zg12之间是否考察知识点重合,还是题 and software,2020,37(8):64-67.73 目难易程度相近引起的高度相关。如果出现命题 [2]郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分 知识点重合,是否符合我们考核的目的,从而对 析).计算机工程与应用,2019,55(17)169-179. GUO Peng,CAI Cheng.Data mining and analysis of stu- 考试后试卷命题合理性分析给出提示。 dents'score based on clustering and association al- kg I 1.00 gorithm[J].Computer engineering and applications,2019, kg 2 0.75 55(17):169-179. [3]唐笑林数据挖掘技术的研究和应用).华东理工大学 zg 6 0.50 ze 7 学报(自然科学版),2008,34(2)290-295 0.25 TANG Xiaolin.Application and research of data zg 10 zg 11 mining[J].Journal of east China University of Science 2 and Technology (natural science edition),2008,34(2): zg 14 -0.25 290-295 zg 15 22 [4]张树滑,基于D3算法的大学生成绩数据挖掘与体能 分析系统设计[J].现代电子技术,2019,42(5):104 图5题目相关性热力图 106,110. Fig.5 Correlation map ZHANG Shuhua.Design of sports achievement data min- ing and physical fitness analysis system based on ID3 al- 3结束语 gorithm[J].Modern electronics technique,2019,42(5) 本文主要基于可拓数据挖掘的几种重要方法 104-106,110 [5]王小根,陈瑶瑶.多模态数据下混合协作学习者情感投 及皮尔逊相关系数,对高校学生成绩利用不同模 型,从不同角度进行分析,从而分析影响学生成 入分析).电化教育研究,2022,43(2):42-48,79 绩的主要题目,探索学生对知识点的掌握程度。 WANG Xiaogen,CHEN Yaoyao.Analysis of blended collaborative learners'emotional engagement based on 进一步,对每个学生,可以给出决定其及格与否 multimodal data[J].E-education research,2022,43(2): 的某个或某几个具体知识点,以便学生以后有所 42-48,79. 侧重学习。试卷中各题目相关性强弱分析的结 [6]沈苗,来天平,王素美,等.北京大学课程推荐引擎的设 论,也对课程考核等方面给出合理化指导和建 计和实现.智能系统学报,2015,10(3:369-375. 议。将不断发展的、前沿的科学技术、科研方法 SHEN Miao,LAI Tianping,WANG Sumei,et al.Design
征与特征自身的相关性计算值,正对角线上的值 均为 1,颜色最深。其余部分代表着当前特征与 其他特征的相关性计算,颜色的深浅代表着相关 性的强弱。具体而言:客观题 kg_1,kg_2,kg_3, kg_4,kg_5 之间相关性热力图颜色为浅绿色,说明 它们之间相关性较弱,但是总体保持着正相关的 关系。据此可以推断,客观题一道题的得分情况 对另外一题的得分情况影响较低,或者说题目本 身考查的知识点不相关。而主观题之间的相关性 则更加复杂。根据主观题之间的相关性热力图分 布,它们之间存在负相关和正相关两种相关关 系。相关性的数值越接近 1 或−1,说明两组数据 之间正向或反向线性关联越强。例如, zg_6 与 zg_7、zg_7 与 zg_8,zg_8 与 zg_9 之间的相关性热 力图颜色为黄色,说明它们之间的相关性为负相 关。与之相反的情况为:zg_7 与 zg_9、zg_11 与 zg_12 之间的相关性热力图颜色为蓝色,说明具 有很强的正相关性,两个特征的相关密切程度比 较高。此时就要引起注意,试卷中 zg_7 与 zg_9、 zg_11 与 zg_12 之间是否考察知识点重合,还是题 目难易程度相近引起的高度相关。如果出现命题 知识点重合,是否符合我们考核的目的,从而对 考试后试卷命题合理性分析给出提示。 kg_1 kg_2 kg_3 kg_4 kg_5 zg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 kg_1 1.00 0.75 0.50 0.25 0 −0.25 kg_2 kg_3 kg_4 kg_5 zg_6 zg_7 zg_8 zg_9 zg_10 zg_11 zg_12 zg_13 zg_14 zg_15 图 5 题目相关性热力图 Fig. 5 Correlation map 3 结束语 本文主要基于可拓数据挖掘的几种重要方法 及皮尔逊相关系数,对高校学生成绩利用不同模 型,从不同角度进行分析,从而分析影响学生成 绩的主要题目,探索学生对知识点的掌握程度。 进一步,对每个学生,可以给出决定其及格与否 的某个或某几个具体知识点,以便学生以后有所 侧重学习。试卷中各题目相关性强弱分析的结 论,也对课程考核等方面给出合理化指导和建 议。将不断发展的、前沿的科学技术、科研方法 应用于不断深化改革的教育教学中,同时也对长 期沉睡的庞大的学生成绩数据加以充分利用,教 学促进科研,科研反哺教学,起到了示范作用。 采用的相关算法是我们精心选取的算法,针对相 关成绩数据分析有一定的优势。将来我们可以进 一步深入研究,探讨如何将解决矛盾问题的可拓 学和机器学习的相关算法深度融合,起到如虎添 翼的作用。深究如何进一步将科研的方法应用到 教育大数据中,从而对推进教学改革,进一步提 高高校教学质量做出贡献。同时也希望上述分析 能起到抛砖引玉的作用。 参考文献: 徐承俊, 朱国宾. 数据挖掘在全国计算机等级考试 (NCRE) 成绩分析中的研究及应用 [J]. 计算机应用与 软件, 2020, 37(8): 64–67,73. XU Chengjun, ZHU Guobin. Research and application of data mining in national computer rank examination (NCRE) achievement analysis[J]. Computer applications and software, 2020, 37(8): 64–67,73. [1] 郭鹏, 蔡骋. 基于聚类和关联算法的学生成绩挖掘与分 析 [J]. 计算机工程与应用, 2019, 55(17): 169–179. GUO Peng, CAI Cheng. Data mining and analysis of students' score based on clustering and association algorithm[J]. Computer engineering and applications, 2019, 55(17): 169–179. [2] 唐笑林. 数据挖掘技术的研究和应用 [J]. 华东理工大学 学报(自然科学版), 2008, 34(2): 290–295. TANG Xiaolin. Application and research of data mining[J]. Journal of east China University of Science and Technology (natural science edition), 2008, 34(2): 290–295. [3] 张树滑. 基于 ID3 算法的大学生成绩数据挖掘与体能 分析系统设计 [J]. 现代电子技术, 2019, 42(5): 104– 106,110. ZHANG Shuhua. Design of sports achievement data mining and physical fitness analysis system based on ID3 algorithm[J]. Modern electronics technique, 2019, 42(5): 104–106,110. [4] 王小根, 陈瑶瑶. 多模态数据下混合协作学习者情感投 入分析 [J]. 电化教育研究, 2022, 43(2): 42–48,79. WANG Xiaogen, CHEN Yaoyao. Analysis of blended collaborative learners’ emotional engagement based on multimodal data[J]. E-education research, 2022, 43(2): 42–48,79. [5] 沈苗, 来天平, 王素美, 等. 北京大学课程推荐引擎的设 计和实现 [J]. 智能系统学报, 2015, 10(3): 369–375. SHEN Miao, LAI Tianping, WANG Sumei, et al. Design [6] ·712· 智 能 系 统 学 报 第 17 卷
第4期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·713· and implementation of the course recommendation en- processing of contradictory problems[J].Science&tech- gine in Peking University[J].CAAI transactions on intel- nology review,2014,32(36):15-20. ligent systems,.2015,10(3):369-375. [18]杨春燕,蔡文,涂序彦.可拓学的研究、应用与发展 [7]丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩 系统科学与数学2016.36(9:1507-1512 分析中的应用J】.计算机工程与设计,2006,27(4): YANG Chunyan,CAI Wen,TU Xuyan.Research,ap- 590-592 plication and development on extenics[J].Journal of sys- DING Zhibin,YUAN Fang,DONG Hewei.Application tems science and mathematical sciences,2016,36(9): of data mining to analysis of university students'grades 1507-1512. [J].Computer engineering and design,2006,27(4): [19]蔡文,杨春燕,陈文伟,等.可拓集与可拓数据挖掘 590-592. [M.北京:科学出版社,2008. [8]喻铁朔,李霞,甘琤.基于学生成绩回归预测的多模型 [20]杨春燕,蔡文.可拓数据挖掘研究进展).数学的实践 适用性对比研究).中国教育信息化,2020(17):23-28, 与认识.2009.394):134141 [9]钟文精,焦中明,蔡乐.基于K-Means算法的学生成绩 YANG Chunyan,CAI Wen.Recent progress in exten- 聚类分析).教育信息技术,2021(5):56-58 sion data mining[J].Mathematics in practice and theory, [10】蔡文,杨春燕,何斌.可拓逻辑初步M.北京:科学出 2009.39(4):134-141 版社,2003 [21]陈晓华,刘大莲,田英杰,等.可拓支持向量分类机) [11]CAI Wen,YANG Chunyan,LIN Weiehu.Extension en- 智能系统学报,2018,13(1)147-151. gineering methods[M].Beijing:Science Press,2003 CHEN Xiaohua,LIU Dalian,TIAN Yingjie,et al.Ex- [12]蔡文,可拓集合和不相容问题[J】.科学探索学报, tension support vector classification machine[J].CAAI 19831):83-97 transactions on intelligent systems,2018,13(1):147- CAI Wen.Extenics and incompatibility[J].Journal of 151. scientific exploration,1983(1):83-97. [22]赵燕伟,朱芬,桂方志,等.基于可拓距的改进k [13】李文军,杨春燕,汤龙,等.可拓学中相关关系的变换 means聚类算法[J].智能系统学报,2020,15(2): 方法研究).智能系统学报,2019,14(4):619-626. 344-351. LI Wenjun,YANG Chunyan,TANG Long,et al.Re- ZHAO Yanwei,ZHU Fen,GUI Fangzhi,et al.Improved search on the transformation method for the correlation k-means algorithm based on extension distance[J.CAAI relation in extenics[J].CAAI transactions on intelligent transactions on intelligent systems,2020,15(2):344- systems,2019,144):619-626 351. [14]杨春燕,李卫华,汤龙,等.基于可拓学和HowNet的策 [23]盛骤,谢式千.概率论与数理统计及其应用M.2版 略生成系统研究进展).智能系统学报,2015,10(6): 北京:高等教育出版社,2010. 823-830 [24]YANG Sixiao,TIAN Yingjie,ZHANG Chunhua.Rule YANG Chunyan,LI Weihua,TANG Long,et al. extraction from support vector machines and its applica- Strategy-generating system based on extenics and tions[C]//2011 IEEE/WIC/ACM International Confer- HowNet[J].CAAI transactions on intelligent systems, ences on Web Intelligence and Intelligent Agent Techno- 2015.10(6:823-830. logy.Lyon:IEEE,2011:221-224. [15]王丽萍,叶季平,苏学灵,等.基于可拓学理论的防洪 作者简介: 调度方案评价研究与应用[水利学报,2009,40(12) 刘大莲,副教授,主要研究方向为 1425-1434 最优化理论与方法、数据挖掘。发表 WANG Liping,YE Jiping,SU Xueling,et al.Evalu- 学术论文18篇。 ation of flood control operation program based on exten- ics theory and its application[J].Journal of hydraulic en- gineering,2009,40(12):1425-1434 [16]杨春燕,李兴森.可拓创新方法及其应用研究进展) 工业工程,2012,15(1131-137. 田英杰,教授,博士生导师,中国 YANG Chunyan,LI Xingsen.Research progress in ex- 科学院大学经济与管理学院副院长」 tension innovation method and its applications[J].Indus- 主要研究方向为机器学习、大数据挖 trial engineering journal,2012,15(1):131-137. 掘与最优化。出版中英文专/合著5 [1刀杨春燕,蔡文.可拓学与矛盾问题智能化处理).科技 部,近5年发表学术论文50余篇。 导报.2014.32(36):15-20 YANG Chunyan,CAI Wen.Extenics and intelligent
and implementation of the course recommendation engine in Peking University[J]. CAAI transactions on intelligent systems, 2015, 10(3): 369–375. 丁智斌, 袁方, 董贺伟. 数据挖掘在高校学生学习成绩 分析中的应用 [J]. 计算机工程与设计, 2006, 27(4): 590–592. DING Zhibin, YUAN Fang, DONG Hewei. Application of data mining to analysis of university students’ grades [J]. Computer engineering and design, 2006, 27(4): 590–592. [7] 喻铁朔, 李霞, 甘琤. 基于学生成绩回归预测的多模型 适用性对比研究 [J]. 中国教育信息化, 2020(17): 23–28. [8] 钟文精, 焦中明, 蔡乐. 基于 K-Means 算法的学生成绩 聚类分析 [J]. 教育信息技术, 2021(5): 56–58. [9] 蔡文, 杨春燕, 何斌. 可拓逻辑初步 [M]. 北京: 科学出 版社, 2003. [10] CAI Wen, YANG Chunyan, LIN Weiehu. Extension engineering methods[M]. Beijing: Science Press, 2003 [11] 蔡文. 可拓集合和不相容问题 [J]. 科学探索学报, 1983(1): 83–97. CAI Wen. Extenics and incompatibility[J]. Journal of scientific exploration, 1983(1): 83–97. [12] 李文军, 杨春燕, 汤龙, 等. 可拓学中相关关系的变换 方法研究 [J]. 智能系统学报, 2019, 14(4): 619–626. LI Wenjun, YANG Chunyan, TANG Long, et al. Research on the transformation method for the correlation relation in extenics[J]. CAAI transactions on intelligent systems, 2019, 14(4): 619–626. [13] 杨春燕, 李卫华, 汤龙, 等. 基于可拓学和 HowNet 的策 略生成系统研究进展 [J]. 智能系统学报, 2015, 10(6): 823–830. YANG Chunyan, LI Weihua, TANG Long, et al. Strategy-generating system based on extenics and HowNet[J]. CAAI transactions on intelligent systems, 2015, 10(6): 823–830. [14] 王丽萍, 叶季平, 苏学灵, 等. 基于可拓学理论的防洪 调度方案评价研究与应用 [J]. 水利学报, 2009, 40(12): 1425–1434. WANG Liping, YE Jiping, SU Xueling, et al. Evaluation of flood control operation program based on extenics theory and its application[J]. Journal of hydraulic engineering, 2009, 40(12): 1425–1434. [15] 杨春燕, 李兴森. 可拓创新方法及其应用研究进展 [J]. 工业工程, 2012, 15(1): 131–137. YANG Chunyan, LI Xingsen. Research progress in extension innovation method and its applications[J]. Industrial engineering journal, 2012, 15(1): 131–137. [16] 杨春燕, 蔡文. 可拓学与矛盾问题智能化处理 [J]. 科技 导报, 2014, 32(36): 15–20. YANG Chunyan, CAI Wen. Extenics and intelligent [17] processing of contradictory problems[J]. Science & technology review, 2014, 32(36): 15–20. 杨春燕, 蔡文, 涂序彦. 可拓学的研究、应用与发展 [J]. 系统科学与数学, 2016, 36(9): 1507–1512. YANG Chunyan, CAI Wen, TU Xuyan. Research, application and development on extenics[J]. Journal of systems science and mathematical sciences, 2016, 36(9): 1507–1512. [18] 蔡文, 杨春燕, 陈文伟, 等. 可拓集与可拓数据挖掘 [M]. 北京: 科学出版社, 2008. [19] 杨春燕, 蔡文. 可拓数据挖掘研究进展 [J]. 数学的实践 与认识, 2009, 39(4): 134–141. YANG Chunyan, CAI Wen. Recent progress in extension data mining[J]. Mathematics in practice and theory, 2009, 39(4): 134–141. [20] 陈晓华, 刘大莲, 田英杰, 等. 可拓支持向量分类机 [J]. 智能系统学报, 2018, 13(1): 147–151. CHEN Xiaohua, LIU Dalian, TIAN Yingjie, et al. Extension support vector classification machine[J]. CAAI transactions on intelligent systems, 2018, 13(1): 147– 151. [21] 赵燕伟, 朱芬, 桂方志, 等. 基于可拓距的改进 kmeans 聚类算法 [J]. 智能系统学报, 2020, 15(2): 344–351. ZHAO Yanwei, ZHU Fen, GUI Fangzhi, et al. Improved k-means algorithm based on extension distance[J]. CAAI transactions on intelligent systems, 2020, 15(2): 344– 351. [22] 盛骤, 谢式千. 概率论与数理统计及其应用 [M]. 2 版. 北京: 高等教育出版社, 2010. [23] YANG Sixiao, TIAN Yingjie, ZHANG Chunhua. Rule extraction from support vector machines and its applications[C]//2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology. Lyon: IEEE, 2011: 221−224. [24] 作者简介: 刘大莲,副教授,主要研究方向为 最优化理论与方法、数据挖掘。发表 学术论文 18 篇。 田英杰,教授,博士生导师,中国 科学院大学经济与管理学院副院长, 主要研究方向为机器学习、大数据挖 掘与最优化。出版中英文专/合著 5 部,近 5 年发表学术论文 50 余篇。 第 4 期 刘大莲,等:可拓数据挖掘在学生成绩分析中的应用研究 ·713·