工程硕士数据素养评价指标的构建与应用

文章来源:毕业论文通 分类:工程硕士论文 发布时间:2020-08-16 23:00:02
毕业论文通第2020-08-16期,本期论文编辑为大家分享一篇工程硕士论文《工程硕士数据素养评价指标的构建与应用》,供广大毕业生在写工程硕士文章时进行参考。

  【摘要】信息时代,数据素养成为国家核心竞争力,工程硕士应在数据意识、知识和技能上做好准备,提高自身数据素养。本文在明确数据素养内涵与指数广义化的基础上,通过词计算协助建构了数据观、数学与计算机基础、目标数据集、数据分析与挖掘、知识发现与决策共五个分指数、十一个观测点的数据素养评价指数体系。运用对偶比较法加以赋权,设计了求解分指数与综合指数的算法。对某高校243名应届工程硕士毕业生的数据素养水平进行测度,经结果分析,提出了工程硕士数据素养水平的参考性阈值,以及提高数据素养的几点建议。

  【关键词】指数;数据素养;工程硕士;数据挖掘

  

  随着信息技术的发展,人类社会正在走向数据经济时代,“除了上帝,任何人都必须用数据来说话”,大数据正成为人类社会发展的战略性资源。英国大学数据技能指导协会(UUSSG)认为数据素养是每一位工作者的核心素养之一。数据的获取、分析及利用成为毕业生发展的重要能力,越来越多的企业、政府机构、教育组织等都开始转变为“数据驱动”模式,管理者和工作人员需要具备获取数据、整理数据、分析数据并以此决策的能力。有学者呼吁对大学生、科研人员等进行数据素养教育,提高数据素养将有助于毕业生提高工作的适应能力和竞争力。Koltay T 提议数据扫盲教育,从数据意识、读写乃至数据研究等方面提高科研人员、教育数据管理人员以及普通的工作人员的数据素养。作为理论与实践、学术性与专业性相融通的高层次复合型应用人才的工程硕士,更需要具备高水平的数据素养。国内外关于数据素养的研究主要集中在描述数据素养的内涵、构成以及阐述其意义与价值等方面,而对数据素养的评价和测度少有涉及。本文通过工程硕士数据素养评价指数的研究,为提高毕业生数据素养提供实证支撑。

  一、数据素养的概念

  古希腊学者毕达 哥拉斯认为 数 是 万 物 的 本质,纷繁复杂的客观世界若抽象为数及其关系,就构成了一个平行的数字化空间。数据就可以用来体现、发现、预测、控制与治理现实世界的问题,所以两个世界是交互的,人们可以在这两个世界里穿梭。然而在人类的历史长河中,把客观实体及其相互关系数据化并进行掘金的实践,始于近代概率统计学在科学、经济等领域上富有成效的应用尤其在科学 研 究方 面,从 实 验 科 学、理 论 科学、模拟计算科学走向了基于密集型数据驱动的第四科学研究范式。随着计算机与互联网技术的飞速发展,社会各领域不同形态的数据喷涌而出,汇聚、流动并转化着。这些海量的数据既包括数字、符号等结构化的数据、还包含电子文本、图片、音频、视频等非结构化的数据。这些庞大、复杂、异源且快速流动的数据尽管在分析处理的实际中还存在诸多问题,但其中蕴含的价值巨大,如何培养与提高数据素养水平,人们已嗅其味、不敢懈怠。Schield认为数据素养(Data literacy)是信息素养和统计素养的重要组成部分,具备数据素养的人必须有获取、评估、处理、总结和呈现数据的能力。张静波则认为数据素养是研究者在科学数据的采集、组织与管理、处理与分析、共享与协同创新利用等方面的能力,以及研究者在数据的生产管 理 和 发 布 过 程 中 的 道 德 与 行 为 规 范。Mandinach E B等提出数据素养的核心在于理解并使用数据,即将数据转化为信息,信息形成决策,进而转化为可操作的知识的能力。数据素养是对媒介素养、信息素养等概念的一种延续和扩展,包括数据的敏感性、数据的收集能力、数据的分析处理能力、利用数据进行决策的能力、对数据的批判性思维等五个方面的维度。Schield主要强调数据分析处理能力,张静波增加了道德与行为规 范 的 考 虑,Mandinach E B等则侧重在数据的理解和使用方面。综合以上研究,我们认为数据素养是有意识的发现、合于伦理地获取、基于主题的处理,通过建构可观测体系转化为目标数据再运用数据融合、挖掘、分析等技术将数据转变为信息,进一步探索事物的变化或关系,从而发现新知识并以此指导社会实践的思维与能力。

  二、数据素养的评价

  1650年 Rich Vaughan为了研究货物的价格波动变化情况,首次提出指数的概念,其后指数的应用范围不断扩大,内涵和意义不断丰富。1884年查尔斯·亨利·道编制了道琼斯股票指数,使用算术平均法计算编制以反映股票市场的总体走势,成为世界上影响最大、最有权威性的一种股票价格指数。1855 年比利时学者凯特勒设计了体质指数,是衡量人体肥胖程度和营养状态的重要标准。1940年英国农学家沃森提出叶面积指数的概念,以反映植物群体生长状况。王战军等人通过对研究生教育质量指数的研究,认为指数是一种反映不同时间或空间条件下指标变动方向和变动程度的相对数。指数的特征,首先表现为一种统计指标,通过量纲规范化的相对数,包括在不同时空以及不同属性和特征上的比较。指数同时是一种数据融合技术,在一定条件下,经过转化后的指数相加或者相乘具有实际含义,并生出实践价值,由此产生了数据融合思维。指数还具有综合性、代表性、平均性、相对性、诊断性等特征。数据素养具有整体性、复杂性和差异性特征,数据素养的能力表征呈现出多元化和多层次性。现有的评价方法都有各自的特点和优势,但也存在适用性等问题,至今没有统一的标准和模式,本文拟通过建构数据素养评价指数,借鉴指数方法对数据素养能力进行评价 。

  三、数据素养评价指数的建构

  数据素养评价指 数的建构要 明 确 遵 循 的 原则,是全程性原则,即数据素养是从数据的认知、数据收集、数据处理、数据分析到数据决策一个完整流程的能力。数据素养指数构建应按照一体化流程找出关键因素,构建评价指数。二是简便性原则,即要在对多种数学方法择优的基础上,选择简便可测的观测点,数据标准化与指数的运算公式要简便。三是服务职业发展原则,即工程硕士研究生的数据素养要同所学专业、所从事的职业与所处的行业领域的实践相结合。数据养评价指数的建构是一个科学、复杂、模糊的个体认知过程,为了最大可能避免主观上的偏颇与疏漏,指标的选择需要将定性及定量方法相结合。定量方法从数据出发,用聚类法、逐步判别分析法和主成分分析法等数理统计技术确定代表性指标,定性方法是从专家系统与个体经验出发,找出代表性强的指标。1631年捷克学者夸美纽斯在《敞开的语言之门》创建“频率词汇表”,语言学家认为词本身就包含语法,谷歌公司基于词计算的建模有效预测了流感疫情,淘宝、京东等网络公司也利用用户的留言,通过词语计算来追踪潜在客户。因此可以采用词计算的方法,对文献进行信息抽取,建构数据素养评价指数,首先分析国内外的相关文献,然后使用相关软件进行计量语言学的词计算,采用客观赋权法确定分指数的权重,建立数据素养评价指数,构建过程如图1所示。

数据素养评价指数构建过程

(一)核心词汇抽取与聚类

  使用运算式“TI=‘数据素养’”在 中国知网论文数据中检索核心期刊、CSSCI、CSCD 期刊和学位论文文献数据,使用运算

“TI=‘Data liter-acy’”在 Web of Science 核心集数据库中检索外文文献数据,文献检索结果如表1所示。

文献检索结果

  同时,通 过 网 络 搜 集 数 据 素 养 相 关 书 籍 10本,国内外知名大学数据科学、大数据科学、统计学专业的人才培养方案12份。通过集中阅读这些期刊与学位论文,抽取数据素养的核心词汇,得到两个词集。在中国期刊数据库中,按运算式“TI=‘数据,素养’”检索,得出关键词词集 C。分析三个词集可以看出:数据素养和科技工作者、数据教育、信息以及大数据密切相关。大数据浪潮的兴起,使得人们开始关注数据素养问题。科研人员需要具有数据素养。图书情报领域文献数据蕴含着丰富的信息,有待挖掘。数据素养需要进行包括相关课程、信息、测量、统计等多方面的教育。在对三个词集的分析及对文献资料综合性理解的基础上,通过咨询有关专家,建立了包括数据观(101)、数学与计算机 基 础 (102)、目 标数据集(103)、数据分析与挖掘 (104)、知识发 现与决策(105)五个分指数的数据素养评价指数体系。观测点共计十一个,分别为:相关论文文献、相关书籍文献、相关课程、相关专家讲座、数学建模竞赛、计算机证书、数据分析软件、行业数据平台、职场数据、发表的相关论著、相关的工作报告。

  (二)分指数的权重

   不同分指数对于综合指数的影响程度不同,需要确定分指数的权重以表征不同分指数的影响程度。本文共邀请相关专家3人,企事业管理人员2人,对五个分指数的重要性进行比较打分,通过对偶比较法求出权数。第一步对指标的重要性进行排序;第二步,专家填写指数对偶表;第三步整理数据,把每列数据归一;第四步每行加总后归一得指数的权重;第五步重复第1-4步,直至第五位专家止;第六步求出五位专家的权数均值作为权重。

(三)分指数的量化及算法

  数据观,指富有数据意识,对数据存有高度敏感性,知晓大数据的特征,形成运用数据发现问题、理解问题、解决问题、恢复知识的新思维。能够通过数据分析探求事物之间的因果关系或者相关关系。理解数据交流、数据共享、数据的伦理、数据文化的意义等。由攻读专硕期间学习的相关论文、书籍、课程以及专家讲座四个观测点按相同权数测度数据观这一分指数。规定所有分指数的观测点涉及的论文、书籍、课程等各不相同,不可重复计算。对同一个观测点赋值时,不在于设定的基值大小,而在于比例。数学与计算机基础,是指切实掌握高等数学并具有良好的计算机应用能力。高等数学包括微积分,线性代数,概率论与数理统计等课程,学会数学建模。计算机基础侧重于算法设计、语言编程与常规软件使用。观测点为:相关论文、书籍、课程、参加的校级以上数学建模竞赛、计算机国家等级证书。五个观测点权数相同。目标数据集,要求熟悉国内外某一行业领域的数据平台,能够从多源接口进一步检索收集亟待解决问题的目标数据,或者把相关资料转化为目标数据。基于工程硕士研究生的职业属性,还需要熟悉本专业、本单位的职场数据。根据所掌握行业数据平台的个数与职场数据来测度。两个观测点同权数。数据分析与挖掘,主要是指统计分析与数据挖掘技术,即从原始数据处理、数据建模到设计运行算法获取信息的一套完整的分析体系。数理统计包括聚类、估计、回归、检验、推断预测、可视化、项目报告等方法。数据挖掘指从大量的数据中运用算法抽取有效信息的过程,例如机器学习、神经网 络、模 式 识 别、决 策 树、支 持 向 量 机、ADA-BOOST 等。

统计分析与数据挖掘要以软件为工具,常 见 的 数 据 软 件 有:PYTHON、MATLAB、SPSS、R、UCINET等,一般要熟悉两种以上工具为好,重视开源软件。按权数相等的五个观测点:论文、书籍、课程、专家讲座、掌握的软 件进行测度。知识发现与决策,指通过数据分析与挖掘从中获得诸多信息,然后对信息进行加工,验证结论,科学预测,探索事物间因果或相关关系,发现新观点、新规律、新理论等,并以此指导社会实践等。由硕士就读期间相关学术成果和实践工作报告进行同权测度。学术成果的计算:以本科院校学报论文1篇记为1、北大核心记为1.5、南大核心记为2、ISTP 收录记为 1.2、EI检索论文记为2、SCI与SSCI核心集论文记为3、其他国内普通期刊记为0.6、外文普通期刊0.7;专著大于20万字记作5、专著10-20万字记作3、专著小于十万字记作2、主编教材记作2;发明专利一项记作4、软件专利一项记作2。分指数的观测值构成一个向量,不同观测点的量纲相互独立,互不影响。所以根据数据的特征,分指数计算采用加权 Topsis法,求出各分指数向量同最优值向量以及同最劣值向量的距离,使得原数据去量纲,向优的距离之比即是分指数值。总指数为分指数加权算术平均数。具体步骤如下:首先记录观测点数值,并使得变化方向一致,写出分指数的向量,得原始数据矩阵。

  三、数据素养水平指数的实证研究

  根据指数体系设计调查问卷。研究对象是高校工程硕士,通过网络发放电子调查问卷,调查时长15天,发放问卷268份,回收合格问卷243份。采集数据后,求得243人(部分)的数据素养评价指数。指数数据的描述。我们对求出的243位工程硕士的数据素养评价指数数值进行非参数检验,发现其服从正态分布;绘制样本数据的正态 P-P图,期望积累概率与观测积累概率的坐标点基本落在直线上,也表明其服从正态分布。求得均值为0.53,标准差0.16,变异系数0.3。数据素养水平的层次划分。由于数据服从正态分布,依据标准差将数据素养评价指数分为六个层次,对应区间如下:(0,μ-2σ]很低,(μ-2σ,μ-σ]低,(μ-σ,μ]一般,(μ,μ+σ]较高,(μ+σ,μ+2σ]高,(μ+2σ,1)很高。代入样本均值与标准差的数值,得出如下六个 评价 层次:(0,0.21]很低,(0.21,0.37]低,(0.37,0.53]一般,(0.53,0.69]较高,(0.69,0.85]高,(0.85,1)很高。再对数据素 养 评 价 指 数 进 行 K-均 值 聚 类,迭 代 4次聚类个数为三,第一类的中心为0.70,案例数为81;第二类的中心为0.52,案例数为112;第三类的中心为0.28,案例数为50。数据素养评价指数对不同研究生个体之间数据素养水平进行了量化比较,运算结果一可使我们进行客观排序,二可以归纳出一个数据素养水平的最低参考 值。由上 述评价层次 以 及聚类情况,我们提出评价指数的下限阈值 0.38,作为数据素养的最低水准。取阈值0.38,发现243人中不合格率达16.7%。按指数0.38,我们找到如下五个向量:数据观(3,1,0,2)(3篇论文、1本书、0个课程、2次讲座),数学与计算机基础(2,3,1,0,4)(2篇论文、3本书、1门课程、0个数赛奖励、计算机二级),目标数据(2个行业数据平台、3年工作经历),统计与数据挖掘技术(4,2,1,3,2)(4篇论文、2本书、课程一门、专家讲座3次、掌握软件2个),信息决策与知识发现(1,2),(1本科学报一篇,与数据相关的工作报告2个),可以作为最低要求下的观测点参照值。观测数据呈现综合性平稳,综合指数0.38具有经验指导意义。

  四、数据素养评价指数的诊析与建议

  指数的建构与测度是一个多元分析和计算方法结合的过程,由此可以充分了解数据素养的结构以及各分维指数对综合指数的影响情况等。指数具有的“溯源”与诊断的功能,因此对分指数循证诊析,提出如下提高数据素养建议。在数据观上,学生很容易意识到数据在学术与职场上的重要性,因此本指数观测值普遍较高。但是对大数据的特征理解不深,要逐步明确自然语言也是数据,数字、符号、文字、音频、视频等混合数据是可以进行运算的。需要进一步重视数据的伦理性,在数据的获取、治理、使用时等要尊重他人隐私,符合国家的法律制度。数据产品的是商品,要保护知识产权。综合指数对数学与计算机基础敏感性较高。我们发现凡是曾以高等数学和计算机基础为必修课程的学员,数据素养水平会在一般层次以上。良好的高等数学基础,才能有效地数据建模、理解并灵活使用软件内置的算法。计算机基础要侧重熟悉经典算法,能够初步学会编程。熟悉本行业数据平台,积累职场数据。学员需要掌握国内外行业领域的数据平台,例如:在网络销售行业有数据空间淘宝、京东、苏宁易购、亚马逊等。在熟悉这些数据平台的同时,学会建立解决问题的目标数据。学生常常对职场数据重视不够,所谓职场数据,包括所在单位的组织文化,政策制度和人际关系中所蕴含的数量关系,如本单位人员的年龄结构比例、中层的数量和晋升的最低条件等。灵活运筹职场数据可明显提高工程硕士研究生的职业能力。综合指数对数据 统计分析与 挖 掘 技 术 最 敏感。它是从如何收集问题数据,如何进行提高数据质量的数据清洗,到数据的标准化、聚类、转译等,怎样建立基于问题的数据模型,运用软件的内置算法或者设计新的算法,如何使用开源软件进行质性、量化的统计分析或挖掘,怎样讨论得出相关信息或者结论,到最后完成项目报告的分析技术。熟练应用这一技术体系,是数据素养水平提高的核心因素。知识发现与决策是对数据应用能力大小的直接体现。通过数据分析,同时运用质性的创新思维,可以对假设进行验证、归纳出新结论,修正或建立模型,发现规律与新理论。然后运用这些新知识指导实践决策,解决实际问题。总之,加强数据素养是数字化社会的必然要求。工程硕士数据素养评价指数的五个分指数,十一个观测点,形成了要素全面、结构清晰、逻辑严谨的体系,数据素养水平可以通过对这五个要素进行自我 加 强 而 提 高。Vahey,Philip,Rafa-nan发现,通过社会研究、数学、科学和语言艺术的集中整合,学生的数据素养得到了提高。数据思维项目(TWD)通过以下方式扩展了数据素养的现有概念:一是将比例推理作为数据素养的关键;二是利用非数学学科,让学生深入思考数据的上下文和相称性的应用因此可以进一步探索多路径提高数据素养水平,把数据素养渗透到专业与职业生涯中去。


参 考 文 献

[1]KOL TIBOR.Data literacy:in search of a name and identity[J].Journal of Documentation,2015,72(2):401-415.

[2]SCHIELD MILO.Information literacy,statistical literacyand data literacy[J].Iassist Quarterly,2004,(2-3):7-14.

[3]张静波.大数 据 时 代 的 数 据 素 养 教 育 [J].科 学,2013,65(4):29-32.

[4]MANDINACH E B,GUMMER E S.A Systemic View ofImplementing Data Literacy in Educator Preparation[J].Ed-ucational Researcher,2013,42(1):30-37.


以上是由毕业论文通为您分享的关于《工程硕士数据素养评价指标的构建与应用》的相关内容,如需查看更多工程硕士论文、毕业论文范文、硕士论文模板、博士论文模板,了解毕业论文写作方法,欢迎访问毕业论文通。
上一篇:工程硕士论文:EPON 技术及其在广电双向改造中的应用分析
下一篇:新形势下工程硕士研究生课程建设的几点思考