《数据挖掘》 在当今的大数据时代,数据无时不有、无处不在,每时每刻都会有大量的数字、文本、音频、视频等数据产生,数据已成为一个国家重要的战略资源。通过分析与建模从这些非结构化的海量数据中“挖掘”其蕴含的内在规律和本质特征,已成为科学研究与决策服务的主要方法和途径,也是不同行业领域内数据分析人才应具备的最为核心的能力。正是基于这样的背景,我们组织了多年来从事数据科学工作的一线教师以及来自行业研究院的行业专家共同编著了《数据挖掘》这本书,并将其作为BDA数据分析师中级证书考试的核心教材。
本书以读者为中心,坚持效果导向原则,通过设置“学前想、学中思、学后悟”栏目,使读者在学习每一章内容之前“想一想”要解决哪些主要问题,在学习每种数据挖掘方法的过程中“思一思”分析问题的具体原理与方法,并结合基于Python软件的应用案例分析“悟一悟”方法背后蕴含的思维方式,力求使读者达到领悟思想的目的;而在学完每一章内容后,通过“练中究,练中探”,使读者在解决实际问题的过程中理解概念、掌握原理、领悟思想、学会应用,进一步探讨感兴趣的相关实际问题。
在编著过程中,充分遵循人的认知规律,沿着“发现问题、分析问题与解决问题”这条主线,按照BDA数据分析师中级证书对数据挖掘能力的具体要求,在分析数据挖掘一般原理与方法的基础上,进一步结合实际背景,详细介绍各种常见数据挖掘方法的基本思想、原理与步骤,并利用Python软件进行了相应的案例分析。第1章是对数据挖掘理论的总体概述,从数据挖掘的背景与意义出发,对其一般原理与方法进行了归纳与总结,并介绍了其在不同行业领域的具体应用;第2章通过引入指数分布族,将经典回归分析模型进一步推广,主要介绍了利用广义线性模型进行数据挖掘的思想、原理、方法及其在汽车财产保险中的应用;第3章主要介绍了利用主成分分析进行数据挖掘的思想、原理、方法及其在上市公司财务业绩评价体系中的应用;第4章主要介绍利用因子分析与对应分析进行数据挖掘的思想、原理、方法及其在城镇居民消费结构研究中的应用;第5章主要介绍了利用判别分析进行数据挖掘进行数据挖掘的思想、原理、方法及其在园区对企业准入判别中的应用;第6章主要介绍了利用聚类分析进行数据挖掘的思想、原理、方法及其在各地区人力资源状况分析中的应用;第7章主要介绍了利用典型相关分析进行数据挖掘的思想、原理、方法及其在能源消费量和经济增长关系研究中的应用;第8章主要介绍了利用关联分析进行数据挖掘的思想、原理、方法及其在超市购物篮数据分析中的应用;第9章主要介绍了利用异常分析进行数据挖掘的思想、原理、方法及其在信用卡欺诈识别中的应用;第10章主要介绍了利用支持向量机进行数据挖掘的思想、原理、方法及其制造业企业经营风险评估中的应用;第11章主要介绍利用贝叶斯统计进行数据挖掘的思想、原理、方法及其在影像数据分类中的应用;第12章主要利用介绍了决策树与集成学习进行数据挖掘的思想、原理、方法及其在健康产业运行监测中的应用;第13章主要利用介绍人工神经网络学习进行数据挖掘的思想、原理、方法及其在上证综合指数收盘价预测分析中的应用。
本书是2018年教育部产学研协同育人项目(201802113004)、2020年第二批新工科研究与实践项目(E-SZNL20200704)以及2020年天津市普通高等学校本科教学质量与教学改革研究计划项目(B201006902)的研究成果,并得到了国家自然科学基金项目(71371138)的资助。同时,本书也是在中经数(北京)数据应用技术研究院的组织下,由天津商业大学的安建业、赵芬霞、卢志义、耿峤峙、徐雪、滕树军、王玉津、李秀仙、张连娣、刘杨、淦亚婷、冯灿锐以及深圳市维度数据科技股份有限公司的黄海阳、吴秋盈、朱少钦、裴来辉、张龙、黎惟春、敬春柯共同编著完成。
本书既可作为BDA数据分析师中级证书的考试用书,也可作为高校大数据分析、智能科学等相关专业的教学用书,或者从事数据挖掘相关工作的参考书。