数据挖掘实习报告

2020-03-01 19:14:07 来源:范文大全收藏下载本文

通过半年的实习,我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。

经历了实习,对社会也有了基本的实践,让我学到了书本以外的知识,实习期间,我努力尽量做到理论与实践相结合,在实习期间能够遵守工作纪律,不迟到、早退,认真完成领导交办的工作。在实习鉴定中,我参与了整个数据分析工作,从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等,让我充分学习了数据分析岗位的实际操作。

在实习初期,项目经理安排了我参与数据获取的相关工作,主要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对SQL语言了解较多,以为这份工作非常简单。但实际操作起来才知道,在数据量达到几百兆甚至上GB级别的时候,所学的SQL根本解决不了问题。经向项目经理学习,这才知道了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充分认识到所学知识远远不够。

完成数据获取阶段之后,项目经理开始安排数据清洗以及数据报表制定的相关工作。接到这份工作之初,对数据清洗并没有太多的认识,以为很多都是按照《数据挖掘》教材中步骤进行就可以的。但经过项目经理指导之后才知道数据清洗之前首先要对项目业务进行一定的了解,只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值,哪些数据又是不正常的,制定报告或者交给模型分析师时需要去除的等等。同时,在制定数据报表的同时学习了很多excel函数的使用,透视表的使用,PPT报告的书写等等。

在实习的后三个月,开始接触了模型的分析与监控。在学习《机器学习》以及《数据挖掘》书本时,总会想到各种各样的分类模型,也总会认为模型准确率高的模型才会是好模型。在运用统计模型之前,项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。其中逻辑回归模型、决策树模型是常用的分类模型,回归分析和时间序列模型是常用的预测模型,这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经网络模型之时,项目经理说,由于模型结果都是要给市场部门的同事报告的,所以模型结果最好能够简单易懂的。在实际工作才知道,一般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简单,并不是用R软件上的几个函数,几行代码就能解决的,选择什么参数、选择什么样的模型,当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的,这才发现项目经理之前提到的业务知识是多么的重要。

在模型建立之后就是模型监控了,由于是我负责的项目,所以项目经理也将监控这一任务交给了我。数据挖掘模型通常情况下都是要上线的,但模型的效果会随着数据的变化而变化,当模型的指标达到一定程度时就需要修改模型。在这一阶段,充分锻炼了我的程序编写能力。

在整一个实习过程,非常感谢项目经理给予了我数据挖掘整一个流程学习的机会,让我真正对数据挖掘的实际工作有了一定的认识,也让我学习到了很多学校学习中学不到的实际操作能力,在此表示衷心的感谢。

数据挖掘

《数据挖掘导论》读书报告

数据挖掘心得体会

数据挖掘作

数据挖掘总结

数据挖掘试题

数据挖掘讲课心得体会

数据挖掘研究现状

数据挖掘课程体会

数据挖掘实验三

《数据挖掘实习报告.doc》
数据挖掘实习报告
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
下载全文