一、课程设计目标
这个课程设计主要想让你亲自动手,完整走一遍探索性数据分析的流程。选一个真实或者接近真实的数据集,用上Python里的pandas、matplotlib、seaborn这些工具,从数据导入清理开始,到画图看分布、找关系、挖异常,最后能用自己的话把数据里藏的故事和模式讲清楚。重点不是跑个多高级的模型,而是练好数据感知和描述的基本功。
二、数据集与工具
数据集建议选公开的,比如Kaggle上的泰坦尼克乘客生存预测、电影评分数据,或者UCI仓库里的葡萄酒质量、波士顿房价数据。工具就用Jupyter Notebook,配好pandas、numpy、matplotlib、seaborn这些库,方便一步步操作和记录。
三、核心任务与步骤
1. 数据获取与初探:先把数据读进来,用head、info、describe看看长什么样,有多少行多少列,缺不缺值,类型对不对。
2. 数据清洗与准备:处理缺失值,是删掉还是填上;看看有没有重复记录;把分类变量转成数字编码;有必要的话做点特征缩放或衍生新变量。
3. 单变量分析:盯着一个变量看。数值型的画直方图、箱线图,说说分布是偏左还是偏右,有没有极端值。分类数的画个条形图,看看哪个类别最多。
4. 多变量与关系分析:找变量之间的关联。两个数值型就画散点图,算算相关系数。一个分类一个数值,就分组画箱线图或者小提琴图比一比。两个分类变量可以画堆叠条形图或者热力图。
5. 模式识别与异常探查:从图里和统计量里找找规律,比如是不是价格高的房子面积也大,某个性别的生存率明显不一样。同时用箱线图或者统计方法揪出那些特别离谱的数据点,想想怎么处理。
6. 结果梳理与报告:把关键的发现用文字和核心图表整理出来,形成一份简明的分析报告。不用长篇大论,重点说清楚你看到了什么,有什么猜想,数据质量怎么样。
四、时间安排建议
一共给两周时间。第一周头两天搞定数据理解和清洗,后面三天做单变量和简单的双变量分析。第二周深入做多变量关系和模式挖掘,最后两天写报告和整理代码。
五、考核要点
主要看几个方面:数据清洗处理是不是得当;可视化图表选得合不合适,画得清不清楚;分析逻辑是不是连贯,能不能从数据中提炼出有意义的观察;最后报告的表达是不是清晰有条理。代码的规范性和注释也会看。