数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

2023-02-28

数据成分葡萄酒

🤵‍♂️个人主页：@艾派森的个人主页✍🏻作者简介：Python学习者🐋希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论💬点赞👍🏻收藏📂加关注+目录1.项目背景2.项目简介2.1分析目标2.2数据集介绍2.3技术工具3.算法理论4.实验过程4.1数据探索4.2PCA主

🤵‍♂️ 个人主页：@艾派森的个人主页

✍🏻作者简介：Python学习者
🐋 希望大家多多支持，我们一起进步！😄
如果文章对你有帮助的话，
欢迎评论 💬点赞👍🏻 收藏 📂加关注+

1.项目背景

2.项目简介

2.1分析目标

2.2数据集介绍

2.3技术工具

3.算法理论

4.实验过程

4.1数据探索

4.2 PCA主成分分析

4.3 构建模型

5.总结

源代码

摘要

葡萄酒作为世界上最早的饮料酒之一，其品质和文化早已被人们所认可。据统计2021年，全球葡萄酒产量260亿升，较2020年下降了近1%，至此已连续3年略低于10年平均水平。由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消，餐饮业完全停滞，导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元，2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。本次实验使用葡萄酒数据集进行主成分分析，最后构建葡萄酒分类模型，用来对葡萄酒的分类。

1.项目背景

作为世界上最早的饮料酒之一，葡萄酒的发展与西方文明紧密相关。根据酿造历史和生产工艺，葡萄酒生产国被划分为传统酿造工艺为代表的“旧世界”，包括法国、意大利、西班牙、德国等，以及以现代酿造技术为代表的“新世界”，包括美国、澳大利亚、新西兰、智利、阿根廷和南非等。据统计2021年，全球葡萄酒产量260亿升，较2020年下降了近1%，至此已连续3年略低于10年平均水平。受霜冻影响，欧盟的葡萄酒产量153.7亿升，较2020年下降8%。这主要是由于2021年4月份霜冻导致法国葡萄酒产量大幅下降。意大利(50.2亿升，增2%)、法国(37.6亿升，降19%)、西班牙(35.3亿升，降14%)三个国家占全球葡萄酒产量的47%。

由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消，餐饮业完全停滞，导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元，2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。

葡萄酒行业产业链上游参与主体为原材料及相关设备，主要包括葡萄、淀粉、酵母、食品添加剂、包装材料和酿造设备等;中游为葡萄酒行业，主要有白葡萄酒、红葡萄酒和桃红葡萄酒三大类;下游为各类消费渠道，最后到达终端消费者。近年来，随着葡萄酒产业链延伸，出现了各类“葡萄酒+”产业的新型模式，如“葡萄酒+旅游”、“葡萄酒+科技”等。

随着我国全面步入小康社会，人们的生活水平不断提高，消费市场持续升级，为具有一定品牌溢价能力的中高端葡萄酒带来较大发展空间。经过近几年的努力，中国葡萄酒的品质与风味已经赢得广大消费者认可，这也为中国葡萄酒搏击中高端葡萄酒市场奠定了基础。综合看来，中高端葡萄酒将是2022年乃至中国葡萄酒产业更长时间的发展热点。

近年来，随着民族、文化自信等因素助力国产品牌崛起，中国葡萄酒品质与世界接轨，屡次斩获国际性大奖，越来越多的消费者和经销商关注并选择国产葡萄酒。国产葡萄酒收割存量市场持续加速，“国产”替代“进口”的趋势明显。同时，伴随着进口葡萄酒的持续下滑，国产葡萄酒的替代效应越发明显。预计2022年，我国葡萄酒行业国产替代的速度将进一步加快。

2.项目简介

2.1分析目标

通过研究葡萄酒数据集做出以下分析：

①使用主成分分析对数据进行降维分析

②构建葡萄酒分类模型

2.2数据集介绍

wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中，每行代表一种酒的样本，共有178个样本，一共有14列，其中，第一个属性是类标识符，分别是1/2/3来表示，代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是，酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本，第2类有71个样本，第3类有48个样本。具体属性描述如下：

属性	属性描述
target	类别
Alcohol	酒精
Malic acid	苹果酸
Ash	灰
Alkalinity of ash	灰分的碱度
Magnesium	镁
Total phenoids	总酚
Flavonoids	黄酮类化合物
Noflavanoid phenols	非黄烷类酚类
Proanthocyanins	原花色素
Color intensity	颜色强度
Hue	色调
0D280/0315ofdiluted wines	稀释葡萄酒的0D280/0315
proline	脯氨酸

2.3技术工具

Python版本：3.9

编译工具：jupyter notebook

3.算法理论

主成分分析简介

主成分分析是数据降维算法的一种，降维是将高维度的数据（指标太多）保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使问题得到简化，提高分析效率。

主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析的思想

假设有 n nn 个样本，p pp 个指标，则可构成大小为 n × p n\times pn×p 的样本矩阵 x xx：

主成分分析的计算步骤

假设有 n 个样本，p 个指标，则可构成大小为 n × p的样本矩阵 x ：

1. 首先对其进行标准化处理：

2. 计算标准化样本查的协方差矩阵：

1、2步骤可以合成一步：

4. 计算主成分共享率以及累计贡献率：

5. 写出主成分：

6. 根据系数分析主成分代表的意义：

对于某个主成分而言，指标前面的系数越大，代表该指标对于该主成分的影响越大。

部分说明

一组数据是否可以用主成分分析，必须做适合性检验。可以用球形检验和KMO统计量检验。

1）球形检验（Bartlett)

球形检验的假设：

H0：相关系数矩阵为单位阵（即变量不相关）

H1：相关系数矩阵不是单位阵（即变量间有相关关系）

2）KMO（Kaiser-Meyer-Olkin)统计量

KMO统计量比较样本相关系数与样本偏相关系数，它用于检验样本是否适于作主成分分析。

KMO的值在0,1之间，该值越大，则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5，方可作主成分分析或者相关分析。

Kaiser在1974年给出了经验原则：

0.9以上适合性很好

0.8~0.9 适合性良好

0.7~0.8 适合性中等

0.6~0.7 适合性一般

0.5~0.6 适合性不好

0.5以下不能接受的

4.实验过程

4.1数据探索

加载葡萄酒数据集

使用shape属性查看数据共有多少行多少列

原数据有178行，13列

使用info()查看基本信息

从结果中可以看出数据集没有缺失值且都为浮点数类型。

4.2 PCA主成分分析

1.巴特利球形检验

检验总体变量的相关矩阵是否是单位阵（相关系数矩阵对角线的所有元素均为1,所有非对角线上的元素均为零）；即检验各个变量是否各自独立。

从结果中看出P值远小于0.05,拒绝原假设，说明变量之间有相关关系，可以做主成分分析。

2.求相关矩阵

①标准化

②求相关系数矩阵

③求特征值和特征向量

3.对特征值进行排序并输出

4.绘制散点图和折线图

从图中得出主成分分析的K值应为4比较好。

5.求特征值的贡献度

6.求特征值的累计贡献度

7.选出主成分

8.选出主成分对应的特征向量矩阵

9.求主成分得分

10.绘制热力图

4.3 构建模型

在构建模型之前，先进行特征选择，选出建模需要的数据（这里先使用经过主成分分析后的数据），再拆分数据集为训练集和测试集。

构建随机森林模型

可以看出经过主成分分析后的模型准确率为0.972。

接着我们使用原始数据，也就是没有经过主成分分析处理的数据来构建模型看看效果。

从结果看出没有经过主成分分析处理的数据最后构建的模型准确率为0.944，明显看出经过主成分分析处理的模型准确率提高了不少。

5.总结

本次实验对葡萄酒数据进行了主成分分析，将13维的数据降到了4维，最后通过构建逻辑回归分类模型得出的模型准确率为0.97，相比于没有经过主成分分析处理的数据构建的模型而言，经过处理后的数据构建的模型准确率提高了3%，说明本次主成分分析是有效果的，最后构建的模型效果也很不错。

通过这次Python项目实战，我学到了许多新的知识，这是一个让我把书本上的理论知识运用于实践中的好机会。原先，学的时候感叹学的资料太难懂，此刻想来，有些其实并不难，关键在于理解。

在这次实战中还锻炼了我其他方面的潜力，提高了我的综合素质。首先，它锻炼了我做项目的潜力，提高了独立思考问题、自我动手操作的潜力，在工作的过程中，复习了以前学习过的知识，并掌握了一些应用知识的技巧等

在此次实战中，我还学会了下面几点工作学习心态：

1）继续学习，不断提升理论涵养。在信息时代，学习是不断地汲取新信息，获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后，我会用心响应单位号召，结合工作实际，不断学习理论、业务知识和社会知识，用先进的理论武装头脑，用精良的业务知识提升潜力，以广博的社会知识拓展视野。

2）努力实践，自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值，也只有将理论付诸于实践才能使理论得以检验。同样，一个人的价值也是透过实践活动来实现的，也只有透过实践才能锻炼人的品质，彰显人的意志。

3）提高工作用心性和主动性。实习，是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土，也分明感受到了沉甸甸的职责。在今后的工作和生活中，我将继续学习，深入实践，不断提升自我，努力创造业绩，继续创造更多的价值。

这次Python实战不仅仅使我学到了知识，丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中，为实现理想而努力。

源代码


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示|
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
# 导入数据集
wine = load_wine()
# 将原数据集转为DataFrame类型
data = pd.DataFrame(wine['data'],columns=wine['feature_names'])
data.head()
data.shape
data.info()
# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
 
chi_square_value, p_value = calculate_bartlett_sphericity(data)
print(chi_square_value, p_value)
# KMO检验
# 检查变量间的相关性和偏相关性，取值在0-1之间；KOM统计量越接近1，变量间的相关性越强，偏相关性越弱，因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
from factor_analyzer.factor_analyzer import calculate_kmo
 
kmo_all, kmo_model = calculate_kmo(data)
print(kmo_all)
from sklearn.preprocessing import scale
data_scale = scale(data)  # 数据标准化
data_scale
covX = np.around(np.corrcoef(data.T),decimals=3) # 求相关系数矩阵
covX
featValue, featVec=  np.linalg.eig(covX.T)  #求解系数相关矩阵的特征值和特征向量
featValue, featVec
featValue = sorted(featValue,reverse=True) # 对特征值进行排序并输出
featValue
# 同样的数据绘制散点图和折线图
plt.scatter(range(1, data.shape[1] + 1), featValue)
plt.plot(range(1, data.shape[1] + 1), featValue)
# 显示图的标题和xy轴的名字
plt.title("Scree Plot")  
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")
plt.hlines(y=1,xmin=0,xmax=13)   # 横线绘制
plt.grid()  # 显示网格
plt.show()  # 显示图形
gx = featValue/np.sum(featValue)
gx
lg = np.cumsum(gx)
lg
#选出主成分
k=[i for i in range(len(lg)) if lg[i]<0.80]
k = list(k)
print(k)
selectVec = np.matrix(featVec.T[k]).T
selectVe=selectVec*(-1)
selectVec
finalData = np.dot(data_scale,selectVec)
finalData
# 绘图
plt.figure(figsize = (14,14))
ax = sns.heatmap(selectVec, annot=True, cmap="BuPu")
# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("主成分分析", fontsize="xx-large")
# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()
X = finalData
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42) # 划分数据集
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))
X = data
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=666)
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))