SalePrice 关系变量图房屋

python dataframe计算相关性如何使用Seaborn进行探索性数据分析？

[更新]

日期：2023-06-01 22:09:00

分类：互联网

4035 阅读

python dataframe计算相关性

如何使用Seaborn进行探索性数据分析？

如何使用Seaborn进行探索性数据分析？

探索性数据分析（EDA）是一种分析机器学习数据集以总结其主要特征的方法。它用于理解数据，获取有关它的一些上下文，理解变量和它们之间的关系，并制定在构建机器学习预测模型时可能有用的假设。
所有数据分析必须以一些关键问题或目标为指导。在开始任何数据分析任务之前，您应该有一个明确的目标。当您的目标允许您了解您的数据和问题时，您将能够从分析中获得有意义的结果！
在本教程中，我们将学习如何使用数据可视化来执行EDA。具体来说，我们将重点介绍seaborn，这是一个构建在matplotlib之上的Python库，支持NumPy和panda。
seaborn使我们能够制作出具有吸引力和信息丰富的统计图形。尽管matplotlib使得可视化任何东西都成为可能，但是要使图形具有视觉吸引力通常是困难和乏味的。seaborn通常用于使默认的matplotlib图看起来更好，并引入了一些额外的图类型。
我们将介绍如何进行视觉分析：
直方图的数值变量，
带有计数图的分类变量，
数值变量与散点图，joint plots和pair plots之间的关系
数值和分类变量与盒须图和复杂条件图之间的关系
通过有效地可视化机器学习数据集的变量及其关系，数据分析师或数据科学家能够快速了解趋势，异常值和模式。然后，可以使用这种理解来决策并创建机器学习预测模型。
数据准备
数据准备是任何数据分析的第一步，以确保以可分析的形式清理和转换数据。
我们将在Ames Housing数据集上执行EDA(
) 。这个数据集在那些开始学习数据科学和机器学习的人群中很受欢迎，因为它包含了爱荷华州艾姆斯出售的不同房屋几乎所有特征的数据。然后可以使用该数据来尝试预测销售价格。
请先进行数据集清理然后进行分析。我们要做的就是过滤一些变量来简化我们的任务。首先，让我们将数据读取为panda DataFrame:这个数据集在那些开始学习数据科学和机器学习的人群中很受欢迎，因为它包含了爱荷华州艾姆斯出售的不同房屋几乎所有特征的数据。然后可以使用该数据来尝试预测销售价格。
此数据集已经过清理并可以进行分析。我们要做的就是过滤一些变量来简化我们的任务。首先，让我们将数据读取为panda DataFrame:
import pandas as pd
import matplotlib as plt
housing _csv(house.csv)
()
此图像仅显示数据集中前五列的信息
如果您在Jupyter notebook中运行此Python代码，则可以看到有1,460个观察值和81列。每列代表DataFrame中的变量。我们可以从每列的数据类型中看到它是什么类型的变量。
我们将只处理其中的一些变量——让我们将它们的名称过滤并存储在两个名为numerical和categorical的列表中，然后重新定义我们的housing DataFrame，使其只包含这些变量:
numerical [
SalePrice, LotArea, OverallQual, OverallCond, 1stFlrSF, 2ndFlrSF, BedroomAbvGr
]
categorical [
MSZoning, LotShape, Neighborhood, CentralAir, SaleCondition, MoSold, YrSold
]
housing housing[numerical categorical]
r
Out: (1460, 14)
从中，我们可以看到DataFrame现在只有14列。让我们来分析一下!
分析数值变量
我们的EDA目标是了解此数据集中的变量如何与房屋的销售价格相关。
在我们做到这一点之前，我们需要先了解变量。让我们从数值变量开始，特别是我们的目标变量SalePrice。
数值变量就是那些数值为数字的变量。当我们有数值变量时，我们要做的第一件事是了解变量可以取什么值，以及分布和离散度。这可以通过直方图来实现:
import seaborn as sns
(stylewhitegrid, palettedeep, font_scale1.1, rc{: [8, 5]})
sns.distplot(
housing[SalePrice], norm_histFalse, kdeFalse, bins20, hist_kws{alpha: 1}
).set(xlabelSale Price, ylabelCount);
SalePrice变量的分布
请注意，seaborn库被导入为sns。
只需一种方法()，我们就可以设计图形样式，更改颜色，增加字体大小以提高可读性，并更改图形大小。
我们使用distplot来绘制seaborn中的直方图。默认情况下，这会绘制带有核密度估计（KDE）的直方图。您可以尝试更改参数kdeTrue，看看它是什么样子的。
看一下直方图，我们可以看到，很少有房子的价格低于10万，大多数房子的价格在10万到20万之间，很少有房子的价格高于40万。
如果我们想为所有数值变量创建直方图，pandas提供最简单的解决方案：
housing[numerical].hist(bins15, figsize(15, 6), layout(2, 4));
每个数值变量的分布
从这个可视化中，我们获得了大量信息。我们可以看到1stFlrSF（一楼面积）严重偏态，大多数房屋没有二楼，并且有3个BedroomAbvGr（地上卧室）。大多数房屋的售价分别OverallCond of 5和OverallQual of 5或更高。LotArea可视化更难理解——但是我们可以看出，在建模之前可能需要删除一个或多个异常值。
请注意，该图保留了我们之前使用seaborn设置的样式。
分析分类变量
分类变量是指其值被标注类别的变量。分类变量的值、分布和离散度最好通过条形图来理解。让我们分析一下SaleCondition变量。seaborn为我们提供了一种非常简单的方法来显示每个类的观测计数:countplot。
(housing[SaleCondition]);
该图中的条形表示每种销售条件下的房屋数量
从可视化的角度，我们可以很容易地看到，大多数房屋是在Normal情况下出售的，而在AjdLand(毗连土地购买)、Alloca(分配:两个有独立契约的相互关联的房产)和Family 家庭成员之间的销售)条件下出售的很少。
为了可视化数据集中的所有分类变量，就像我们对数值变量所做的那样，我们可以循环遍历pandas序列来创建子图。
使用，我们可以创建一个包含2行和4列网格的图形。然后我们遍历每个分类变量，使用seaborn创建countplot:
fig, ax (2, 4, figsize(20, 10))
for variable, subplot in zip(categorical, ax.flatten()):
(housing[variable], axsubplot)
for label in _xticklabels():
_rotation(90)
每个分类变量的Countplots
第二个for循环只是获取每个x-tick标签并将其旋转90度，以使文本更适合图标(如果您想知道不旋转文本的外观，可以删除这两行)。
与我们的数值变量直方图一样，我们可以从这个视觉中收集大量信息 - 大多数房屋都有RL（住宅低密度）分区分类，有Regular地段形状，并且有CentralAir。我们还可以看到，在夏季，房屋销售频繁，大多数房屋在NAmes（北艾姆斯）社区出售，2010年销售有所下降。
但是，如果我们YrSold进一步检查变量，我们可以看到这种“下降”实际上是由于只收集了截至7月的数据。
housing[housing[YrSold] 2010].groupby(MoSold)[YrSold].count()
正如您所看到的，彻底探索变量及其价值非常重要 - 如果我们在假设2010年销售额下降的情况下建立了预测销售价格的模型，那么这种模型可能会非常不准确。
既然我们已经探索了数值和分类变量，那么让我们来看看这些变量之间的关系 - 更重要的是，这些变量如何影响我们的目标变量SalePrice！
分析数值变量之间的关系
绘制变量之间的关系使我们能够轻松地了解模式和相关性。
该散点图通常用于可视化两个数值型变量之间的关系。seaborn创建散点图的方法非常简单：
(xhousing[1stFlrSF], yhousing[SalePrice]);
1stFlrSF与SalePrice之间的关系
从散点图中，我们可以看到房子的1stFlrSF和房子的SalePrice之间存在正相关关系。换句话说，房子的一楼越大，可能的售价就越高。
您还可以看到，axis标签在默认情况下是为我们添加的，并且标记是自动列出的，以使它们更加清晰——这与matplotlib相反，在matplotlib中这些不是默认的。
seaborn还为我们提供了一个很好的函数jointplot，它将为您提供一个散点图，显示两个变量之间的关系以及边距中每个变量的直方图 - 也称为边际图。
(xhousing[1stFlrSF], yhousing[SalePrice]);
显示1stFlrSF与SalePrice及其各自分布关系的联合图
您不仅可以看到这两个变量之间的关系，而且还可以看到它们是如何单独分布的。
分析数值和类别变量之间的关系
盒须图通常用于可视化数值变量和分类变量之间的关系，复杂条件图用于可视化条件关系。
让我们先用seaborn的boxplot方法创建盒须图:
fig, ax (3, 3, figsize(15, 10))
for var, subplot in zip(categorical, ax.flatten()):
(xvar, ySalePrice, datahousing, axsubplot)
每个分类变量及其与SalePrice的关系的盒须图
在这里，我们遍历了每个子图，以生成所有类别变量和SalePrice之间的可视化。
我们可以看到具有FV（Floating Village Residential）zoning 分类的房屋的平均SalePrice高于其他zoning 分类，有CentralAir的房屋和部分(上次评估时未完成的房屋)销售合同的房屋的平均售价也高于其他zoning分类。我们还可以看到，不同lotshape的房子之间，MoSold和yrsell之间的平均售价差异很小。
让我们仔细看看Neighborhood变量。我们看到，对于不同的neighborhood，肯定有不同的分布，但是可视化有点难以理解。让我们使用额外的参数顺序，按照最便宜的neighborhood到最昂贵的(按照中间价格)对box plot进行排序。
sorted_nb ([Neighborhood])[SalePrice].median().sort_values()
(xhousing[Neighborhood], yhousing[SalePrice], orderlist(sorted_))
分类盒须图显示Neighborhood与SalePrice的关系
在上面的Python代码片段中，我们按照median 价格对neighborhood进行了排序，并将其存储在sorted_nb中。然后，我们将这个neighborhood名称列表传递到order参数中，以创建一个排序的箱形图。
这个数字给了我们很多信息。我们可以看到，在最便宜的街区，房屋的售价median价格约为10万美元，在最昂贵的社区，房屋售价约为30万美元。我们还可以看到，对于一些neighborhoods而言，价格之间的差异非常小，这意味着所有价格都相互接近。然而，在最昂贵的街区，我们看到一个大盒子——价格分布有很大的分散性。
最后，seaborn还允许我们创建显示条件关系的图。例如，如果我们正在调整Neighborhood，使用该FacetGrid函数我们可以看到变量OverallQual和SalePrice变量之间的散点图：
cond_plot sns.FacetGrid(datahousing, colNeighborhood, hueCentralAir, col_wrap4)
cond_(, OverallQual, SalePrice);
此图像仅显示前12个图。实际上有25个图 - 每个neighborhood一个
对于每个单独的neighborhood ，我们可以看到OverallQual和SalePrice之间的关系。
我们还在hue参数(可选)中添加了另一个categorical变量CentralAir——橙色的点对应于没有CentralAir的房屋。如你所见，这些房子的售价往往较低。
FacetGrid方法使生成复杂的可视化和获取有价值的信息变得非常容易。生成这些可视化来快速了解变量关系是一个很好的实践。
最后
在我们的探索过程中，我们发现了个别变量中的异常值和趋势，以及变量之间的关系。这些知识可以用来建立一个模型来预测艾姆斯的房价。例如，由于我们发现SalePrice与CentralAir、1stFlrSf、SaleCondition和Neighborhood变量之间存在相关性，我们可以从使用这些变量的简单机器学习模型开始。

python dataframe怎么按时间索引分组？

一、 dataframe 加时间索引
方法见下图：

python dataframe计算相关性 如何使用Seaborn进行探索性数据分析？

如何使用Seaborn进行探索性数据分析？

python dataframe怎么按时间索引分组？

python dataframe计算相关性如何使用Seaborn进行探索性数据分析？