Using Pandas to Get Familiar With Your Data

任何机器学习项目的第一步都是熟悉数据。你需要使用 Pandas 库来实现这一点。Pandas 是数据科学家用来探索和操作数据的主要工具。大多数人在代码中将 Pandas 缩写为“pd”。我们使用以下命令执行此操作：

In [1]:

import pandas as pd

Pandas 库中最重要的部分是 DataFrame。DataFrame 保存的数据类型可以理解为表格。它类似于 Excel 中的工作表或 SQL 数据库中的表。

Pandas 拥有强大的方法，可以处理这类数据的大部分操作。

例如，我们将查看澳大利亚墨尔本的房价数据。在动手练习中，您将把相同的流程应用于一个新的数据集，该数据集包含爱荷华州的房价。

示例（墨尔本）数据位于文件路径 **../input/melbourne-housing-snapshot/melb_data.csv**。

我们使用以下命令加载和探索数据：

In [2]:

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Out[2]:

	Rooms	Price	Distance	Postcode	Bedroom2	Bathroom	Car	Landsize	BuildingArea	YearBuilt	Lattitude	Longtitude	Propertycount
count	13580.000000	1.358000e+04	13580.000000	13580.000000	13580.000000	13580.000000	13518.000000	13580.000000	7130.000000	8205.000000	13580.000000	13580.000000	13580.000000
mean	2.937997	1.075684e+06	10.137776	3105.301915	2.914728	1.534242	1.610075	558.416127	151.967650	1964.684217	-37.809203	144.995216	7454.417378
std	0.955748	6.393107e+05	5.868725	90.676964	0.965921	0.691712	0.962634	3990.669241	541.014538	37.273762	0.079260	0.103916	4378.581772
min	1.000000	8.500000e+04	0.000000	3000.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1196.000000	-38.182550	144.431810	249.000000
25%	2.000000	6.500000e+05	6.100000	3044.000000	2.000000	1.000000	1.000000	177.000000	93.000000	1940.000000	-37.856822	144.929600	4380.000000
50%	3.000000	9.030000e+05	9.200000	3084.000000	3.000000	1.000000	2.000000	440.000000	126.000000	1970.000000	-37.802355	145.000100	6555.000000
75%	3.000000	1.330000e+06	13.000000	3148.000000	3.000000	2.000000	2.000000	651.000000	174.000000	1999.000000	-37.756400	145.058305	10331.000000
max	10.000000	9.000000e+06	48.100000	3977.000000	20.000000	8.000000	10.000000	433014.000000	44515.000000	2018.000000	-37.408530	145.526350	21650.000000

Interpreting Data Description

结果显示原始数据集中每列 8 个数字。第一个数字，即计数，表示有多少行包含非缺失值。

缺失值的出现有很多原因。例如，在调查一居室房屋时，不会收集第二间卧室的大小。我们稍后再讨论缺失数据的问题。

第二个值是平均值，即平均值。标准差是标准差，用于衡量数值的分散程度。

要解释最小值、25%、50%、75%和最大值，想象一下将每列从低到高排序。第一个（最小值）值是最小值。如果您遍历列表的四分之一，您会发现一个大于 25% 的值且小于 75% 的值的数字。这就是**25%**的值（发音为“第 25 个百分位数”）。第 50 和第 75 个百分位数的定义类似，并且 max 是最大的数字。

Your Turn

开始你的**[第一个编码练习]（https://www.kaggle.com/kernels/fork/1258954）**