kaggleIntrotoMachineLearning基础数据探索
Using Pandas to Get Familiar With Your Data
任何机器学习项目的第一步都是熟悉数据。你需要使用 Pandas 库来实现这一点。Pandas 是数据科学家用来探索和操作数据的主要工具。大多数人在代码中将 Pandas 缩写为“pd”。我们使用以下命令执行此操作:
In [1]:
import pandas as pd |
Pandas 库中最重要的部分是 DataFrame。DataFrame 保存的数据类型可以理解为表格。它类似于 Excel 中的工作表或 SQL 数据库中的表。
Pandas 拥有强大的方法,可以处理这类数据的大部分操作。
例如,我们将查看澳大利亚墨尔本的房价数据。在动手练习中,您将把相同的流程应用于一个新的数据集,该数据集包含爱荷华州的房价。
示例(墨尔本)数据位于文件路径 **../input/melbourne-housing-snapshot/melb_data.csv**。
我们使用以下命令加载和探索数据:
In [2]:
# save filepath to variable for easier access |
Out[2]:
| Rooms | Price | Distance | Postcode | Bedroom2 | Bathroom | Car | Landsize | BuildingArea | YearBuilt | Lattitude | Longtitude | Propertycount | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| count | 13580.000000 | 1.358000e+04 | 13580.000000 | 13580.000000 | 13580.000000 | 13580.000000 | 13518.000000 | 13580.000000 | 7130.000000 | 8205.000000 | 13580.000000 | 13580.000000 | 13580.000000 |
| mean | 2.937997 | 1.075684e+06 | 10.137776 | 3105.301915 | 2.914728 | 1.534242 | 1.610075 | 558.416127 | 151.967650 | 1964.684217 | -37.809203 | 144.995216 | 7454.417378 |
| std | 0.955748 | 6.393107e+05 | 5.868725 | 90.676964 | 0.965921 | 0.691712 | 0.962634 | 3990.669241 | 541.014538 | 37.273762 | 0.079260 | 0.103916 | 4378.581772 |
| min | 1.000000 | 8.500000e+04 | 0.000000 | 3000.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 1196.000000 | -38.182550 | 144.431810 | 249.000000 |
| 25% | 2.000000 | 6.500000e+05 | 6.100000 | 3044.000000 | 2.000000 | 1.000000 | 1.000000 | 177.000000 | 93.000000 | 1940.000000 | -37.856822 | 144.929600 | 4380.000000 |
| 50% | 3.000000 | 9.030000e+05 | 9.200000 | 3084.000000 | 3.000000 | 1.000000 | 2.000000 | 440.000000 | 126.000000 | 1970.000000 | -37.802355 | 145.000100 | 6555.000000 |
| 75% | 3.000000 | 1.330000e+06 | 13.000000 | 3148.000000 | 3.000000 | 2.000000 | 2.000000 | 651.000000 | 174.000000 | 1999.000000 | -37.756400 | 145.058305 | 10331.000000 |
| max | 10.000000 | 9.000000e+06 | 48.100000 | 3977.000000 | 20.000000 | 8.000000 | 10.000000 | 433014.000000 | 44515.000000 | 2018.000000 | -37.408530 | 145.526350 | 21650.000000 |
Interpreting Data Description
结果显示原始数据集中每列 8 个数字。第一个数字,即计数,表示有多少行包含非缺失值。
缺失值的出现有很多原因。例如,在调查一居室房屋时,不会收集第二间卧室的大小。我们稍后再讨论缺失数据的问题。
第二个值是平均值,即平均值。标准差是标准差,用于衡量数值的分散程度。
要解释最小值、25%、50%、75%和最大值,想象一下将每列从低到高排序。第一个(最小值)值是最小值。如果您遍历列表的四分之一,您会发现一个大于 25% 的值且小于 75% 的值的数字。这就是**25%**的值(发音为“第 25 个百分位数”)。第 50 和第 75 个百分位数的定义类似,并且 max 是最大的数字。
Your Turn
开始你的**[第一个编码练习](https://www.kaggle.com/kernels/fork/1258954)**
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 MikannseのSekai!
评论
ValineDisqus
