kaggleIntrotoMachineLearning模型如何工作
Introduction
我们将首先概述机器学习模型的工作原理及其使用方法。如果您之前做过统计建模或机器学习,这可能感觉比较基础。别担心,我们很快就会逐步讲解如何构建强大的模型。
本课程将引导您通过以下场景构建模型:
您的表弟通过房地产投机赚了数百万美元。由于您对数据科学的兴趣,他提出与您成为商业伙伴。他提供资金,您则提供预测各种房屋价值的模型。
您问您的表弟,他过去是如何预测房地产价值的,他说这只是直觉。但进一步的询问表明,他从过去看过的房屋中识别出了价格模式,并利用这些模式来预测他正在考虑的新房。
机器学习的工作原理与此相同。我们将从一种称为决策树的模型开始。有一些更高级的模型可以给出更准确的预测。但决策树很容易理解,而且它们是数据科学中一些最佳模型的基本构建块。
为了简单起见,我们将从最简单的决策树开始。

它仅将房屋分为两类。任何房屋的预测价格都是同一类别房屋的历史平均价格。
我们利用数据来决定如何将房屋分成两组,然后再确定每组的预测价格。从数据中捕捉模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。
模型拟合的细节(例如如何拆分数据)非常复杂,我们将留待以后再讨论。模型拟合完成后,您可以将其应用于新数据,以预测更多房屋的价格。
Improving the Decision Tree
以下哪两棵决策树更有可能通过拟合房地产训练数据而产生?

左侧的决策树(决策树 1)可能更有意义,因为它反映了卧室较多的房屋往往比卧室较少的房屋售价更高的现实。该模型最大的缺点是它没有捕捉到大多数影响房价的因素,例如浴室数量、地块大小、位置等等。
您可以使用具有更多“分支”的决策树来捕捉更多因素。这些决策树被称为“更深”的决策树。如果决策树还考虑了每栋房屋地块的总面积,则可能如下所示:

你可以通过追踪决策树来预测任何房屋的价格,始终选择与该房屋特征相对应的路径。房屋的预测价格位于树的底部。底部进行预测的点称为叶子。
叶子上的分割和值将由数据决定,所以现在你需要检查一下你将要处理的数据。
Continue
让我们更具体一点。现在是时候**检查你的数据**了。
