提交 dbdfce64 编写于 作者: W wizardforcel

ch7.

上级 19361f9b
......@@ -375,7 +375,7 @@ close_to_68.column('Child').mean()
```
我们现在有了一种方法,给定任何数据集中的双亲身高,就可以预测子女的身高。我们可以定义一个函数`predict_child`来实现它1。 除了名称的选择之外,函数的主体由上面两个单元格中的代码组成。
我们现在有了一种方法,给定任何数据集中的双亲身高,就可以预测子女的身高。我们可以定义一个函数`predict_child`来实现它。 除了名称的选择之外,函数的主体由上面两个单元格中的代码组成。
```py
def predict_child(mpht):
......@@ -436,3 +436,41 @@ heights_with_predictions.scatter('MidParent')
这个例子,就像约翰·斯诺(John Snow)对霍乱死亡的分析一样,说明了现代数据科学的一些基本概念的根源可追溯到一个多世纪之前。高尔顿的方法,比如我们在这里使用的方法,是最近邻预测方法的雏形,现在在不同的环境中有着有效的应用。机器学习的现代领域包括这些方法的自动化,来基于庞大且快速发展的数据集进行预测。
## 按照单变量分类
数据科学家经常需要根据共有的特征,将个体分成不同的组,然后确定组的一些特征。 例如,在使用高尔顿高度数据的例子中,我们看到根据父母的平均高度对家庭进行分类,然后找出每个小组中子女的平均身高,较为实用。
这部分关于将个体分类到非数值类别。我们从回顾`gourp`的基本用法开始。
### 计算每个分类的数量
具有单个参数的`group `方法计算列中每个值的数量。 结果中,用于分组的列中的每个唯一值是一行。
这是一个关于冰淇淋圆通的小型数据表。 `group `方法可以用来列出不同的口味,并提供每种口味的计数。
```py
cones = Table().with_columns(
'Flavor', make_array('strawberry', 'chocolate', 'chocolate', 'strawberry', 'chocolate'),
'Price', make_array(3.55, 4.75, 6.55, 5.25, 5.25)
)
cones
```
| Flavor | Price |
| --- | --- |
| strawberry | 3.55 |
| chocolate | 4.75 |
| chocolate | 6.55 |
| strawberry | 5.25 |
| chocolate | 5.25 |
```py
cones.group('Flavor')
```
| Flavor | count |
| --- | --- |
| chocolate | 3 |
| strawberry | 2 |
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册