# 机器学习分类器

> 原文： [https://pythonbasics.org/machine-learning-classifier/](https://pythonbasics.org/machine-learning-classifier/)

分类是机器学习任务之一。 那么什么是分类呢？
您一直都在对数据进行分类。

看看任何物体，您将立即知道它属于哪个类：它是杯子，桌子还是椅子。
这是分类的任务，计算机可以执行此操作（基于数据）。

本文是面向初学者的机器学习。 让我们做第一个机器学习程序


## 监督机器学习

### 训练数据

导入机器学习模块 sklearn。 （受监督）机器学习算法使用示例或训练数据。 训练阶段是机器学习算法的第一步。

**由于使用示例数据，因此请首先收集数据。** 像一组苹果和桔子的图像，并记下了特征。

**特征可用于区分两个类别**。 特征是一种属性，例如颜色，形状或重量。 它可以表示为数值。

关键任务之一是从训练数据中获得良好的特征。 写下每个图像的类别。 类别是类，对于苹果，您可以选择 0 类，对于橘子，您可以采用 1 类。

您可以根据需要设置任意多个类，但是在此示例中，我们将使用 2 个类（苹果和橘子）。

![machine learning training data for classifier](img/032fd8512b1b4b91c77d473d11e46b59.jpg)

水平写入要素，该线代表第一张图像。

因此，这称为特征向量。 这组数字代表图像。

### 分类器

在训练阶段之后，分类器**可以做出预测**。
给定一个新的特征向量，该图像是苹果还是桔子？

分类算法有多种类型，其中一种是决策树。

如果您有新数据，则算法可以确定新数据属于哪个类。
苹果的输出为[0]，橙色的输出为[1]。

所以这是新数据，然后我们简单地使算法进行预测。

```py
from sklearn import tree

features = [[0,50],[0,60],[1,35],[1,36],[1,40]]
labels = [0,0,1,1,1]

algorithm = tree.DecisionTreeClassifier()
algorithm = algorithm.fit(features, labels)

newData = [[0,51]]
print(algorithm.predict(newData))

```

### 过拟合和欠拟合

通常，训练数据越多，分类器就越好。
如果您的训练数据很少（不及），那么您将没有好的预测。

因此，总的来说，随着更多数据它变得更加准确。 但是有一个限制，那就是过拟合。

[下载示例和练习](https://gum.co/MnRYU)