# 如何在 Python 中加载机器学习数据 > 原文: [https://pythonbasics.org/how-to-load-machine-learning-data-in-python/](https://pythonbasics.org/how-to-load-machine-learning-data-in-python/) 为了使用 Python 启动您的机器学习项目,您需要能够正确加载数据。 如果您是 Python 的初学者,本文将帮助您学习如何使用三种不同的技术来加载机器学习数据。 ## 加载机器学习数据 在深入探讨之前,您需要知道 CSV 或逗号分隔的值是呈现机器学习数据的最常用格式。 在机器学习数据的 CSV 文件中,您需要了解一些零件和功能。 这些包括: * **CSV 文件标题**:CSV 文件中的标题用于将名称或标签自动分配给数据集的每一列。 如果您的文件没有标题,则必须手动命名属性。 * **注释**:当一行以井号(`#`)开头时,您可以在 CSV 文件中标识注释。 根据您选择的加载机器学习数据的方法,您将不得不确定是否要显示这些注释,以及如何识别它们。 * **定界符**:定界符分隔字段中的多个值,并用逗号(`,`)表示。 制表符(`\t`)是可以使用的另一个定界符,但是必须明确指定它。 * **引号**:如果文件中的字段值包含空格,则通常会用引号引起来,并且表示该值的符号为双引号。 如果选择使用字符,则需要在文件中指定。 在确定了数据文件的这些关键部分之后,让我们继续学习如何在 Python 中加载机器学习数据的不同方法。 ### 使用 Python 标准库加载数据 使用 Python 标准库,您将使用模块 CSV 和函数`reader()`加载 CSV 文件。 加载后,CSV 数据将自动转换为 NumPy 数组,可用于机器学习。 例如,下面是一个小代码,当您使用 Python API 运行时,它将加载没有标题且包含数字字段的该数据集。 它还将自动将其转换为 NumPy 数组。 ```py # Load CSV (using python) import csv import numpy filename = 'pima-indians-diabetes.data.csv' raw_data = open(filename, 'rt') reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE) x = list(reader) data = numpy.array(x).astype('float') print(data.shape) ``` 简而言之,该代码命令程序加载一个对象,该对象可以对数据的每一行进行迭代,并且可以轻松地转换为 NumPy 数组。 运行示例代码将产生以下形状的数组: ``` 1 (768, 9) ``` ### 用 NumPy 加载数据文件 在 Python 中加载机器学习数据的另一种方法是使用 NumPy 和`numpy.loadtxt()`函数。 在下面的示例代码中,该函数假定您的文件没有标题行,并且所有数据都使用相同的格式。 它还假定文件`pima-indians-diabetes.data.csv`存储在当前目录中。 ```py # Load CSV import numpy filename = 'pima-indians-diabetes.data.csv' raw_data = open(filename, 'rt') data = numpy.loadtxt(raw_data, delimiter=",") print(data.shape) ``` 运行上面的示例代码会将文件加载为`numpy.ndarray`并产生以下数据形状: ``` 1 (768, 9) ``` 如果可以使用 URL 检索文件,则可以将以上代码修改为以下代码,同时产生相同的数据集: ```py # Load CSV from URL using NumPy from numpy import loadtxt from urllib.request import urlopen url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indiansiabetes.data.csv' raw_data = urlopen(url) dataset = loadtxt(raw_data, delimiter=",") print(dataset.shape) ``` 运行代码将产生相同的结果数据形状: ``` 1 (768, 9) ``` ![python pandas data load csv](img/b809845b2993e4deab4f30fe4c04c137.jpg) ### 用 Pandas 加载数据文件 加载机器学习数据的第三种方法是使用 Pandas 和`pandas.read_csv()`函数。 `pandas.read_csv()`函数非常灵活,是加载机器学习数据的最理想方法。 它返回一个`pandas.DataFrame`,使您可以立即开始汇总和绘图。 下面的示例代码假定`pima-indians-diabetes.data.csv`文件存储在当前目录中。 ```py 1 # Load CSV using Pandas 2 import pandas 3 filename = 'pima-indians-diabetes.data.csv' 4 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 5 data = pandas.read_csv(filename, names=names) 6 print(data.shape) ``` 您将在此处注意到,我们已将每个属性的名称明确标识为`DataFrame`。 当我们运行上面的示例代码时,将打印以下形状的数据: ``` 1 (768, 9) ``` 如果可以使用 URL 检索文件,则可以对以上代码进行以下修改,同时生成相同的数据集: ```py 1 # Load CSV using Pandas from URL 2 Import pandas 3 url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv" 4 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 5 data = pandas.read_csv(url, names=names) 6 print(data.shape) ``` 运行上面的示例代码将下载一个 CSV 文件,对其进行解析,并生成以下形状的已加载`DataFrame`: ``` 1 (768, 9) ``` [下载示例和练习](https://gum.co/MnRYU)