0.md 5.4 KB
Newer Older
W
wizardforcel 已提交
1
# 零、前言
W
wizardforcel 已提交
2

W
wizardforcel 已提交
3
随着行业继续重视其重要性,数据科学正变得越来越流行。 开源软件的最新进展已使这一学科为广泛的人们所接受。 在这本书中,我们展示了 Jupyter 笔记本如何与 Python 一起用于各种数据科学应用。 除了是进行数据探索的理想“虚拟游乐场”之外,Jupyter 笔记本同样适用于创建可重现的数据处理管道,可视化和预测模型。 通过将 Python 与 Jupyter 笔记本结合使用,数据科学提出的许多挑战变得易于概念化和实现。 这是通过利用 Python 库实现的,该库为更复杂的基础算法提供了抽象。 结果是数据科学对于初学者来说变得非常容易上手。 此外,Python 生态系统非常强大,并且每年都在增长。 因此,希望继续学习本书所涵盖主题的学生将找到极好的资源。
W
wizardforcel 已提交
4 5 6 7 8

到本书结尾,您将具备使用 Python 分析数据和有效使用 Jupyter 笔记本的能力。

# 这本书涵盖的内容

W
wizardforcel 已提交
9
第 1 课, “Jupyter 基础知识”,涵盖了 Jupyter 中的数据分析基础。 我们将从 Jupyter 的用法说明和功能入手,例如魔术功能和制表符补全。 然后,我们将过渡到特定于数据科学的材料。 我们将在实时 Jupyter 笔记本中进行探索性分析。 我们将使用视觉辅助,例如散点图,直方图和提琴图,以加深我们对数据的理解。 我们还将执行简单的预测建模。
W
wizardforcel 已提交
10

W
wizardforcel 已提交
11
第 2 课,“数据清理和高级机器学习”显示了如何在 Jupyter 笔记本中训练预测模型。 我们将讨论如何计划机器学习策略。 本课还说明了机器学习术语,例如监督学习,非监督学习,分类和回归。 我们将讨论使用 Scikit-learn 和 Pandas 预处理数据的方法。
W
wizardforcel 已提交
12

W
wizardforcel 已提交
13
第 3 课, “Web 抓取和交互式可视化”解释了如何剪贴网页表,然后使用交互式可视化来研究数据。 我们将首先研究 HTTP 请求的工作方式,重点是 GET 请求及其响应状态代码。 然后,我们将进入 Jupyter 笔记本,并使用 Requests 库通过 Python 发出 HTTP 请求。 我们将看到 Jupyter 如何用于在笔记本中呈现 HTML 以及可以与之交互的实际网页。 发出请求后,我们将看到如何使用 BeautifulSoup 来解析 HTML 中的文本,并使用该库来爬取表格数据。
W
wizardforcel 已提交
14 15 16 17 18 19

# 这本书需要什么

本书将要求以下最低硬件要求:

*   处理器:Intel i5(或等效版本)
W
wizardforcel 已提交
20
*   内存:8GB RAM
W
wizardforcel 已提交
21 22 23
*   硬盘:10 GB
*   互联网连接

W
wizardforcel 已提交
24
在本书中,我们将使用 Python 和 Jupyter 笔记本运行代码。 此外,还需要 Anaconda 环境才能运行 Python 和 Jupyter 笔记本。 请确保在计算机上安装了以下软件:
W
wizardforcel 已提交
25 26

*   Python 3.5+
W
wizardforcel 已提交
27
*   Anaconda 4.3+
W
wizardforcel 已提交
28 29 30

Anaconda 安装随附的 Python 库:

W
wizardforcel 已提交
31 32 33 34 35
*   Matplotlib 2.1.0 以上
*   IPython 6.1.0+
*   Requests 2.18.4+
*   BeautifulSoup4 4.6.0+
*   NumPy 1.13.1+
W
wizardforcel 已提交
36
*   Pandas 0.20.3+
W
wizardforcel 已提交
37
*   Scikit-learn 0.19.0+
W
wizardforcel 已提交
38
*   Seaborn 0.8.0+
W
wizardforcel 已提交
39
*   Bokeh 0.12.10+
W
wizardforcel 已提交
40 41 42

需要手动安装的 Python 库:

W
wizardforcel 已提交
43 44
*   mlxtend
*   version_information
W
wizardforcel 已提交
45 46
*   ipython-sql
*   pdir2
W
wizardforcel 已提交
47
*   GraphViz
W
wizardforcel 已提交
48 49 50

## 安装和设置

W
wizardforcel 已提交
51
在开始本书之前,我们将安装由 Python 和 Jupyter 笔记本组成的 Anaconda 环境。
W
wizardforcel 已提交
52 53 54

### 安装 Anaconda

W
wizardforcel 已提交
55
1.  在浏览器中访问[这个页面](https://www.anaconda.com/download/)
W
wizardforcel 已提交
56 57 58 59 60 61 62
2.  单击 Windows,Mac 或 Linux,具体取决于您使用的操作系统。
3.  接下来,单击下载选项。 确保您下载了最新版本(3.6)。
4.  下载后打开安装程序。
5.  按照安装程序中的步骤就可以了! 您的 Anaconda 发行版已准备就绪。ix

### 更新 Jupyter 和安装依赖项

W
wizardforcel 已提交
63 64
1.  搜索 Anaconda 提示符并打开它。
2.  键入以下命令来更新 Conda 和 Jupyter:
W
wizardforcel 已提交
65 66 67 68 69 70 71 72 73 74 75 76 77 78

    ```py
    #Update conda
    conda update conda
    #Update Jupyter
    conda update jupyter
    #install packages
    conda install numpy
    conda install pandas
    conda install statsmodels
    conda install matplotlib
    conda install seaborn
    ```

W
wizardforcel 已提交
79
3.  要从 Anaconda 提示符打开 Jupyter 笔记本,请使用以下命令:
W
wizardforcel 已提交
80 81 82 83 84 85 86

    ```py
    jupyter notebook
    ```

# 这本书适合谁

W
wizardforcel 已提交
87
这本书最适合对数据分析感兴趣的专业人士和学生。 涵盖的主题与各行各业的各种职位描述有关。 为了获得最佳体验,您应该具有编程基础知识和一些 Python 经验。 特别是,熟悉 Python 库(例如 Pandas,Matplotlib 和 Scikit-learn)将很有用。
W
wizardforcel 已提交
88 89 90 91 92

# 约定

在本书中,您将找到许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例,并解释了其含义。

W
wizardforcel 已提交
93
文本中的代码字和 Python 语言关键字如下所示:“使用新创建的空白笔记本,单击顶部的单元格并键入`print('hello world')`
W
wizardforcel 已提交
94 95 96 97 98 99 100 101 102 103 104

文件夹名称,文件名,文件扩展名,路径名,包括文本中的文件名,如下所示:“头文件`boost/asio.hpp`包含使用 Asio 库所需的大多数类型和功能”。

代码块设置如下:

```py
y = df['MEDV'].copy()
del df['MEDV']
df = pd.concat((y, df), axis=1)
```

W
wizardforcel 已提交
105
新术语和重要词以粗体显示。 您在屏幕上看到的字词,例如在菜单或对话框中的字样,如下所示:“单击右上角的**新建**,然后从下拉菜单中选择一个内核 。”
W
wizardforcel 已提交
106 107 108 109 110 111 112 113 114 115 116

重要的新**编程术语**用粗体显示。 *概念术语*以斜体显示。

### 注意

有关主题的重要重要附加信息如下所示,如侧边栏中所示。

### 提示

重要说明,提示和技巧如下所示。