10.md

# 十、最终思想

> "我们正在创造和雇用人员来填补"新领"职位–在网络安全，数据科学，人工智能和认知业务等领域扮演着全新的角色。"

– *Ginni Rometty*，IBM 董事长兼首席执行官

再次感谢读者，祝贺您阅读这些长章节并尝试了部分或全部示例代码的漫长旅程。 我试图在深入研究特定主题的基础知识（例如深度学习或时间序列分析）与为从业者提供全面的示例代码之间提供良好的组合。 我特别希望您发现在单个 Jupyter 笔记本中将数据科学分析与 PixieApp 应用编程模型紧密集成的想法有趣且新颖。 但是，最重要的是，我希望您发现它有用，并且可以在您自己的项目中以及与您自己的团队一起重用。

在第 1 章，"开发人员对数据科学的观点"开头，我使用了 Drew's Conway 维恩图（这是我的最爱之一）来表示什么是数据科学。 以及为什么数据科学家被广泛认为是独角兽。 考虑到 Drew Conway 的所有方面，我想扩展此图，以表示开发人员在数据科学领域的重要且不断增长的作用，如下图所示：

![Final Thoughts](img/00258.jpeg)

Drew 的数据科学 Conway Venn 图现在包括开发人员

我现在想利用上一章的内容对未来以及对 AI 和数据科学的期望发表自己的看法。

# 前瞻性思维——对 AI 和数据科学的期望

这是我非常喜欢的部分，因为我无需表达准确率就可以表达前瞻性意见，因为根据定义，这些只是我的观点😊。

正如我在第 1 章，"开发人员对数据科学的观点"中所解释的那样，我相信 AI 和数据科学将继续存在，它们将继续对现有行业造成破坏。 在可预见的未来，最有可能以加速的速度发展。 这肯定会影响工作的总数，并且类似于我们过去看到的其他技术革命（农业，工业，信息等），有些将消失，而新的将被创造。

2016 年，IBM 董事长兼首席执行官 Ginny Rometty 在[致唐纳德·特朗普总统的一封信](https://www.ibm.com/blogs/policy/ibm-ceo-ginni-romettys-letter-u-s-president-elect)中，讨论了通过创建她称为"新领"的新型工作来更好地为 AI 革命做准备的需要，如以下摘录所示：

> "在当今的 IBM 工作并不总是需要大学学位；在我们美国的一些中心，多达三分之一的员工不到四年制学位。最重要的是相关技能，有时通过假期训练获得。 此外，我们正在创造和雇用人员来填补"新领"职位-在网络安全，数据科学，人工智能和认知业务等领域扮演全新角色。"

如果我们成功地实现了数据科学的民主化，那么这些"新领子"工作就只能创造足够的数量，因为数据科学是 AI 的命脉，每个人都需要以某种能力参与进来； 开发人员，业务线用户，数据工程师等。 不难想象，对这些新型工作的需求将如此之大，以至于传统的学术途径将无法满足需求。 相反，该行业将有责任通过制定旨在重新培训所有可能面临裁员风险的现有工人的新计划来填补这一空白。 将会出现[类似于 Apple 的`Everyone Can Code`程序的新程序](https://www.apple.com/everyone-can-code)； 也许像*任何人都可以做数据科学*。 我还认为 **MOOC**（**大规模开放在线课程**的缩写）将发挥更大的作用，今天，由于主要 MOOC 参与者之间建立了许多合作关系， 例如 Coursera 和 edX，以及像 IBM 这样的公司（请参阅[这个页面](https://www.coursera.org/ibm)）。

公司还可以做其他事情，以便更好地为 AI 和数据科学革命做准备。 在第 1 章和"开发人员对数据科学的观点"中，我讨论了数据科学策略的三个支柱，它们可以帮助我们实现这一宏伟的目标：数据 ，服务和工具。

在服务方面，公有云的高速增长在很大程度上促进了多个领域的高质量服务的整体增长：数据持久性，认知，流传输等。 亚马逊，Facebook，谷歌，IBM 和 Microsoft 等提供商在以服务为先的方法以及强大的平台支持下为服务开发者提供一致体验的创新能力建设中发挥着领导作用。 随着越来越多的强大服务以越来越快的速度发布，这一趋势将继续加速。

一个很好的例子是称为 [AlphaZero](https://en.wikipedia.org/wiki/AlphaZero) 的 Google 自学习 AI，它在 4 小时内自学了国际象棋，并继续击败国际象棋冠军。 另一个很好的例子来自 IBM 最近宣布的[辩论者项目](https://www.research.ibm.com/artificial-intelligence/project-debater)，这是第一个可以对人类进行辩论的 AI 系统。 复杂的话题。 这些类型的进步将继续推动越来越多的强大服务的可用性，包括开发人员在内的每个人都可以使用它。 聊天机器人是已成功实现民主化的服务的另一个示例，因为开发人员从未如此轻松地创建包含对话功能的应用。 我相信，随着时间的流逝，使用这些服务将变得越来越容易，使开发人员能够构建令人惊奇的新应用，而这些我们今天甚至还无法想象。

在数据方面，我们需要比现在更轻松地访问高质量数据。 我想到的一个模型来自电视节目`24`。 全面披露; 我喜欢看电视并喜欢看电视连续剧，我认为其中一些可以很好地指示技术发展的方向。 在`24`中，反恐特工杰克·鲍尔（Jack Bauer）有 24 小时制止坏人造成灾难性事件。 看着那个节目，我总是惊讶于数据从指挥中心的分析员传回杰克鲍尔的手机如此容易，或者给定仅需几分钟即可解决的数据问题， 分析人员能够召集来自不同系统（卫星图像，记录系统等）的数据，对坏蛋进行零介入； 例如，我们正在寻找最近 2 个月内在指定半径内购买了此类化学品的人。 哇！ 从我的角度来看，这就是数据科学家访问和处理数据应该多么容易且毫不费力。 我相信我们通过诸如 Jupyter 笔记本之类的工具在朝着这个目标迈进，该工具充当控制平面，用于将数据源与处理它们的服务和分析相连接。 Jupyter 笔记本将工具带到了数据中，而不是相反，从而大大降低了想要参与数据科学的任何人的入门成本。

# 参考

*   [DeepQA（IBM）](https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159)
*   [《Watson 中的深度解析》，*McCord*，*Murdock*，*Boguraev*](http://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf)
*   [《用于数据科学的 Jupyter》，*Dan Toomey*，*Packt Publishing*](https://www.packtpub.com/big-data-and-business-intelligence/jupyter-data-science)
*   [PixieDust 文档](https://pixiedust.github.io/pixiedust/)
*   [《您一直想要的 Jupyter 笔记本的 Visual Python 调试器》，*David Taieb*](https://medium.com/ibm-watson-data-lab/the-visual-python-debugger-for-jupyter-notebooks-youve-always-wanted-761713babc62)
*   [《在网络上共享 Jupyter 笔记本图表》，*David Taieb*](https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook-charts-on-the-web-43e190df4adb)
*   [《使用 PixieDust 1.1 版》，*David Taieb*](https://medium.com/ibm-watson-data-lab/deploy-your-analytics-as-web-apps-using-pixiedusts-1-1-release-d08067584a14)
*   [Kubernetes](https://kubernetes.io/docs/home/)
*   [词云](https://amueller.github.io/word_cloud/index.html)
*   [《神经网络与深度学习》，*Michael Nielsen*](http://neuralnetworksanddeeplearning.com/index.html)
*   [《深度学习》，*伊恩·古德费洛*，*Yoshua Bengio* 和 *Aaron Courville*，*麻省理工学院出版社*](http://www.deeplearningbook.org/)
*   [TensorFlow 文档站点](https://www.tensorflow.org/)
*   [《写给诗人的 TensorFlow》](https://codelabs.developers.google.com/codelabs/tensorflow-for-poets)
*   [《Tensorflow 和深度学习-无需博士学位》，MartinGörner](https://www.youtube.com/watch?v=vq2nnJ4g6N0)
*   [Apache Spark](https://spark.apache.org/)
*   [Tweepy 库文档](http://tweepy.readthedocs.io/en/latest/)
*   [Watson Developer Cloud Python SDK](https://github.com/watson-developer-cloud/python-sdk)
*   [Kafka-Python](https://kafka-python.readthedocs.io/en/master/usage.html)
*   [《使用 Spark 的 Twitter Hashtag 的情感分析》，*David Taieb*](https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis-of-twitter-hashtags-with-spark-7ee6ca5c1585)
*   [《使用统计和机器学习模型的时间序列预测》，*Jeffrey Yau*](https://www.youtube.com/watch?v=_vQ0W_qXMxk)
*   [《时间序列预测理论》，*Analytics University*](https://www.youtube.com/watch?v=Aw77aMLj9uM)
*   [《时间序列分析-PyCon 2017》，*Aileen Nielsen*](https://www.youtube.com/watch?v=zmfe2RaX-14)
*   [Quandl Python 文档](https://docs.quandl.com/docs/python)
*   [Statsmodels 文档](https://www.statsmodels.org/stable/index.html)
*   [NetworkX](https://networkx.github.io/documentation/networkx-2.1/index.html) 
*   [GeoJSON 规范](http://geojson.org/)
*   [BeautifulSoup 文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc)