diff --git a/README.md b/README.md index 68ca19436b89b05c4a7ae15c4362868665f95951..08d55df2c7bc6c45feefcd495bdd39eb08c1d285 100644 --- a/README.md +++ b/README.md @@ -1,8 +1,2 @@ -## 挑战 -> 作为一名技术爱好者,你会经常浏览一些技术博客、源码网站,比如CSDN、ITEYE、Github等网站。你觉得有些博客的内容非常好,想把它们都保存下来,做成Word或者PDF文档。但是这样一页页地把网页复制、粘贴然后再保存、导出的话,实在是太费事了,也太慢了。 -公司领导给你布置了一个任务,让你去和隔壁部门的大数据分析工程师老王对接。老王最近要汇总、整理一份与公司业务相关的市场信息,提炼后给领导参考,他需要你按照他指定的网址把数据给「弄」下来,然后把这些数据按他指定的格式再返还给他。 -你需要干的事情和老王想要你完成的事情是一码事吗?如果不是该怎么解决呢? - -## 说明 -大数据行业中一项常见的工作就是数据的采集与清洗,这也是大数据主要的数据来源。常见的数据采集途径主要包括Web数据采集、系统日志采集与物联网设备数据采集。其中Web数据采集是成本最低,也是普通创业者相对来说最容易获取数据的一种手段。 -完成采集后的数据还不足以作为直接的数据源供大数据系统食用,主要是因为这些数据的格式、编码规则、内容五花八门,都不一样,而各种数据分析工具与框架都需要统一格式、统一标准的更「干净」的数据。在正式应用于数据科学的核心算法和可视化之前,这些数据往往还需要经过抽取、迁移、压缩、清洗、打散、分片以及其他多种转换处理过程。 +# 任务说明 +任务正在逐步开放中