提交 6b354ef7 编写于 作者: Steering wheel's avatar Steering wheel

Update README.md 去掉任务内容

上级 39881dff
## 挑战
> 作为一名技术爱好者,你会经常浏览一些技术博客、源码网站,比如CSDN、ITEYE、Github等网站。你觉得有些博客的内容非常好,想把它们都保存下来,做成Word或者PDF文档。但是这样一页页地把网页复制、粘贴然后再保存、导出的话,实在是太费事了,也太慢了。
公司领导给你布置了一个任务,让你去和隔壁部门的大数据分析工程师老王对接。老王最近要汇总、整理一份与公司业务相关的市场信息,提炼后给领导参考,他需要你按照他指定的网址把数据给「弄」下来,然后把这些数据按他指定的格式再返还给他。
你需要干的事情和老王想要你完成的事情是一码事吗?如果不是该怎么解决呢?
## 说明
大数据行业中一项常见的工作就是数据的采集与清洗,这也是大数据主要的数据来源。常见的数据采集途径主要包括Web数据采集、系统日志采集与物联网设备数据采集。其中Web数据采集是成本最低,也是普通创业者相对来说最容易获取数据的一种手段。
完成采集后的数据还不足以作为直接的数据源供大数据系统食用,主要是因为这些数据的格式、编码规则、内容五花八门,都不一样,而各种数据分析工具与框架都需要统一格式、统一标准的更「干净」的数据。在正式应用于数据科学的核心算法和可视化之前,这些数据往往还需要经过抽取、迁移、压缩、清洗、打散、分片以及其他多种转换处理过程。
# 任务说明
任务正在逐步开放中
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册