README.md
任务说明
随着公司业务不断发展壮大,各类系统纷纷上马,而且每个系统都会产生大量的日志、报警、异常及埋点数据。这当中有的适合存储在诸如MySQL这种传统的关系型DBMS中,有的适合存储在像Redis这种新的NoSQL数据库中。但还有一类,比如日志文件、物联网上报等这类海量的文件及状态位数据,就非常适合使用以Hadoop为代表的HDFS、Hive、Spark等这类大数据系统来存储了。
知识点
- 了解大数据技术产生的背景和意义
- 理解Hadoop基本概念,熟练掌握HDFS的运行原理和机制
- 熟练掌握MapReduce编程模型用于大规模数据集执行并行运算的意义
- 能熟练使用常见算子完成数据分析与计算,包括但不限于count、filter、map、flatMap、groupBy等
- 能使用流式大数据分析工具Storm或Spark Streaming分析文件内容
- 能熟练使用Hive/Spark SQL/Flink SQL完成对HBase的访问和操作
- 掌握大数据分析中常用的窗口函数、分析函数及增强函数等运算工具