大数据技术生态

Hadoop

Hadoop是一个分布式存储系统,使用HDFS存储分布式数据,解决单机数据存不下的问题,使用MapReduce并行计算,解决计算速度问题。

Hive

Hive解决的是分布式场景下不能像传统数据库一样写SQL的问题

Spark

Spark是基于内存的计算,非常快