github地址:https://github.com/apache/spark
Spark已经成为大数据计算、分析领域新的热点和发展方向。相对于Hadoop传统的MapReduce计算模型,Spark提供更为高效的计算框架、更为丰富的功能。
Spark是一个全栈解决方案,提供Spark SQL支持SQL查询、Spark Streaming支持流式计算、GraphX支持图计算、MLlib支持机器学习。同时提供map/filter等多种算子,支持比Hadoop中Mapreduce更为丰富的计算需求。
项目使用Scala语言写成,当前已成为apache顶级开源项目。