Apache   Spark   是 专为 大规模 数据处理 而 设计 的 快速 通用 的 计算 引擎 。 Spark 是 UC   Berkeley   AMP   lab   ( 加州大学 伯克利分校 的 AMP 实验室 ) 所 开源 的 类 Hadoop   MapReduce 的 通用 并行 框架 ， Spark ， 拥有 Hadoop   MapReduce 所 具有 的 优点 ； 但 不同于 MapReduce 的 是 — — Job 中间 输出 结果 可以 保存 在 内存 中 ， 从而 不再 需要 读写 HDFS ， 因此 Spark 能 更好 地 适用 于 数据挖掘 与 机器 学习 等 需要 迭代 的 MapReduce 的 算法 。 \n Spark   是 一种 与   Hadoop   相似 的 开源 集群 计算环境 ， 但是 两者之间 还 存在 一些 不同之处 ， 这些 有用 的 不同之处 使   Spark   在 某些 工作 负载 方面 表现 得 更加 优越 ， 换句话说 ， Spark   启用 了 内存 分布 数据 集 ， 除了 能够 提供 交互式 查询 外 ， 它 还 可以 优化 迭代 工作 负载 。 \n Spark   是 在   Scala   语言 中 实现 的 ， 它 将   Scala   用作 其 应用程序 框架 。 与   Hadoop   不同 ， Spark   和   Scala   能够 紧密 集成 ， 其中 的   Scala   可以 像 操作 本地 集合 对象 一样 轻松 地 操作 分布式 数据 集 。 \n 尽管 创建   Spark   是 为了 支持 分布式 数据 集上 的 迭代 作业 ， 但是 实际上 它 是 对   Hadoop   的 补充 ， 可以 在   Hadoop   文件系统 中 并行 运行 。 通过 名为   Mesos   的 第三方 集群 框架 可以 支持 此 行为 。 Spark   由 加州大学 伯克利分校   AMP   实验室   ( Algorithms ,   Machines ,   and   People   Lab )   开发 ， 可用 来 构建 大型 的 、 低 延迟 的 数据分析 应用程序 。