Month: April 2018

Apache Spark 和 Talend:性能和调优

首先,我希望感谢我前 2 篇有关“Talend 和 Apache Spark”主题的博客的所有读者。 如果您是第一次阅读此博客系列,且未阅读过我之前的帖子,可以单击此处阅读“Talend 和 Apache Spark:技术入门指南”,和单击此处阅读第二部分“Talend 和 Spark Submit 配置:有何区别?”。 该系列中前两篇有关 Apache Spark 的帖子概述了 Talend 如何与 Spark 协同工作,Talend 和 Spark Submit 之间有何相同点,以及 Talend 中可用于 Spark 作业的配置选项。 在本篇博客中,我们将介绍 Apache Spark 性能和调优。几乎所有使用 Apache Spark 的人都在热议这个话题,即使 Talend 之外的人也不例外。在首次开发和运行 Spark 作业时,您很难绕过下面这些问题。 我应该为我的 Spark 作业分配多少个执行器? 每一执行器需要多少内存? 我应该使用多少个核心? 为何一些 Spark 作业需要耗费数小时来处理 10GB 的数据,我如何解决这个问题? 在本篇博客中,我将逐一探讨这些问题,并给出相关解答和见解。继续这个主题之前,我们先来了解一下本篇博客中将会用到的一些主要概念: 分区:分区指的是分布式数据集的一部分,通常按默认 HDFS 块大小创建。Spark […]