ETL 工具:评估基于云的 ETL 工具

提取/转换/加载 (ETL) 流程用于将原始数据转化为可用于实现可执行商业智能的信息。在 ETL 流程中,数据从诸如 Salesforce 和 SAP 等应用程序,诸如 Oracle 和 Redshift等数据库,或者诸如 CSV、XML、JSON 或 AVRO 等文件格式中提取。数据提取完成后,将被转换成可用的信息,然后加载到新的应用程序或目标位置,或者也可能加载到数据湖数据仓库以便随后在 ELT 流程中进行转换。

这些数据流程可以通过手动编码连接完成,也可以借助 ETL 工具完成。但是,随着数据流程逐渐向云端迁移,ETL 工具必须随之演变。虽然有大量企业数据源自云端或者传感器,仍有很多关键企业数据源于本地。

我们将探讨一下您在哪种情况下需要用到 ETL 工具,在选择 ETL 工具时应注意哪些方面,以及为何 ETL 工具必须能用于云端。

 

云端和本地部署 ETL 工具

IT 中的一切正在向云端迁移。据 Forrester 预测,在去年一年全球公共云市场从 400 亿美元增加至 1780 亿美元,并且将继续以 22% 的复合年增长率增长。这就为数据驱动型企业带来了一个新的迫在眉睫的要务。云数据仓库变得越来越重要,而在云端处理这些数据对于实现实时分析来说也变得至关紧要,而且基于云的 SaaS 应用程序让企业能够以一种实惠、高效的方式享受各种功能。

所有这些基于云的功能除了提供全新计算能力和功能之外,还会在旧有系统中已存孤岛的基础上创建基于云的数据孤岛。在以云为中心的领域中,企业需要使用云应用程序、数据库和平台以及它们所产生的数据。但切不可忽视您本地部署系统中包含的数据。ETL 工具应能适应任何来源(云、多云、混合云或本地部署)的数据。随着云领域内的不断创新,您的数据管理基础架构也必须具有充分的灵活性,让您可以轻松迁移到您所需的任何云供应商。

 

Ready For More? Download ETL 工具:评估基于云的 ETL 工具 User Guide now.

View Now

为何需要 ETL 工具

手动编码通常可以快速省钱地将工作完成时,许多数据专业人士会自问他们为何需要 ETL 工具。手动编码有两大弊端:

  1. 手动编码会限制共享和重用。优秀的 ETL 工具具备一个可视化设计界面,让同事们可以一目了然地查看流程图以及已构建完成的部分。而如果使用手动编码,则很难知道已完成哪些工作,由此一来开发人员时常要放弃并重做同样的工作,而这不仅多余,而且会耗费大量时间和资源。
  2. 手动编码会增加维护成本。如果编码在投入使用之初由不同的人员维护并提供支持,则与手动编码方法相应的学习曲线将会很高,而如果代码已经进行使用多年,则从长期来看,人员流动将会导致更高的成本。

数据集成项目开始时通常非常小,可能是作为 POC 以便实现速赢;开发人员经常需要将两个系统连接在一起来完成某一特定的任务,这给人的感觉是在手动编码即能解决的情况下,他们不需要 ETL 工具来处理诸如实时分析或数据治理等复杂的流程。但问题是,小项目很少一直保持为小项目。更为频繁的情况是,这些项目会被企业的其他部门看到并采用,因此一个刚开始非常小型的项目可能迅速发展成跨多个部门的大项目,突然之间,之前快速轻松的手动编码集成也变得不那么快速轻松了。

此外,随着数据来源数量和规模的不断上升,企业愈发需要遵循诸如GDPR等数据保护法规,您的 ETL 流程将需要融合数据质量功能、数据治理功能以及元数据管理功能。就大多数企业所需的规模而言,这些功能是手动编码无法提供的。

拥有超过 5000 万订阅用户的美国电信公司即是一例。他们的广告团队想要打造一款全新的产品,向会议参与者销售个性化的本地广告,因此他们便使用 Hadoop 来跟踪他们网络上手机用户的位置数据。Hadoop 支持这种规模的数据分析。当企业的其他部门看到这一项目取得成功后,突然之间,多了 50 个要进行此级别数据分析的请求。但是,IT 团队根本没有时间或资源来作另外 50 个这样的手动编码集成。他们需要一款可以快速扩展的 ETL 工具。

Ready For More? Watch 初学者入门视频-Talend Open Studio for Big Data now.

Watch Now

如何选择合适的 ETL 工具

 

您考虑购买一款 ETL 工具时,即便是为了开展单个项目,比如在 Snowflake 中构建一个数据仓库,也需要注意它应具有一些必要的特性。

以下是一款优秀 ETL 工具的必备特性清单:

  1. 应能够从您所需的所有数据来源读取和写入,无论其是位于云端还是本地部署。
  2. 应能够执行数据转换流程,比如排序、筛选和聚合。
  3. 应内置数据质量和数据治理功能,比如重复删除、匹配和数据剖析。
  4. 应包含协作工具。这有助于更为方便地重用之前的开发元素,并提高整个数据集成流程的效率。单一作业可馈送多个目标,而不是让一系列数据集成流程都反反复复做基本上同一件事。
  5. 随着向云系统的转变,适应 CI/CD 流程的能力也必不可少。
  6. 您的 ETL 工具应能够在任何环境中跨本地部署、云或混合基础架构运作。
  7. ETL 工具应能够轻松适应不断变更的提供商。今天,您可能在 Redshift 中构建一个数据湖,明天又在 Snowflake 中构建一个数据湖,或者这个季度使用 AWS 作为您的云供应商,而下个季度则使用 Azure。因此,ETL 工具必须能在多云环境中运作,并且只需置换几个组件即可适应不断变更的提供商和部署环境,同时确保业务逻辑和转换逻辑相同。
  8. ETL 工具应兼容最新的创新,并且轻松适应新技术。优秀的 ETL 工具应可以与 Spark、Snowflake、机器学习等无服务器技术集成,并快速适应尚未出现的新技术。
  9. 在选择工具时,可扩展性是一个重要考虑因素。我们很容易就会将目光投向那些只能处理简单流程的工具供应商,因为这些供应商提供的工具价格便宜又易于使用。但是,它们的可扩展性欠佳,受限于机器的扩展能力,因此,您不得不考虑您可能要使用多大的 RAM 或多少 CPU。这意味着,随着您业务的增长,您人为地给您的分析操作能力的增强添加了一个限制,而这在当前这个竞争激烈的业务环境中,会置您于劣势之地。另外,您还很难将一个项目中的元素重新用于另一项目并开展协作,换言之就是 ETL 项目通常得从头开始做起,进而消耗大量时间和资源。
  10. 就 ETL 工具来说,可移植性也是一个非常重要,但有时会被忽视的功能。例如 Apache Hadoop 生态系统正在以惊人的速度发生变化。在 2014 年和 2015 年,MapReduce 是标准,而到 2016 年,Spark 出现并成为新的标准。如果您采用的是手动编码方法,则无法将该代码从 MapReduce 移植到 Spark。而领先的 ETL 工具却可以帮助您无缝做到这一点。

考虑适合云端的 ETL 工具

无疑整个世界都在向云端迁移。一般而言,当公司迁移到云端后,它们会重新评估他们的整个基础架构堆栈。在本地部署中好用的东西在云端不一定也好用。例如,在本地部署中,您可以更多地掌控借助我们的服务器和硬件您可以做什么,但在云端情况则不然,除您自己的网络之外您还需要知道如何处理云堆栈和私有网络。云改变了 ETL 工具运作的方式以及您使用 ETL 工具的方式。云端存在大量与您在本地部署中所见不同的编程语言、流程和平台,因此您需要有一款可以无缝在两者之间切换的工具。

在选择 ETL 工具时应尤其注重云端扩展能力,因为您很难预测未来您的环境将变得有多大。您可能有 50 个数据源或者 500 个,当然,您还需要适应市面上尚未出现的新技术。基于云的 ETL 工具可帮助您轻松调整您的数据管理基础架构,使其与时俱进。

选择适合云的 ETL 工具时另一大考量要素是定价模型。迁移到云的一个重大优势是,按您实际使用的资源付费。因此,如果您购买的产品按节点收费,那么这可视为直接违背了云理念。云理念倡导随时轻松调用和弃用资源,或者在特定时刻大量调用而在另一时刻全部弃用资源。您的 ETL 工具应能够以符合云理念的方式运作,您不应为未使用的运行时数或者闲置的额外资源支付费用。您为 ETL 工具付费的原则应当与云基础架构的其他方面一致。

ETL 工具和数据质量

数据质量对企业越来越重要,因为糟糕的数据治理会造成巨大的时间和成本损失。并且,随着 GDPR 等数据隐私法规的上线,确保数据质量和数据治理将成为企业势在必行的一项要务。

我们都知道,在这个云计算时代,您希望整合用来获得商业智能的数据源有了爆炸式的增长。但地球上的每一数据源都面临着数据质量挑战,当您将它们集成在一起时,这些挑战也随之增大。ETL 项目可能看起来是简单的两种系统之间的连接,但提前投资数据质量将为您的公司节省下巨大的成本和资源。主动式数据质量方法可帮助您在数据真正进入您的核心系统之前,检查和测量数据的质量水平。这便是为何在您购买 ETL 工具时,必须考虑 ETL 工具是否内置数据质量工具。参阅数据质量权威指南,了解一款优秀的 ETL 工具如何在数据进入您的系统并被使用之前,主动确保数据的质量。

Talend 的 ETL 工具

Talend 为您需要完成的各种数据集成项目准备了大量 ETL 工具。如果您需要一款基本的 ETL 流程工具,那么 Talend 免费版的 Open Studio for Data Integration 堪称最佳选择。这款工具适合针对 Redshift、Snowflake、Google BigQuery 等的集成,具有单一数据加载和摄取流程简单的特点。如果您希望获得一款简单但功能强大的开源工具,那么请立即下载 Open Studio。

如果您想要一款集数据质量、数据治理、机器学习、协作及其他功能于一身的 ETL 工具,Talend 的 Data Management Platform 可谓不二之选。它采用动态定价模型,若您有意添加更多功能和特性,可无缝从开源产品中进行升级。您还可以比较我们所有数据集成产品的特性。

Talend 的 ETL 工具专用于简化不断增长的数据驱动型企业的复杂需求。尝试使用专为您打造的工具,精简您企业中的 ETL 流程。

| Last Updated: January 22nd, 2019