数据提取定义

如今我们能访问的数据比以往任何时候都多。问题是:我们如何才能最大限度地利用这些数据?对许多人来说,最大的挑战在于寻找一款适合的数据集成工具,来管理和分析来自不断变化的各种来源的多种类型数据。但是在分析和使用数据之前,我们必须先将其提取出来。本文解释了“数据提取”一词的含义,并详细探讨了 ETL 流程,以便了解数据提取在数据集成流程中起到的关键作用。

何为数据提取?

数据提取指的是从各种各样的来源收集或检索不同类型数据,这些数据中有许多组织欠佳或者毫无结构。只有先经过数据提取,才能对数据进行整合、处理和提炼,然后存储在一个集中位置进行转换。这些位置可以是本地、基于云,或者两者混合。

数据提取是ETL(提取、转换、加载)以及ELT(提取、加载、转换)流程的第一步。ETL/ELT 本身为完整数据集成策略的一个组成部分。

数据提取和 ETL

要全面理解数据提取的重要性,我们需要将 ETL 流程视为一个整体。从本质上讲,ETL 可帮助公司和组织 1) 将来自不同来源的数据整合到一个集中位置,并 2) 将不同类型的数据同化为一种常见格式。ETL 流程有三步:

  1. 提取:将数据从一个或多个来源或者系统抽取出来。提取操作可查找并识别相关数据,然后对其进行准备,以便于处理和转换。通过提取,可将不同种类的数据合并在一起,并最终用于获取商业智能。
  2. 转换:成功提取数据后,即可对数据进行提炼。转换阶段期间,将对数据执行排序、整理和清洗。例如,将删除重复条目,移除或填充缺失值,并执行审计,以生成可靠、一致且可用的数据。
  3. 加载:将转换过的高质量数据传送到单个统一目标位置,进行存储和分析。

几乎各行各业的公司和组织都广泛使用 ETL 流程进行各种作业。例如,GE Healthcare需要从大量不同的本地和源生云来源拉取多种类型的数据,以简化流程并支持合规工作。通过数据提取,该公司得以整合并集成与患者护理、医疗保健提供商和保险索赔相关的数据。

同样,诸如Office Depot等零售商可能能够通过移动应用程序、网站以及店内交易收集客户信息。但如果无法迁移和合并所有这些数据,那么其潜力可能大打折扣。这再一次表明,数据提取至关重要。

Ready For More? Download 数据提取定义 User Guide now.

View Now

无 ETL 数据提取

是否可以在不使用 ETL 的情况下进行数据提取?简单来说,可以。但是,您务必要知道,如果没有一个完善的数据集成流程,数据提取将面临很多限制。虽经提取但未进行适当转换或加载的原始数据很可能非常难于整理或分析,并且可能不兼容较新的程序和应用程序。结果就是,数据可能仅可用于存档。如果您计划将数据从旧有数据库迁移到新系统或源生云系统,则最好使用完备的数据集成工具来提取数据。

另外,将数据提取作为独立流程还意味着牺牲效率,若您计划手动执行提取则更是如此。手动编码是一个非常辛苦的流程,并且容易出错,难以跨多个提取操作进行复制。换句话说就是,每次进行提取都必须重新构建代码。

Ready For More? Download 数据提取定义 User Guide now.

View Now

使用提取工具的益处

几乎各行各业的公司和组织都需要在某些时机提取数据。对其中一些而言,这发生在当他们需要升级旧有数据库或过渡至源生云存储时;而对于另外一些,则发生在当完成合并或收购后需要整合数据库时。另外,公司可能还希望通过合并不同部门的数据来源来简化内部流程,这常常也需要进行数据提取。

数据提取听起来像是一项艰巨的任务,但情况并不一定如此。事实上,大多数公司和组织如今都利用数据提取工具来全程管理提取流程。ETL 工具可自动化并简化提取流程,有助于将资源部署到其他重要事务上。使用数据提取工具的益处包括:

  • 更加可控。通过数据提取,公司可以将数据从外部源迁移至其自有数据库。由此一来,您便可以避免您的数据被过时的应用程序或软件许可封闭。数据提取可以让您全面掌控您所拥有的数据,将其用于所需的用途。
  • 增加敏捷性。企业在发展壮大的过程中,常常需要处理位于分散系统中的不同类型的数据。通过数据提取,可将这些信息整合到一个集中系统中,进而统一多个数据集。
  • 简化共享。对于希望与外部合作伙伴共享部分而非全部数据的企业,数据提取是提供有用但受限的数据访问权限的一种便捷途径,而且还能让您以常见的可用格式共享数据。
  • 准确又精确。手动流程和手动编码会增加出错概率,而且需要输入、编辑和重新输入大量数据,这会对数据完整性造成不利影响。数据提取可实现流程自动化,减少错误,并避免将大量时间花费在纠正错误上。

数据提取的类型

数据提取是一个强大且具有高适应性的流程,可帮助您收集与您业务相关的多种类型的数据。实施数据提取的第一步是确定您需要的数据种类。提取的数据类型通常包括:

  • 客户数据:此类数据可帮助企业和组织了解其客户和捐赠者,例如姓名、电话号码、电子邮件地址、唯一识别号、购买历史、社交媒体活动以及 Web 搜索等。
  • 财务数据:这些类型的指标包括销量、采购成本、营业毛利,甚至竞争对手的价格。此类数据可帮助公司跟踪绩效、改善效率并进行战略性规划。
  • 使用、任务或流程性能数据:这一广泛的数据类别包括与特定任务或操作相关的信息。例如,一家零售公司可能需要获得有关其装运物流方面的信息,或者,一家医院可能想要监控手术后效果或患者反馈。

确定您想要访问和分析的信息类型后,接下来的步骤是 1) 确定数据来源,2) 确定数据存储位置。在大多数情况下,这意味着在各应用程序、程序或服务器之间迁移数据。

常见迁移可能涉及来自 SAP、Workday、Amazon Web Services、MySQL、SQL Server、JSON、SalesForce、Azure 或 Google Cloud等服务的数据。这些只是广泛使用的应用实例,但实际上您可以迁移来自几乎任何程序、应用程序或服务器的数据。

Ready For More? Download 数据提取定义 User Guide now.

View Now

数据提取实践

想要了解数据提取如何解决现实世界问题?以下为两家组织如何通过精简和整理数据,实现价值最大化。

Domino’s 大数据

Domino’s是全球最大的披萨公司,其成功秘诀之一就是该公司能够通过各种各样的技术(包括智能手机、手表、TV 甚至社交媒体)来接收订单。所有这些渠道都会生成海量数据,Domino’s 需要对这些数据进行集成,以获得有关其全球运营和客户偏好的洞察力。

为了整合所有这些数据源,Domino’s 采用一个数据管理平台,从提取到集成管理其数据。该系统在 Domino’s 自有的源生云服务器上运行,可从销售点、26 个供应链中心,以及通过众多渠道(例如短信、Twitter、Amazon Echo 甚至美国邮政署)捕获和收集数据。随后,他们的数据管理平台对数据进行清理、扩充和存储,供多个团队轻松访问和使用。

借助数据集成推动教育事业发展

目前学习云存储和云计算专业的学生超过 17,000 名,这对公司和组织管理其数据的方式产生了重大影响。除了改变数据安全、存储和处理之外,云还让 ETL 流程比以往任何时候都更加高效、更具适应性。公司现如今可以访问来自全球各地的数据,并实时对其进行处理,而且还无需自行维护服务器或数据基础架构。通过使用混合和源生云数据方案,越来越多的公司开始将数据迁离旧有本地系统。

The 物联网 (IoT)也正在转变着数据格局。除了手机、平板电脑和计算机之外,如今,像FitBit等可穿戴设备、汽车、家用电器,甚至医疗设备也会产生大量数据。由此带来的结果是数据量不断增长,而如果公司对这些数据进行适当的提取和转换,将可以借之大大提高自身的竞争优势。

Ready For More? Download 数据提取定义 User Guide now.

View Now

随需数据提取

您为收集和存储巨量数据做了很多的工作,但是如果数据格式或位置不易访问,您将会漏掉关键洞察力并错失商机。随着数据来源日益增加,如果没有适合的策略和工具,这个问题将永远无法得到解决。

Talend Data Management Platform提供一套全面的数据工具,包括 ETL、数据集成、数据质量、端到端监控和安全。Data Management 适应性极强而且非常高效,可消除整个集成流程中凭猜测所作的工作,让您可以在需要利用数据获得所需的业务洞察力时能够及时提取。可随时随地部署,无论是本地、混合还是源生云环境皆可。立即下载免费试用版,了解如轻松按需提取您的数据。

| Last Updated: January 23rd, 2019