何为数据集市

在由大数据和分析主宰的市场中,数据集市是高效将数据转换成洞察的一大关键。数据仓库通常用于处理大型数据集,而数据分析却需要易于查找且即时可用的数据。那么业务人员非得执行复杂的查询才能获得编制报告所需的数据吗?绝非如此,这便是为何聪明的企业都选择使用数据集市。

数据集市作为一种面向主题的数据库,通常是企业数据仓库的一个分区段。数据集市中保留的数据子集一般对应特定的业务单元,比如销售、财务或营销。数据集市可以加快业务流程,允许在数天之内,而不是数月或更长时间,访问数据仓库或操作数据存储中的相关信息。数据集市仅包含适用于特定业务领域的数据,因此可谓是快速获取可执行洞察的一种经济且高效的方式。

数据集市和数据仓库

数据集市和数据仓库都是高度结构化的存储库,用于存储和管理数据以备未来需要时使用。但它们在存储的数据范围方面有所不同:数据仓库专用作整个企业的集中数据存储,而数据集市则用于完成特定部门或业务职能的请求。由于数据仓库包含整个企业的数据,最好严格控制访问权限。另外,对于企业而言,在数据仓库中查询所需的数据是一件相当艰难的任务。因此,数据集市的主要用途是将一小部分数据集从整体中隔离或分割出来,以便让最终使用者可以轻松访问数据。

数据集市可以从现有数据仓库(自顶向下法)或者从诸如内部操作系统或外部数据等其他来源创建。与数据仓库类似,数据集市是一个关系数据库,用于按列和行存储事务数据(时间值、数值次序、一个或多个对象的引用),以使其便于组织和访问。

另一方面,各个业务单元可能根据自己的数据要求创建自己的数据集市。如有业务必要,则可将多个数据集市整合在一起,创建一个单一的数据仓库。这称为自底向上法。

 

数据集市

数据仓库

大小

< 100 GB

100 GB +

主题

单个主题

多个主题

范围

业务部门

整个企业

数据源

几个来源

许多来源系统

数据集成

一个主题区

所有业务数据

构建时间

数分钟、数周、数月

许多月到数年

 

3 数据集市类型

有三种类型的数据集市:依赖型、独立型和混合型。数据集市类型的划分依据数据集市与其建立时所用数据仓库以及数据源的关系。

  1. 依赖型数据集市

依赖型数据集市是从现有的企业数据仓库中创建。它是一种自顶向下法,首先将所有业务数据存储在一个集中位置,然后在需要时提取明确定义的一部分数据用作分析。

要形成数据仓库,需从仓库中聚合特定的数据集(形成集群),重组然后加载到可以进行查询的数据集市。这可以是数据仓库的逻辑视图或物理子集:

  • 逻辑视图:可从数据仓库逻辑分隔而非物理分隔出的虚拟表/视图
  • 物理子集 : 数据提取,是从数据仓库中物理分隔的数据库

精细数据:数据仓库目标集中最低级别的数据,用作所创建之所有依赖型数据集市的单一引用点。

  1. 独立型数据集市

独立型数据集市是在未使用数据仓库情况下,针对单个主题区或业务职能创建的独立系统。数据从内部和/或外部数据源中提取,处理后加载到数据集市存储库进行存储,以便在需要时用于业务分析。

独立型数据集市的设计和开发不难实现。它们对于实现短期目标非常有利,但由于每一个独立型数据集市都有自己的 ETL 工具和逻辑,随着业务需求不断扩展以及越加复杂,它们可能变得极其难以管理。

3. 混合型数据集市

混合型数据集市从现有数据仓库和其他操作源系统整合数据,集自顶向下法的速度和最终用户关注点与自底向上法的企业级集成优势于一身。

Ready For More? Download 何为数据集市 User Guide now.

View Now

数据集市的结构

与数据仓库类似,组织数据集市时可使用星型、雪花型、vault 型或其他模式作为蓝图。IT 团队通常使用星型模式,在该模式下,关系数据库中包含引用维度表(连接到事实表的主键)的一个或多个事实表(与特定业务流程或事件关联的指标集)。

星型模式的优势是在编写查询时需要极少的连接,因为维度之间无任何依赖关系。这可以简化 ETL 请求流程,让分析人员可以更轻松地进行访问和导航。

在雪花型模式中,维度未明确定义,而是经过标准化,以帮助减少数据冗余并保护数据完整性。存储维度表需要的空间更少,但其结构却更为复杂(需填充和同步多个表),因此非常难以维护。

 

数据集市的优势

管理大数据并获得有价值的业务洞察是所有企业面临的一大挑战,而大多数企业正选择通过战略性数据集市来回击这一挑战。

  • 高效访问:数据集市是一款省时的解决方案,可用于访问特定数据集以帮助获取商业智能。
  • 廉价的数据仓库替代方案:数据集市可以作为开发企业数据仓库的廉价替代方案,所需的数据集更小。独立型数据集市可在一周或更短时间内投入运行。
  • 改善数据仓库性能:依赖型和混合型数据集市可以分担数据仓库的处理压力,提高数据仓库的性能,从而满足分析人员的需求。如果将依赖型数据集市置于单独的处理工具中,它们还可大大降低分析处理成本。

数据集市的其他优势包括:

  • 数据维护:不同部门可拥有和控制其自身的数据。
  • 设置简单:简便设计,无需过多专业技能即可轻松设置。
  • 分析:轻松跟踪关键绩效指标 (KPI)。
  • 轻松入门:数据集市可以用于构建企业未来数据仓库项目。

数据集市的未来在云端

即使数据集市提供的灵活性和效率均有改善,就大数据和大规模业务而言,许多本地部署解决方案仍难承其重。随着数据仓库数据湖逐步向云端迁移,数据集市也紧随其后。

通过利用基于云的共享平台来创建和存放数据,访问和分析变得更加高效。您可以针对短期分析创建瞬态数据集群,或者针对更持久的工作创建长期集群。现代技术也在不断将数据存储与计算分离,以便为数据查询提供最佳的可扩展性。

基于云的依赖型和混合型数据集市的其他优势包括:

  • 带源生云应用程序的灵活架构。
  • 包含所有数据集市的单一存储库。
  • 按需使用资源。
  • 快速实时访问信息。
  • 提高效率。
  • 整合资源,降低成本。

实时交互式分析。

 

Ready For More? Watch 初学者入门视频-Talend Open Studio for Big Data now.

Watch Now

数据集市入门

许多企业目前正面临着海量的信息,急需将这些信息解析为可管理的数据块,以便于分析和获取洞察。云端数据集市可以提供一款长期且可扩展的解决方案。要创建数据集市,请务必寻找一款合适的 ETL 工具,帮助您连接至现有数据仓库或者其他主要数据源,以使您的业务用户获取汲取洞察力所需的数据。此外,确保您的数据集成工具可以定期更新数据集市,让您的数据以及据之进行的分析保持最新状态。

 Talend Data Management Platform 能让团队以更智慧的方式工作。它能提供可扩展的开放式架构和简单的图形工具,以便转换和加载适用的数据源,创建一个新的数据集市。此外,Talend Data Management Platform 可以对更新数据集市所需的集成作业进行自动化和调度,从而简化现有数据集市的维护工作。

借助 Talend Open Studio for Data Integration,您可以连接 Amazon Web Services Redshift、Snowflake 和 Azure Data Warehouse 等技术,创建您自己的数据集市,充分发挥云的灵活性和可扩展性。

 

| Last Updated: January 22nd, 2019