数据湖与数据仓库

 

数据湖数据仓库都广泛用于存储大数据,但二者并非可互换的术语。数据湖是一个庞大的原始数据池,池中原始数据的用途尚未定义。数据仓库是一个数据存储库,其中的数据为已结构化、经过筛选且已针对特定用途进行过处理的数据。

这两种类型的数据存储经常被混淆,但两者的不同却远远大于相同。事实上,唯一的真正相似之处是它们都主要用于存储数据。

这种不同非常重要,因为它们用于不同的目的,并且在进行合理优化时也需要从不同的方面着手。可能数据湖适合某一家公司,而对于另一家公司而言,数据仓库则是更好的选择。

Ready For More? Download 数据湖:目的、实践、模式和平台 User Guide now.

Download Now

数据湖和数据仓库之间的 4 大主要区别

数据湖和数据仓库之间存在诸多不同。主要区别在于数据结构、理想用户、处理方法以及数据的总体用途。

 

数据湖

数据仓库

数据结构

原始

处理后

数据用途

尚未确定

当前正在使用

用户

数据科学家

业务人员

可访问性

高度可访问,可快速更新

变更更为复杂,成本更高

 

数据结构:原始与处理后

原始数据是指尚未针对某一用途进行处理的数据。可能数据湖与数据仓库之间的最大不同就在于原始数据和处理后数据结构的不同。数据湖主要用于存储未经处理的原始数据,而数据仓库则用于存储经处理和提炼后的数据。

正因如此,数据湖通常比数据仓库需要更大的存储容量。此外,未经处理的原始数据具有可塑性,可快速进行分析并用于任何目的,非常适合机器学习。然而,所有这些原始数据的风险在于,如果没有采取 without 适当的数据质量和数据治理措施,数据湖有时候会恶化成数据沼泽。

数据仓库仅存储处理后的数据,不维护可能永远不会用到的数据,可以节省价格高昂的存储空间。此外,处理后的数据还易于被更多受众理解。

 

用途:未确定与使用中

数据湖中各个数据片的用途并不固定。原始数据流入数据湖,有时候带有特定的未来用途,有时候只是为了以备不时之需。这意味着相比数据仓库而言,数据湖中的数据欠缺组织性且筛选不严格。

处理后的数据指的是已被用于特定用途的原始数据。鉴于数据仓库仅存放处理后的数据,数据仓库中的所有数据都用于企业内的特定目的。这意味着存储空间不会浪费在可能永远不会用到的数据上。

 

用户:数据科学家与业务人员

对于不熟悉未经处理数据的人员来说,数据湖通常很难操控。要解读原始的非结构化数据并使其能够供特定业务用途使用,需要数据科学家和专门工具的帮助。

另外,数据准备工具增长势头迅猛,这种工具用于方便对数据湖中所存储信息进行自助访问。

阅读“何为数据准备”以了解更多 →

处理后的数据被用在图表、电子表格、表格等等当中,公司全部或大部分员工都可以查看。处理后的数据,例如存储在数据仓库中的数据,仅需要用户熟悉所代表的主题即可。

可访问性:灵活与安全

可访问性和易用性指的是将数据存储库用作一个整体,而不是仅使用其中的数据。数据湖没有结构,因此非常易于访问和更改。另外,由于数据湖本身的限制较少,您可以快速对数据进行的更改。

数据仓库在设计上更具结构性。数据仓库的一大优势是,数据的处理和结构使得数据本身更易于解释,但结构的限制则会让数据仓库操控起来更加困难、更耗成本。

 

Ready For More? Download 数据湖与数据仓库 User Guide now.

View Now

数据湖与数据仓库:哪个适合我?

企业通常两者皆需。数据湖之必要性在于企业希望充分发挥大数据的潜力,并借助原始、精细的结构化和非结构化数据进行机器学习,但是,企业仍需要创建数据仓库,以供业务用户开展分析之用。

医疗保健:数据湖存储非结构化数据

数据仓库在医疗保健行业的应用已累计多年,但一直未取得巨大成功。由于医疗保健行业大部分数据的非结构化性质(医师笔记、临床数据等)以及对实时洞察的需求,数据仓库通常并非理想的模式。

而数据湖可以整合结构化和非结构化数据,相对而言更适合医疗保健公司。

进一步了解 Talend 如何帮助 AstraZeneca 构建全球数据湖。 →

教育:数据湖提供灵活解决方案

近年来,大数据在教育改革方面的价值愈加凸显。有关学生成绩、考勤等的数据不仅可以帮助不及格学生重回正轨,实际上还可以帮助提前预测潜在的问题。另外,灵活的大数据解决方案还帮助教育机构精简了收费流程,改善了筹资,并带来许多其他好处

这些数据中包含大量原始数据,因此很多时候,教育机构可从数据湖本身的灵活性中获得最大效益。

金融:数据仓库广受欢迎

在金融行业以及其他商业环境中,数据仓库通常是最佳的存储模式,因为它可以实现结构化,方便整个公司的人员访问,而非仅限数据科学家。

大数据帮助金融服务行业取得了巨大进步,而数据仓库在这方面功不可没。如果金融服务公司放弃这一模式,那么唯一的原因就是,它虽然经济高效,但并不一定同样适合其他用途。

运输:数据湖帮助作出预测

Much of the benefit of 数据湖洞察力的主要好处在于能够进行预测。

运输行业,尤其是供应链管理板块,从数据湖中灵活数据汲取的预测能力益处多多,换言之就是,可通过检查运输数据处理管道中的表格数据,帮助大幅缩减成本。

选择数据湖或数据仓库的重要性

以上对“数据湖与数据仓库”差异的分析可能仅为冰山一角,但两者的主要差异体现在结构、流程、用户和整体敏捷性方面是确凿无疑的。根据需求开发适合的数据湖或数据仓库将对您公司的发展起到关键性作用。

进一步了解云数据湖,或者下载 Talend Big Data Sandbox 免费试用版,了解如何轻松掌控大数据。

 

| Last Updated: January 22nd, 2019

Most Downloaded Resources

Browse our most popular resources - You can never just have one.