大数据的未来

本世纪初,关系数据库、公共 Web 访问、无线和其他技术的出现使得对海量数据集的研究和管理成为一项现实的挑战,为该挑战命名的必要性也应运而生。2013 年 7 月,牛津英语词典收录了“大数据”这个词语,这个词最早可追溯至二战时期,当时用于指代海量处理信息。

大数据指的是对于传统数据处理数据管理应用程序而言过大且过于复杂的数据集。随着移动和 IoT 技术的出现,人们产生越来越多的数据(地理位置、社交软件、健身软件等等)并在设备上访问数字数据,大数据随之变得越来越流行。

大数据还成为了收集、分析和使用海量数字信息以改善企业经营活动的统称。随着数据集不断增长,应用程序日益实时化,大数据及大数据处理正逐步迁移至云端

为何大数据如此重要?

消费者生活在一个即时预期的数字世界中。从数字销售交易到营销反馈和改进,如今,在基于云的商业世界中,一切都在快速发生变化。所有这些快速实现的交易也在以飞快的速度产生和编制数据。及时有效利用这些信息能让企业将对目标受众的全面了解转化为利润,否则客户被拱手让予竞争对手。

管理和利用数据操作存在无限的可能(以及潜在弊端)。以下是大数据可以为企业带来变革的几个重要方面:

  • 商业智能:商业智能一词指的是通过摄取、分析和应用大数据为企业创造利益,在激烈的现代市场争夺战中,它是一项至关重要的武器。通过以图表形式展示并预测活动和挑战,商业智能可以将企业的大数据用于打造产品
  • 创新:通过透彻分析行业和市场内发生的种种交互、模式和异常,大数据可用来帮助企业向市场推出新的创新型产品和工具。

    想象一下,“Acme Widget Company”审查了其大数据概况,发现在温暖的天气里,装饰品 B 在中西部的销量接近装饰品 A 的两倍,而在西海岸和南部两者销量相当。Acme 可以开发一款营销工具,展开针对中西部市场的社交媒体宣传活动,并打出专门的广告,突显装饰品 B 的受欢迎性和即时获得性。以这种方式,Acme 可以借助其大数据打造新的或定制的产品和广告,从而最大限度提高盈利潜力
  • 降低总体拥有成本:如果说省一分钱就是赚一分钱,那么大数据可以帮助您赚更多钱。IT 专业人员在进行运营评估时,不仅会考虑设备的采购成本,还会考虑其他因素,包括年度合同、许可和人员开销。

    从大数据操作中挖掘的洞察可以快速确定在哪些地方资源未得到充分利用,以及哪些方面需要多加关注。借助所有这些信息,管理人员可以保持预算的灵活性,从而更好地在现代环境中开展经营。

几乎各行各业的企业和品牌都在利用大数据来开疆拓土。航运公司借助它来计算运输时间和设定运费。大数据还成为开创性科学和医疗研究的支柱,让我们能够以前所未有的速度开展分析和研究。在我们每一天的生活中它可谓无处不在。

Ready For More? Watch 通过自助访问在云端构建数据湖 now.

Watch Now

大数据 5 V +1

根据行业专家的观点,大数据通常具备五个特征(即 5 V)。在理解这些特征时,不但应探究其本身的含义,还应了解它与其他特征的关系。

体量大 (Volume):针对将使用的数据量及其存储方式和存储位置制定专门的计划。

类型多 (Variety):识别生态系统中各类数据源,并获取适合的摄取工具。

速度快 (Velocity):再次强调,速度对于现代企业至关重要。研究并部署适当的技术来确保近乎即时地掌控大数据情况。

难辨识 (Veracity):存在大量无用输入和无用输出,因此需确保数据准确干净。

价值密度低 (Value):所收集的环境数据具有不同的重要性,因此需构建一个能够以易于理解的方式呈现可执行商业智能的大数据环境。

但除此之外,我们还想再加一条:

道德 (Virtue):还需根据所有数据隐私和合规法规注意大数据使用道德

大数据分析和数据湖

大数据更多是关于新的用例和新的洞察,而不是数据本身。大数据分析指的是,通过认真研究非常大型精细化的数据集,揭示隐藏模式、未知关联性、市场趋势、客户偏好以及新的业务洞察。人们现在可以提出之前通过传统数据仓库无法提出的问题,因为传统数据仓库仅存储聚合数据。

想象一下,您正在欣赏蒙娜丽莎油画而只看到大像素,这便是您在数据仓库中获得的关于客户的视图。为了得到您客户的详细视图,您需要存储有关这些客户的精细、纳米级数据,并使用数据挖掘或机器学习等大数据分析。

数据湖是一个中央存储库,用于以原始、精细的格式保留来自多个源的大数据。它可以存储结构化、半结构化和非结构化数据,这意味着能够以更为灵活的格式保留数据,以供未来使用。存储数据时,数据湖会将数据与标识符和元数据标记关联,以便于快速检索。使用数据湖,数据科学家可以更快更准确地访问、准备和分析数据。对于分析专家而言,这一庞大的数据池(支持多种非传统格式)提供了极难得的机会,让他们可以将数据用于各种用例,比如情绪分析或欺诈检测。

如何使用大数据

要掌握以上所有知识,需从基础做起。就大数据来讲,这通常涉及到 Apache 软件项目提供的 3 种产品,即 Hadoop、MapReduce 和 Spark。

Hadoop 是一款专用于处理大数据的开源软件解决方案。Hadoop 中的工具可以帮助将处理海量数据集所需的处理负载分布到一些或者成百上千的单独计算节点。相较于将 PB 级的数据迁移到一个小型的处理站点,Hadoop 恰恰反其道而行之,如此便大大加快了处理信息集的速度。

MapReduce 顾名思义,可帮助执行两个函数,编制和整理(映射)数据集,然后将其精炼为更小的有组织的集,用于响应任务或查询。

Spark 也是 Apache 软件基金会的一个开源项目,它是一种用于大规模处理和机器学习的超快分布式框架。Spark 的处理引擎可以作为一个独立的安装件或一项云服务运行,或者在已运行诸如 Kubernetes 或 Spark 前身 Apache Hadoop 等流行分布式计算系统的环境中运行。

Apache 的这些以及其他工具是充分发挥您企业中大数据潜力的最值得信赖的方法。

大数据的崛起和未来

随着云技术的爆炸式发展,对不断扩张的数据海洋进行整理的需求已成为设计数字架构时的一个基础考量因素。在交易、库存甚至 IT 基础架构都能以纯虚拟状态存在的世界中,一款优秀的大数据解决方案应能够从许多源摄取数据,并创建一个整体概览,这些数据源包括:

  • 虚拟网络日志
  • 安全事件和模式
  • 全球网络流量模式
  • 异常检测和解决
  • 合规信息
  • 客户行为和偏好跟踪记录
  • 地理位置数据
  • 用于跟踪记录品牌情感的社交渠道数据
  • 库存水平和货运跟踪记录
  • 其他影响您企业的特定数据

即使是对大数据趋势的最保守分析也显示出,内部物理基础架构正不断减少,对虚拟技术的依赖性日益攀升。随着这种演变而来的还有一个机器逐步被仿真它们的比特与字节替代的世界,而能在这个世界中应付自如的工具和合作伙伴将为各个企业所依赖。

大数据不仅仅是未来的重要组成部分,它本身可能就是未来。我们存储、迁移和理解数据之方式的演变将继续左右企业、组织以及为其提供支持的 IT 专业人员如何实现他们的使命。

Ready For More? Download 大数据的未来 User Guide now.

View Now

大数据、云和无服务器计算

在云平台推出之前,所有大数据处理和管理皆在本地部署中完成,但是,随着诸如 Microsoft AzureAmazon AWSGoogle Cloud 等基于云的平台的出现,大数据托管集群逐步转向在云端部署。

但这实施起来有诸多困难,比如在特定时间段利用不当、利用不足或过度利用。要避开与托管集群相关的问题,最好的解决办法是使用无服务器架构,其具有以下利处:

  • 仅为您使用的应用程序付费:存储层和计算层解耦,您所需支付的费用仅包括数据留存于存储层期间的相应费用,以及与必要计算所用时间相应的费用。
  • 减少实施时间:部署托管集群可能花费数小时至数天,而无服务器大数据应用程序短短几分钟即可部署完成。
  • 高容错性和可用性:默认情况下,无服务器架构由云服务提供商托管,可根据服务水平协议 (SLA) 提供所需的容错性和可用性,因此无需配备管理员。
  • 轻松扩展和自动扩展:定义的自动扩展规则支持按工作负载向内扩展和向外扩展应用程序。这可以帮助大大降低处理成本。

您对于大数据集成工具应当有何期望?

大数据集成工具可大幅精简数据集成流程。大数据工具具备的特性包括:

  • 大量连接器:世界上有许多系统和应用程序;您的大数据工具具备的预建连接器越多,您的团队可以节省的时间将越多。
  • 开源:开源架构通常可以提供更大的灵活性,同时帮助避免供应商锁定;另外,大数据生态系统包含您希望使用和采用的开源技术。
  • 可移植性:这点非常重要,因为越来越多的公司为了能一次性构建好大数据集成方案然后在任何地方(本地部署、混合环境和云端)运行,转向了混合云模式。
  • 易用性:大数据集成工具应配备一个 GUI 界面,易于学习和使用,让您可以轻松实现数据管道的可视化。
  • 透明定价模型:您的大数据集成工具提供商不应反复劝说您增加连接器数量或数据量。
  • 云兼容性:您的大数据集成工具应可在单云、多云或混合云环境中源生运行,能够在容器中运行并使用无服务器计算最大限度降低大数据处理成本,同时只需为您使用的服务器付费,而无需为闲置服务器付费。
  • 集成数据质量和数据治理:大数据通常源自外部世界,相关数据在发布给业务用户之前必须进行妥善的组织和治理,否则可能给公司带来严重问题。因此,在选择大数据工具或平台时,请确保其内置数据质量和数据治理机制。

 

Ready For More? Download 大数据的未来 User Guide now.

View Now

Talend 大数据方案

Talend 针对大数据集成和处理提供强大的大数据集成工具。借助 Talend 大数据集成解决方案,数据工程师将能够以比手动编码快 10 倍的速度,以竞争对手几分之一的成本完成集成工作。

  • 源生:Talend 可在大数据平台上源生运行。Talend 生成的源生代码可直接在云内以无服务器的方式运行,或者在大数据平台上运行,无需在每个节点和集群安全和维护专有软件,因此可消除间接成本。
  • 开放:Talend 为开源且基于开放标准,这意味着我们以及我们的客户可以积极采用云和大数据生态系统中的最新创新。
  • 统一:Talend 提供一个单一平台和集成产品组合,用于实现数据集成(包括数据质量、MDM、应用程序集成和数据目录)和与互补性技术的互操作。
  • 定价:Talend 平台的使用权限通过订阅许可证提供,定价则依据使用该平台的开发人员的数量,而非数据量、连接器数量、CPU 或核心、集群或节点。按用户定价具有更强的可预测性,而且不会针对使用产品收取“数据税”。

Talend Big Data Platform 可以提供额外的功能,例如管理和监控能力、内置于平台之中的数据质量,以及在 Web、电子邮件和电话中可实现的附加支持。

此外,它还提供源生多云功能,可针对任何类型的项目进行扩展,并且内置 900 个连接器。

Talend Real-Time Big DataPlatform 可以让您一举做到所有这些,并将实时 Spark Streaming 变成您大数据项目的动力之源。

大数据入门

立即试用 Talend Big Data Platformtry today。Talend Big Data Platform 可简化复杂的集成,帮助您发挥 Spark、Hadoop、NoSQL 和云的优势,让您的企业可以更快地从数据中提取洞察。要充分利用试用版,请参阅我们的大数据入门指南。

 

| Last Updated: January 23rd, 2019

Most Downloaded Resources

Browse our most popular resources - You can never just have one.