搭载 Spark 和 Hadoop 的 Talend

专为您的集成平台打造的加速引擎

Apache Spark on Hadoop 所释放之数据处理的速度和规模让 Big Data 如虎添翼。
如今,Talend Big Data 提供可充分发挥其作用的平台。

免费试用

Big Data 需要大存储和快速处理

Hadoop 让收集和存储海量数据变得更加经济实惠。Spark 大大提升数据处理的速度和规模。Talend 提供的单一数据集成平台支持将这些创新技术连接到为各个行业带来变革的决策应用程序和工具。

单一平台上连接一切

Talend 是首个构建于 Apache Spark 和 Hadoop 之上的大数据集成平台。Talend Studio 提供可生成本地代码的图形工具和向导,让您可以立即搭载使用 Apache Spark、Spark Streaming、Apache Hadoop 和 NoSQL 数据库。

  • 运行 Spark 的 Talend Big Data 作业速度要比提供实时结果的 MapReduce* 快 5 倍
  • 经 Talend 优化的连接器和组件整合内存分析、机器学习和缓存组件,无需手动调优 Spark 即可实现高性能作业
  • 借助 Talend 可视化工具,您能够以比手动编码更快的速度构建在 Hadoop 上、独立或在云中运行的 Spark 作业
  • 在 Talend 中轻触按钮,便可将 MapReduce 作业转换到 Spark

* 根据独立的 TPC-H 集成基准验证

优化 Spark on Hadoop 的速度和规模

Talend 可生成本地代码,从而优化 Spark 的功能,提供大数据和物联网的速度与规模。

  • 分布式计算的优化管理:提前进行分区,以提升性能
  • 可直接从数据源对数据进行大规模并行流处理,并使用压缩列存储将数据保存在内存中以供重复使用,进而提供无与伦比的性能
  • 可针对 Kafka 等平台从 Talend 大规模整合消息传送和批处理与连接器,从而为大型消息传送系统打造一款端到端解决方案
  • 新类别的 Spark 本地 JDBC 连接器,支持使用分区并行读取,从 RDBMS 进行摄取
  • 内存加窗可帮助比对设定时间段内的数据值

充分发挥 Spark 机器学习的功能

Spark 可以在单个运行时中整合批处理和流媒体,而 Talend 具备高速消息传送、实时数据摄取和处理以及快速 NoSQL 连接功能,可提供一个用于构建批处理和实时应用程序的单一工具与代码库。

  • 您可以将历史数据与实时点击流、地理位置或传感器数据整合为一
  • Talend 可帮助您构建由 Spark 机器学习提供支持的智能数据管道,连接实时数据与批处理数据,从而为您馈送实时分析
  • 预建拖放式开发人员组件采用 Spark 机器学习分类器来提供逻辑和线性回归、图像分类、文本分析、决策树分类、梯度提升树预测、随机森林、ALS、朴素贝叶斯和聚类算法,如 K-Means
  • 开发人员和数据科学家使用单个工具即可开展所有工作,进行适当的跟踪和治理,以构建基于 Spark 的实时分析模型,用于进行推荐、客户细分、预测、分类和回归分析
  • Talend 的持续交付工具可通过快速频繁的迭代将数据科学模型投入生产,从而对已处理数据进行大规模学习

与用于 Spark 的最新 Hadoop 发行版本并驱发展

Talend 是唯一一个支持最新 Hadoop 发行版本的平台。Talend 中的本地 Spark 连接器可优化从外部来源到 Spark 中的数据馈送,让您能够摄取和并行加载数据,并加快数据使用的速度

 

可在经济实惠的商品化硬件上运行,并部署到您现有的 Hadoop 集群。

使用 Talend Studio 管理作业中 AWS EMR 集群的弹性

通过 Google、Amazon、IBM、Oracle 和 MS Azure 在云中交付 Spark。.

借助 100 多种拖放式 Spark 组件,轻松入门。

在 Cloudera Navigator 和 Hortonworks Atlas 中,跟踪使用的数据,并应用安全策略。

 

spark-hadoop-table