Month: January 2017

Getting Started with Big Data

  Big data is here to stay After social media, the Internet of Things is the next big driving force behind the increase in data worldwide, which is doubling in size every two years.  [1] At the same time, data processing speeds and capabilities are becoming increasingly important because—much like food—data loses relevance after a […]


Accelerate Data Lake Creation and Software Development Lifecycles with Talend Integration Cloud Winter ’17

  Today, we announced the general availability of the Winter ’17 release of Talend Integration Cloud, an Integration-as-a-Service (iPaaS) platform. This release helps customers build data lakes dramatically faster using AWS S3 and reduce data security vulnerabilities through controlled access. The new release also enables customers to continuously deliver integration projects, accelerate the software development […]


Apache Beam Your Way to Greater Data Agility

  If you are Captain Kirk or Mr. Spock and you need to get somewhere in a hurry, then you “beam” there, it’s just what you do. If you are a company and you want to become more data driven, then as surprising as it may sound, the answer there could be beam as well, […]


Talend“作业设计模式”和最佳实践 ~ 第 4 部分

  我们对“Talend 作业设计模式和最佳实践”的探讨即将圆满收官,这是激动人心的时刻。付出终有收获,功到自然成。本系列先前的博文持续受到好评,如果您尚未读过第 1、2、3部分,建议先行浏览。另外,我还在 Technical Boot Camp 进行了演示,在此向到场诸位表示感谢。而且,我直接向客户提供这些材料,因而催生了针对转换的内部需求。我们拟在近期围绕此系列举办几场网络讲座,目前正在筹备之中,由于需要一定的时间而且需要协调资源,有劳您耐心等候,希望第一期讲座能在 2017 年初顺利开启。我对此深表期待,也欢迎您持续关注并访问我的博客。 不过依照先前的承诺,我们接下来要继续深入了解一组 Talend 作业设计模式的最佳实践。首先要提醒您注意一个简单却经常被忽略的事实:Talend 是一种 Java 代码生成器,制定开发人员指南可以强化及简化通过作业设计模式生成 Java 代码的过程。这貌似显而易见,事实也的确如此。但设计精良的作业能生成干净的 java 代码,借助这些概念在画布上绘制是卓有成效的绝佳方式,我称之为“成功驱动型项目”。 成功驱动型 Talend 项目 构建 Talend 作业的过程可能简单直接,也可能会相当复杂。成功实施的秘诀是培养良好的习惯以及引入必要的纪律。 从本系列开篇讨论“基本法则”起到现在,我的目标一直是促进对这些最佳实践的公开讨论,以便通过 Talend 实现合理而实用的作业设计模式。大多数用例将受益于原子作业设计和父/子业务流程,并且当项目包含重要的可重用代码时,可为整体成功提速。您当然要选择适合自己的路径,不过至少希望您做到一以贯之。 数据库开发生命周期 (DDLC) 要持之以恒!也许不仅仅关乎作业设计,同样关乎数据。我们在处理数据,对吧?大多数情况下,数据位于数据库中。试问数据库是否需要最佳实践?这是个设问句。数据模型(架构)随着时间的推移而变化,因此数据库设计必然也具有生命周期!这一点不言而喻。 数据库会不断演进,我们作为开发人员需要适应这一事实。此前我们已接纳 SDLC 流程,因此应该不难接受这样一个事实:我们需要一个数据库开发生命周期。在我看来这一点相当容易。对于任何环境 (DEV/TEST/PROD),数据库都需要支持: 全新安装 – 基于架构的当前版本 应用升级版本 – 删除/创建/更改数据库对象,升级至下个版本 数据迁移 – 在发生破坏性“升级”(比如表的拆分)时 了解数据库生命周期及其对作业设计的影响变得尤其重要。数据库模型的版本控制十分关键。请遵循规定的设计流程,使用图形图表来说明设计,创建“数据字典”或“术语表”,并跟踪历史变化轨迹。我近期会就该话题另外撰写一篇博文,敬请留意。与此同时,在编制数据库模型时也请考虑以下流程,这是项更高层次的规则,而且非常奏效!   更多作业设计最佳实践 那么,下面我们来了解更多作业设计模式和最佳实践,马上满足您的需要。这些内容将进一步深挖 Talend 的功能,可能涉及一些常见功能,也有一些并不常用,希望您能发现它们的价值。 另外 8 项最佳实践: tMap […]