Month: October 2016

Applying Big Data Analytics to Clickstream Data

  If you are a retailer, how well do you know your products and how well do you know your customers?  You may know which products are most popular based on their purchase history because you keep records of those transactions.  But do you know which of your products are the most and least viewed?  […]


Looking Back at Ten Years of Growth

  At a time when Talend is celebrating its ten years of existence and the success of its IPO, I think it’s interesting to revisit the rich history of the company and pay tribute to those who have contributed to making it a global leader in cloud and big data software. Even if this argument […]


Hand Coding vs. Tools: Our Take on Gartner’s Report

  As the CMO of a data integration software company, I’ve invested a lot of time convincing IT managers that they should switch from hand coding to a tool-based approach. Hence the reason I was excited to see and impressed by the practical advice outlined in Gartner’s recently published report, “Does Custom-Coded Data Integration Stack […]


Talend“作业设计模式”和最佳实践 – 第 3 部分

  此前我发布的同主题博文貌似反响不错,这让我深感荣幸,谨向诸位热心读者致以诚挚谢意。 如果您是初次来访的新读者,建议先行阅读同一主题系列的前两篇博文,也即《Talend“作业设计模式”和最佳实践》第 1 部分和第 2 部分,然后再阅读本篇后续内容。承蒙大家厚爱,这一系列现已译为其他语言,比如可以单击法国国旗图标切换至法语版。在此也要向 Makina Corpus 的项目经理 Gaël Peglissco 致谢,感谢他始终耐心且专业地协调翻译进展和译稿发布事宜。 在进一步介绍有关作业设计模式和最佳实践的内容之前,我想提醒您注意,先前的篇目内容现已汇总为时长 90 分钟的技术演示,将在“Talend Technical Bootcamp”发布,相关事项会在我的全球日历中给出提示。敬请访问Talend 网站,了解您所在地区即将举行的活动。希望您踊跃参与活动! 接下来我们将继续讨论该主题,欢迎大家就我提出的指南发表看法,提出问题乃至展开讨论,因为将讨论扩展到 Talend 社区,也算是我的潜在心愿。还记得“指南”并非“标准”,对吧?衷心希望诸位踊跃发言,不吝分享自己的观点,有您参与一定更精彩。 基于主题构建 此前我们应已明确认识到,制定“开发人员指南”对于软件生命周期取得成功不可或缺,Talend 项目亦莫能外。我们可以肯定地说,制定开发人员指南、在团队中予以推行,以及逐步培养纪律性是 Talend 实现卓越成效的关键。相信这么说大家并无异议。构建 Talend 作业可能一波三折(我说的可不是新版中的曲线),因此,理解“业务用例”、“技术”和“方法”基础可以显著促进构建过程顺利进行。我认为花时间制定团队指南非常值得,日后您会庆幸当初这么做。 不少对 Talend 客户构成挑战的用例通常关乎某种形式的数据集成过程,这一环节是 Talend 的核心竞争力,涉及将数据从一个位置移动到另一个位置。数据流有多种形式,其具体用途和处理方法都非常重要,其重要性不容置疑,可以说是我们创建每项作业时的核心要素。如果实际用例需要移动业务数据,而 Talend 是技术堆栈的组成部分,那么该使用什么方法?当然是我们讨论过的 SDLC 最佳实践,不过除此之外,与数据相关的方法还包括数据建模,这也是我非常乐于探讨的一个主题。担任数据库架构师逾 25 年,我已数不清设计和构建了多少个数据库解决方案。在我看来,数据库系统生命周期是非常实际的问题。无论是平面文件、EDI、OLTP、OLAP、STAR、Snowflake 还是数据保险库架构,如果忽略数据及其相应架构从生成到消亡的过程,小则留下漏洞,大则造成灾难。 数据建模方法并非本篇博文的主题,但采用适当的数据结构设计和利用率非常重要。您可以浏览我的博客中有关数据保险库的篇目,并留意后续发布的数据建模相关文章。我们现在只需考虑字面意义而不必深挖,不过数据开发生命周期 (DDLC) 无疑是最佳实践。仔细思考,您可能会发现我说的不无道理。 更多作业设计最佳实践 言归正传,我们继续来看 Talend 作业设计的更多“最佳实践”。到目前为止我们介绍了 16 项最佳实践,下面再介绍 8 项。这个系列还会有第 4 部分,为便于各位读者更好地消化吸收,本篇无法涵盖的内容留待下篇继续。即刻开始吧! 可供考虑的另外 8 […]


Making Sense of the Data Integration Market

  The data integration market can sometimes be hard to get your head around.  There are many players in the space, each with their approach to the market.  The 42 page Gartner Magic Quadrant for Data Integration provides a thorough analysis of the market, but it can be hard to get the big picture of the […]