机器学习工具:Talend 平台如何利用机器学习优化数据集成

无论在哪个行业,若要借助大数据应用程序和商业智能保持竞争优势,都离不开能实时处理和分析海量数据的大数据管道。Microsoft AzureApache Spark 集成的机器学习解决方案能加速这些系统的开发,并简化系统维护,但是此类机器学习解决方案本身十分复杂。

Talend 利用用户友好型自助服务工具和技术构建起一个综合生态环境,使机器学习 (ML) 能无缝集成到大数据平台上,减少 ML 的复杂性。这样一来,技能准入门槛降低,程序员无须精通复杂的 R 语言、Python 或者 Java,从而使企业能够以更快的速度和更低的成本获得数据洞察。

易于使用的即用型机器学习组件使数据工程师可以专注于大数据,进而构建分布式系统,而无需学习如何建立模型。数据科学家可专注于其所擅长的领域,即模型构建和算法创建。如此可实现不同人员按需完成不同任务,从而提高效率并加速开发进程。

Ready For More? Download 机器学习工具:Talend 平台如何利用机器学习优化数据集成 User Guide now.

View Now

Talend 机器学习用例

Talend Big Data 技术与机器学习组件相结合,使企业能够迅速部署 ML 的处理结果,以便解决紧迫的业务问题。银行、保险公司、航空公司、酒店及其他企业都会采用机器学习。此处用例体现的是任何行业和任何企业都存在的需求。

Paddy Power Betfair (PPB) 是全球最大的体育博彩上市公司,在全球拥有 500 万客户。该公司使用 Talend Real-Time Big Data 将来自多个数据源的 70TB 数据集成到一个集成云平台后,实现了开发周期减半,极大增强了数据敏捷性和响应时间。

即用型机器学习组件

通过 Talend 工具集能够直接使用机器学习组件。这一随时可用的 ML 软件让所有与数据相关的从业人员能轻松驾驭算法,无论其经验水平如何,也无需了解算法的原理和构建规则。与此同时,专家还可以根据需要对算法进行微调。

机器学习组件内置于 Real-Time Big Data Platform 上,使用户无需手动编码即可进行分析。根据工作原理,Talend 机器学习算法可分为 4 类,每一类中都含有各种即用型 ML 组件:

1. 分类算法

分类是机器学习中的一种数据挖掘技术,用于发现存在于大型数据集中的模式。该算法利用一组包含观测值(实例)的训练数据,其中观测值的分类结果已知,来确定某一观测值应当所属的类别(子总体)。

分类算法可分为两种类型:

  1. 二元分类:只有两个可能的结果。
  2. 多元分类:有多个可能的结果。

分类算法的用例包括垃圾邮件检测、图像分类和客户情绪的文本挖掘。其目标均为通过已知的例子预测类别的子类或标签。

Talend 机器学习分类组件包括 tClassify、tClassifySVM、tDecisionTreeModel、tGradientBoostedTreeModel、tLogicRegressionModel、tNaiveBayesModel、tPredict、tRandomForestModel 和 tSVMModel。

2. 聚类算法

聚类分析(聚类)是探索性数据挖掘的主要任务,属于统计数据分析中常用的一种技术。

例如,K 均值聚类是无监督学习算法的一种,也是最简单的无监督学习算法之一,用于解决通过一定数量的簇对给定数据集进行分类的问题。K 均值聚类的用例包括细分定价、确定客户忠诚度和欺诈检测。

Talend 机器学习聚类组件包括 tKMeansModel、tPredict 和 tPredictCluster。

3. 推荐算法

也被称为推荐系统,是信息过滤的一个子类,意在预测用户对某物品的评分或偏好。

协同过滤是推荐算法的一种。协同过滤可以基于用户,也可以基于物品。这两种方法的目标都是根据众多用户的偏好或众多有关物品的偏好(即协同)自动预测用户或物品(即过滤)。

Talend 机器学习推荐组件分为两种类型:

  • tALSModel:这一组件可以处理从前导的 Spark 组件中获取的用户对特定产品的偏好信息。它对这些数据集执行交替最小二乘 (ALS) 计算,以生成并编写一个经过微调的产品推荐模型(Parquet 格式)。
  • tRecommend:这一组件可利用推荐模型分析来自前导的 Spark 组件中的数据,预测用户偏好。它基于 tALSModel 生成的用户产品推荐模型,并向模型已知用户推荐产品。

推荐系统算法可以与深度学习技术相结合,以实现基于海量大数据的预测,这与 Google 创建的 YouTube 深度神经网络推荐引擎相似。

Talend 机器学习推荐组件包括 tALSModel 和 tRecommend。

4. 回归算法

回归测试是一个预估多个变量间关系的统计过程。它关注一个因变量与一个或多个自变量(即“预测变量”)之间的关系。

具体而言,tModelEncoder 组件从其前导的组件中收到数据后,应用各种特征处理算法转换这些数据列:文字转换为矢量、哈希、嵌套等。然后,将结果发送给后续的模型训练组件 tLogisticRegressionModel 或者 tKMeansModel,最终训练并创建预测模型。

Talend 机器学习回归组件包括 tModelEncoder、tLinearRegressionModel 和 tPredict。

开始使用 Talend 机器学习

Talend 机器学习采用 Apache Spark on Hadoop 和 Microsoft Azure 来提升规模和性能。通过 Spark 用 Talend ML 组件实时处理和分析大型数据集,您可以借此快速构建模型,不必为开发进程担忧,让您专注于业务成果。

了解更多有关 Talend 机器学习和 Spark 的信息,请观看按需网络研讨会机器学习基础。它概要介绍了监督机器学习、无监督机器学习和强化机器学习的相关知识,并详细介绍有关 Spark 和自然语言处理 (NLP) 的相关信息。

| Last Updated: January 23rd, 2019