读取文件

无论数据源是数据库还是文件,它都是数据集成中最基本、最必要的元素之一。Talend Open Studio for Data Integration 能够利用多种支持数据库连接及标准和复杂文件格式的组件,轻松获取数据。在本教程中,您将了解到如何在标准逗号分隔文件格式中轻松实现数据访问。

本教程使用的是 Talend Open Studio Data Integration 第 6 版 

1. 创建新作业

  1. 确保已选中 Integration(集成)透视图。
  2. 在项目存储库中,右键单击 Job Designs(作业设计)并单击菜单中的 Create Standard Job(创建标准作业)。
  3. 在 New Job (新作业)向导的 Name(名称)字段中,填入作业名称 readCSVFile
  4. 推荐为作业添加用途和说明。然后单击 Finish(完成),创建作业。

作业设计器将打开空作业。

2. 添加 tFileInputDelimited 组件

3. 配置 tFileInputDelimited_1 组件

  1. 在作业设计器中,单击 tFileInputDelimited_1
  2. 如需定义组件的 Basic settings(基础设置),请单击 Component(组件)视图中的 Component(组件)。
    Property Type(属性类型)用于定义读取数据源的方法。
    File Name/Stream (文件名称/流)显示完整的输入或输出文件路径。您可以手动输入路径,或者您也可以利用省略号按钮 [..] 提供文件路径。
    Row Separator(行分隔符)和 Field Separator(字段分隔符)用于定义行分隔符的类型。
    Header(数据首)和 Footer(数据尾)指明文件中应忽略的行数。
    Limit(限制)则显示文件中读取的最大行数。
    Schema(模式)定义文件的数据结构。
  3. 如需指定要读取的文件的路径和名称,请单击 File Name(文件名称)字段旁的 [...] 并从本地磁盘中选择文件,然后单击 Open(打开)。

4. 定义 tFileInputDelimited_1 组件的模式

  1. 如需定义 tFileInputDelimited_1 组件的模式,请单击 Edit schema(编辑模式)字段旁的 [...]。

    打开 Schema of tFileInputDelimited_1(tFileInputDelimited_1 的模式)向导。

    使用 [+] 按钮可在模式向导中添加一列。
    使用 [x] 按钮可从模式向导中移除选中项。
    使用 [↑] 和 [↓] 按钮可在模式向导中上下移动选中项。

  2. 在模式向导中,单击 [+] 图标添加列。
  3. 在 Column(列)栏中,输入字段名称 movieID
  4. 如需将此字段指定为密钥,请选择 Key(密钥)。
  5. 在 Type(类型)栏中,单击 Integer(整数)。
  6. 请确保未勾选 Nullable(可为空)栏,以拒绝此栏中出现空白值。
  7. 在 Length(长度)栏中,输入 4。
  8. 对 CSV 文件中的各字段重复步骤 b 至 g。
  9. 如需关闭模式向导,请单击 OK(确定)。

5. 添加日志记录组件与传播数据

  1. 在作业中添加 tLogRow 组件。tLogRow 组件将在控制台中显示其接收的所有数据行。
  2. 如需将数据从 tFileInputDelimited_1 组件传播至 tLogRow_1 组件,在作业设计器中,右键单击 tFileInputDelimited_1,按住组件并将其拖拽至 tLogRow_1

备选方法:如需链接组件,您还可以右键单击源组件,单击 Row(行) > Main(主要)。

6. 运行作业

在作业 readCSVFile 的 Run(运行)视图中,单击 Run(运行)。

文件由 tFileInputDelimited 组件读取,且 tLogRow 组件会在控制台上显示文件内容。