跳转至

1、数据源

功能模块如图所示:

积木功能

读取文本

功能:读取最常见的文本文件数据。

积木功能

配置界面功能说明:

配置-设置

  • 数据来源设置
    • 本地文件系统:允许您从本地电脑系统中选择文件/文件夹。
  • 读取选项
    • 自动检测格式:通过按下此按钮,“列分隔符”、“行分隔符”、“引号字符”和“引号转义字符”将自动检测到,但不能保证检测到正确的值。 只考虑单个文件进行自动检测,也就是说,如果“文件夹中的文件”被选中,则只使用第一个文件。默认情况下,自动检测是基于所选文件的前1024 * 1024个字符,但可以通过单击该选项旁边的设置按钮进行调整。只有当读取的字符数包含一个完整的数据行时,该格式才能被检测到,自动检测将考虑最多20个数据行。假设数据行是分隔的行换行符。注意“跳过第一行”选项以及指定的“注释字符”将在猜测文件格式时使用。
    • 列分隔符:分隔列的字符串。使用'\t'作为制表符。可以自动检测。
    • 行分隔符:分隔行的字符串。可以自动检测。
    • 包裹符:引用字符,可以自动检测。
    • 逃逸符:引号转义字符,该字符用于在已加引号的值中转义引号。可以自动检测。
    • 注释符:指示行注释的字符。
  • 转化:此选项卡将每一列显示为表中的一行,允许修改输出表的结构。它支持重新排序、筛选和重命名列。还可以更改列的类型。重新排序是通过拖放完成的。只需将一列拖到输出表中它应有的位置。在执行期间是否以及在哪里添加未知列是通过特殊行<任何未知新列>指定的。
  • 高级设置
    • 读取器内存限制:如果选中,每列的内存限制为1MB,以防止内存耗尽。取消选中此选项可禁用这些内存限制。
    • 最大列数:设置允许的列数(默认为8192列)以防止内存耗尽。如果列数超过设置的限制,节点将失败。
    • 包裹符选项:删除引号并修剪空白:引号将从值中删除,然后修剪任何前导/末尾的空白。保留引号:值的引号将被保留。注意:引号内不会做任何修饰。
    • 空字符串转为空值(Null):如果希望用缺失的值单元格替换带引号的空字符串,则勾选该选项。
    • 表结构:如果启用,则只使用指定数量的输入行来分析文件(即确定列类型)。对于长文件,建议使用此选项,其中第一个窄行代表整个文件。“跳过第一个数据行”选项对扫描没有影响。还要注意,这个选项和“限制数据行”选项是相互独立的,也就是说,如果“限制数据行”中的值小于这里指定的值,我们仍然会读取和这里指定的一样多的行。
    • 支持更改文件模式,即每个文件的表结构可以不一致:如果选中,阅读器将在执行时计算表规范。如果配置文件/文件夹的内容在执行之间发生变化,即列被添加/从文件中删除或它们的类型发生变化,则需要此行为。
    • 数值格式:允许指定用于解析数字的千位和十进制分隔符。千位分隔符用于整型、长型和双值解析,而十进制分隔符仅用于双值解析。注意,两者必须不同。虽然可以不指定千位分隔符,但必须始终提供十进制分隔符。
    • 多文件读取选型:如果选中该选项,如果通过“文件夹中的文件”选项读取多个文件,并且不是所有文件都具有相同的表结构,即相同的列,则节点将失败。
    • “来源文件”列:如果选中该选项,节点将在输出表中附加一个具有所提供名称的路径列。此列包含每一行从哪个文件读取数据。如果使用提供的名称添加列导致与读表中的任何列发生名称冲突,则节点将失败。
  • 行限制
    • 跳过起始行数:如果启用,在解析开始之前,将跳过输入文件中指定的行数。使用此选项可以跳过不适合表结构的行(例如,多行注释)。
    • 跳过起始数据行数:如果启用,则跳过指定的有效数据行数。这对选择哪行作为列标题没有影响。
    • 限制数据返回行数:如果启用,则只读取指定数量的数据行。
  • 编码:若要读取包含不同编码的字符的文件,您可以选择此选项卡中的字符集。

读取Excel

功能:该积木节点读取Excel文件(xlsx、xlsm、xlsb和xls格式)。

积木功能

配置界面功能说明:

配置-设置

  • 数据来源设置
    • 本地文件系统:允许您从本地电脑系统中选择文件/文件夹。
  • 工作表设置
    • 读取默认工作表:将读入所选文件中包含数据的第一个表。包含数据意味着不为空。如果文件的所有表都为空,则读入空表。
    • 读取单个工作表:读取所选sheet页名称的工作表。如果读取多个文件,则显示第一个文件的工作表名称,如果其他任何文件不包含具有所选名称的工作表,则节点将失败。
    • 读取单个工作表(工作表索引从0开始):所选索引处的表将被读入。如果读取多个文件,如果其中任何一个文件在所选索引处不包含表,则节点将失败。索引从0开始,即第一个表的索引为0。可以选择的最大索引取决于第一个读文件中可用的表的数量。
    • 读取多个工作表:选择指定的sheet页名称的工作表,或者全选读取的Excel文件中所有的sheet页。
  • 表格头设置
    • 若无标题则使用ABC...替代:Excel列名,如A、B、C。列名是根据Excel中的列名生成的。
    • 若无标题则使用Col0,Col1,Col2...替代:使用列索引,例如Col0, Col1, Col2。列名是由带有“Col”前缀的列的索引生成的。
    • 设置标题所在行:如果勾选,则可以选择包含列名的行。第一行是1。在过滤空行或隐藏行或限制应该读取的区域时,文件内容视图有助于找到正确的行号。
    • 设置空列表名前缀:该前缀用于前面提到的选项中所选行包含缺失值的情况。根据Excel列名或列索引选项的选择,它将创建一个带有此前缀的列名。
  • 行号设置
    • 有序自增:行id从Row0、Row1等开始生成。
    • 使用数据已有列:可以选择包含行id的列。输入标签(“A”,“B”等)或列的编号(从1开始)。表中的rowid必须是唯一的,否则执行失败。
  • 工作表数据设置
    • 读取全部数据:表格中包含的所有数据都已读入。这包括放置图表、边界、着色等的区域,可以创建空行或空列。
    • 读取部分数据:只读取指定区域内的数据。开始和结束列/行都包含在内。对于列,输入它们的标签(“A”,“B”等)或数字(从1开始)。对于行,输入它们的数字(从1开始)。通过让一个字段为空,区域的开始或结束不受限制。
    • 自动处理合并单元格:对于有需要合并单元格的Excel数据,则勾选此选项。
  • 追加列
    • 追加“文件路径”列:勾选此选项,则执行结果增加一列文件所在路径的列。
    • 追加“文件名”列:勾选此选项,则执行结果增加一列文件名称的列。
    • 追加“工作表名”列:勾选此选项,则执行结果增加一列工作表名称的列。

转化:此选项卡将每一列显示为表中的一行,允许修改输出表的结构。它支持重新排序、筛选和重命名列。还可以更改列的类型。重新排序是通过拖放完成的。只需将一列拖到输出表中它应有的位置。在执行期间是否以及在哪里添加未知列是通过特殊行<任何未知新列>指定的。注意,如果选择新文件或文件夹,则对话框中的列位置将重置。

高级设置

  • 跳过空列:如果勾选此项,工作表的空列将被跳过,并且不会显示在输出中。
  • 跳过隐藏列:如果选中,工作表的隐藏列将被跳过,并且不显示在输出中。
  • 跳过空行:如果勾选此项,工作表的空行将被跳过,并且不显示在输出中。
  • 跳过隐藏行:如果勾选此项,工作表的隐藏行将被跳过,并且不显示在输出中。
  • 使用Excel15位精度:如果勾选此项,数字将以15位的精度读入,这与Excel显示数字时使用的精度相同。这将防止潜在的浮点问题。对于大多数数字,如果未选中此选项,则不会观察到任何差异。
  • 缺失的值替换空字符串:如果勾选,空字符串(即只有空格的字符串)将被替换为缺失的值。此选项还应用于计算结果为字符串的公式。
  • 重新评估公式:如果选中,公式将被重新计算并放入创建的表中,而不是使用缓存的值。当底层Apache POI库没有实现函数时,这可能会导致错误。
  • 表规范:如果启用,则只使用指定数量的输入行来分析文件(即确定列类型)。对于前n行代表整个文件的长文件,建议使用此选项。
  • 多文件选项:如果选中该选项,如果通过files in folder选项读取多个文件,并且不是所有文件都具有相同的表结构,即相同的列,则节点将失败。
  • “Path”列:如果选中该选项,节点将在输出表中附加一个具有所提供名称的路径列。此列包含每一行从哪个文件读取数据。如果使用提供的名称添加列导致与读表中的任何列发生名称冲突,则节点将失败。

加密:允许您通过Excel指定密码来解密已受密码保护的文件。

读取CSV

功能:该积木节点读取CSV格式文件数据。

积木功能

配置界面功能说明:

配置-设置

  • 数据来源设置
    • 本地文件系统:允许您从本地电脑系统中选择文件/文件夹。
  • 读取选项
    • 自动检测格式:通过按下此按钮,“列分隔符”、“行分隔符”、“引号字符”和“引号转义字符”将自动检测到,但不能保证检测到正确的值。 只考虑单个文件进行自动检测,也就是说,如果“文件夹中的文件”被选中,则只使用第一个文件。默认情况下,自动检测是基于所选文件的前1024 * 1024个字符,但可以通过单击该选项旁边的设置按钮进行调整。只有当读取的字符数包含一个完整的数据行时,该格式才能被检测到,自动检测将考虑最多20个数据行。假设数据行是分隔的行换行符。注意“跳过第一行”选项以及指定的“注释字符”将在猜测文件格式时使用。
    • 列分隔符:分隔列的字符串。使用'\t'作为制表符。可以自动检测。
    • 行分隔符:分隔行的字符串。可以自动检测。
    • 包裹符:引用字符,可以自动检测。
    • 逃逸符:引号转义字符,该字符用于在已加引号的值中转义引号。可以自动检测。
    • 注释符:表示行注释的字符。
    • 是否包含列名:如果第一行包含列名标题,勾选此选项。
    • 是否包含行号:如果第一列包含行id(不允许重复),勾选此选项。
    • 支持行末缺失字段:如果某些行可能比其他行短(用缺失值填充),勾选此选项。
    • 将文件序号追加至行号:如果要将依赖于源文件索引的前缀附加到行id,请勾选此选项。第一个文件的前缀是“File_0_”,第二个文件的前缀是“File_1_”,以此类推。如果单个文件中的行id是唯一的,但相同的行id出现在多个文件中,则此选项可用。
  • 追加列
    • 追加“文件路径”列:勾选此选项,则执行结果增加一列文件所在路径的列。
    • 追加“文件名”列:勾选此选项,则执行结果增加一列文件名称的列。

转化:此选项卡将每一列显示为表中的一行,允许修改输出表的结构。它支持重新排序、筛选和重命名列。还可以更改列的类型。重新排序是通过拖放完成的。只需将一列拖到输出表中它应有的位置。在执行期间是否以及在哪里添加未知列是通过特殊行<任何未知新列>指定的。

高级设置

  • 读取器内存限制:如果选中,每列的内存限制为1MB,以防止内存耗尽。取消选中此选项可禁用这些内存限制。
  • 最大列数:设置允许的列数(默认为8192列)以防止内存耗尽。如果列数超过设置的限制,节点将失败。
  • 包裹符选项:删除引号并修剪空白:引号将从值中删除,然后修剪任何前导/末尾的空白。保留引号:值的引号将被保留。注意:引号内不会做任何修饰。
  • 空字符串转为空值(Null):如果希望用缺失的值单元格替换带引号的空字符串,则勾选该选项。
  • 表结构:如果启用,则只使用指定数量的输入行来分析文件(即确定列类型)。对于长文件,建议使用此选项,其中第一个窄行代表整个文件。“跳过第一个数据行”选项对扫描没有影响。还要注意,这个选项和“限制数据行”选项是相互独立的,也就是说,如果“限制数据行”中的值小于这里指定的值,我们仍然会读取和这里指定的一样多的行。
  • 支持更改文件模式,即每个文件的表结构可以不一致:如果选中,阅读器将在执行时计算表规范。如果配置文件/文件夹的内容在执行之间发生变化,即列被添加/从文件中删除或它们的类型发生变化,则需要此行为。
  • 数值格式:允许指定用于解析数字的千位和十进制分隔符。千位分隔符用于整型、长型和双值解析,而十进制分隔符仅用于双值解析。注意,两者必须不同。虽然可以不指定千位分隔符,但必须始终提供十进制分隔符。
  • 多文件读取选型:如果选中该选项,如果通过“文件夹中的文件”选项读取多个文件,并且不是所有文件都具有相同的表结构,即相同的列,则节点将失败。
  • “来源文件”列:如果选中该选项,节点将在输出表中附加一个具有所提供名称的路径列。此列包含每一行从哪个文件读取数据。如果使用提供的名称添加列导致与读表中的任何列发生名称冲突,则节点将失败。

行限制

  • 跳过起始行数:如果启用,在解析开始之前,将跳过输入文件中指定的行数。使用此选项可以跳过不适合表结构的行(例如,多行注释)。
  • 跳过起始数据行数:如果启用,则跳过指定的有效数据行数。这对选择哪行作为列标题没有影响。
  • 限制数据返回行数:如果启用,则只读取指定数量的数据行。

编码:若要读取包含不同编码的字符的文件,您可以选择此选项卡中的字符集。

读取JSON

功能:该积木节点读取JSON格式文件数据。

积木功能

配置界面功能说明:

配置-设置

  • 数据来源设置
    • 本地文件系统:允许您从本地电脑系统中选择文件/文件夹。
  • 读取选项
    • 输出列名称:输出列的名称。
    • 选择部分JSON:如果选中,选择读取JSON的一部分。
    • 部分JSON:要从输入JSON中选择的部分。使用JSONPath最好只使用一个结果。(对于多个结果,将从它们创建新行。)
    • 解析不成功,则失败:如果选中,如果没有找到这样的部分,执行将失败。如果未选中且未找到,则结果将是一个空文件。
    • 允许在json文件中注释:选中后,//和行注释//,#被解释为注释并被忽略,而不报错。
  • 追加列
    • 追加“文件路径”列:勾选此选项,则执行结果增加一列文件所在路径的列。
    • 追加“文件名”列:勾选此选项,则执行结果增加一列文件名称的列。

行限制

  • 跳过指定数据行:如果启用,则跳过指定数量的有效数据行。
  • 限制数据行:如果启用,则只读取指定数量的数据行。

手工创建数据

功能:该积木节点可以手动创建数据表格。数据可以输入到类似Excel的表格中。

积木功能

配置界面功能说明:

配置-表创建设置

  • 列设置:可设置列名称和字段类型。
  • 行属性:使用它来更改所有行id的命名。行id由带有前缀和后缀的连续数字组成。除了前缀和后缀之外,还可以指定第一行的索引。

创建日期时间范围数据

功能:生成日期和时间值数据,即日期、时间、日期和时间(本地)或分区的日期和时间。

积木功能

功能:有三种创建数据模式:

  • 选择行数、一个起点和一个终点(将计算中间的步骤)。

  • 选择行数、一个起点和一个间隔(间隔定义每一行之间的步骤)。

  • 选择一个起点、一个终点和一个间隔(行数对应于开始和结束之间间隔的频率)。

连接FTP

功能:该节点配置将用于连接到远程主机的连接信息。可读取远程服务器FTP上的数据。

积木功能

配置界面功能说明:

配置-设置

  • 主机:填写远程FTP主机IP。
  • 端口:填写远程FTP端口。
  • 使用FTPS:FTPS是在安全套接层使用标准的FTP协议和指令的一种增强型FTP协议,为FTP协议和数据通道增加了SSL安全功能。
  • 用户名:填写连接远程FTP的用户名。
  • 密码:填写连接远程FTP的密码。
  • 匿名:无用户名密码选择此项。
  • 工作目录:选择远程FTP的工作目录。

读取Excel工作表名称

功能:该节点读取Excel文件,并在其输出端口提供包含的表名。

积木功能

配置界面功能说明:

配置-设置

  • 数据来源设置
    • 本地文件系统:允许您从本地电脑系统中选择文件/文件夹。
    • 相对于:允许您从当前工作空间选择文件/文件夹。

读取XML

功能:读取XML格式文档。XPath查询可以指定为只读取文件的一部分。此积木节点常与XML处理积木节点搭配使用。

积木功能

配置界面功能说明:

配置-设置

  • 输入位置
    • 本地文件系统:允许您从本地电脑系统中选择文件/文件夹。
    • 相对于:允许您从当前工作空间选择文件/文件夹。
  • 阅读选项
    • 输出列名:输出列的名称。
  • XML解析查询
    • 使用XML解析筛选器:只读取与该XPath查询匹配的文档节点。在单个数据单元中读取每个匹配节点。它支持有限的XPath语法。只能定义到节点的绝对路径。在XPath操作符中,支持|-Operator。例如,它可以用来读取单个单元格中XHTML文档的头部和正文:/dns:html/dns:head | /dns:html/dns:body
    • 如果找不到XML解析,则失败:如果选中,如果在任何文件中没有找到给定XPath的匹配项,则执行将失败。如果未选中且未找到,则结果将是一个空表。
  • 命名空间:XPath查询中使用的前缀和名称空间。对于XPath查询中的示例,必须定义以下命名空间:前缀:dns
    • 合并根元素的命名空间:如果选中,则在运行时将根元素的名称空间添加到Namespaces表中。
  • 追加列
    • 追加“文件路径”列:勾选此选项,则执行结果增加一列文件所在路径的列。
    • 追加“文件名”列:勾选此选项,则执行结果增加一列文件名称的列。

行限制

  • 跳过指定数据行:如果启用,则跳过指定数量的有效数据行。
  • 限制数据行:如果启用,则只读取指定数量的数据行。