跳转至

3.24、空值处理

功能模块如图所示:

积木功能

空值处理

功能:该节点有助于处理在输入表单元格中找到的缺失值。

  • 名词解释:PMML,预言模型标记语言(Predictive Model Markup Language,PMML)是一种利用XML描述和存储数据挖掘模型的标准语言,它依托XML本身特有的数据分层思想和应用模式,实现了数据挖掘中模型的可移植性。

积木功能

配置界面功能说明:

配置-默认:默界面显输入表中所有字段的字段类型,根据默认所列的字段类型对列做对应处理。

配置-列设置:对于在“默认”选项中没有明确提及的所有列。可在“列设置”选项卡中为每个可用的列单独设置。选择需要处理的列或列的列表,单击“添加”,并设置参数。要删除某个列,请单击该列的“移除”按钮。用星号(*)标记的选项将导致非标准PMML。

选择处理方式说明:选择并配置用于数据类型或列的缺失值处理程序。没有产生有效PMML 4.2的处理程序用星号(*)标记。

  • 上一个值:此缺失值处理程序用其配置的列中上一个遇到的非缺失值替换缺失值。
  • 下一个值:此缺失值处理程序用其配置的列中下一个遇到的非缺失值替换缺失值。
  • 中位数:查找列的中位数,并用它替换所有缺失值。
  • 固定值:用给出的字符串替换缺失值。
  • 平均值:计算列中所有非缺失单元格的平均值,并用该平均值替换缺失值。
  • 平均插值:此缺失值处理程序将缺失值替换为其配置的列中上一个和下一个未缺失值的平均值。
  • 最大值:查找列的最大值,并用它替换所有缺失值。
  • 最小值:查找列的最小值,并用它替换所有缺失值。
  • 最频繁值:计算列中最频繁的值,并用它替换缺失的值。
  • 移动平均值:计算单元格前平均值和单元格后平均值给出的窗口内所有值的平均值,并用该平均值替换缺失值。
  • 移除行:此缺失值处理程序删除已配置的列中具有缺失值的行。
  • 线性插值:该缺失值处理程序使用其配置的列中之前和下一个非缺失值之间的线性插值来替换缺失值。
  • 舍入平均值:计算列中所有非缺失单元格的平均值,并用该平均值替换缺失值。