跳转至

5.7、贝叶斯

功能模块如图所示:

积木功能

朴素贝叶斯训练

功能:该节点根据给定的训练数据创建一个贝叶斯模型。它为名义属性计算每个类的每个属性值的行数,为数值属性计算高斯分布。该模型可用于朴素贝叶斯预测器中,用于预测未分类数据的隶属度。如果由于不支持的数据类型而忽略了任何列,则节点将显示警告消息。

积木功能

配置界面功能说明:

配置-选项:

  • 分类列(字符串):选择分类列。
  • 默认概率:给定属性/类值对的默认概率为零。如果不进行调整,0的概率将对该概率作为一个因素出现的可能性行使绝对否决权。因此,贝叶斯模型包含了一个默认概率参数,它指定了一个默认(通常非常小)的概率来代替给定属性/类值对的零概率。
  • 最小标准偏差:指定用于没有足够(多样化)数据的观察的最小标准偏差。取值至少为1e-10。
  • 阈值标准偏差:指定标准偏差的阈值。必须为正数。如果不满足此阈值,则使用最小标准偏差值。
  • 每个属性的最大唯一标称值数:在学习过程中,所有唯一值大于定义数的标称列都将被跳过。
  • 忽略缺失值:默认情况下,节点使用缺失值信息来改进预测结果。因为PMML标准不支持这个选项并且忽略缺失的值,如果选择了PMML兼容性选项并且忽略缺失的值,那么这个选项将被禁用。
  • 创建PMML4.2兼容模式:选择此选项可创建符合PMML 4.2标准的模型。PMML 4.2标准忽略缺失值,不支持位向量。因此,如果选择此选项,则在学习和预测过程中忽略位向量列和缺失值。

朴素贝叶斯预测

功能:根据学习的模型预测每行的类。类概率是每个属性的概率和类属性本身的概率的乘积。标称值的概率是给定值的类值出现的次数除以该类值总出现的次数。数值的概率是通过假设每个属性的正态分布来计算的。

积木功能

配置界面功能说明:

配置-选项:

  • 更改预测列名:可以更改预测列的名称。
  • 添加具有规范化类分布的列:如果选中,则为每个类实例追加一列,其中包含该行成为该类成员的规范化概率。