跳转至

5.9、逻辑回归

功能模块如图所示:

积木功能

逻辑回归训练

功能:执行多项逻辑回归。在对话框中选择目标列(顶部的组合框),即响应。

积木功能

配置界面功能说明:

配置-选项:

  • 目标列(字符串):选择目标列。只允许带有名义数据的列。如果目标列的域不可用,则引用类别为空。在这种情况下,节点在计算逻辑回归模型之前确定域值,并选择最后一个域值作为目标参考类别。
  • 参考类别:参考类别是指概率为1减去所有其他概率之和的类别。在有两个类的情况下这类通常是你不想显式地对概率建模的类。
  • 使用目标列域的顺序:默认情况下,目标域值在输出中按字典顺序排序,但是您可以通过选中复选框来强制保留目标列域的顺序。注:如果在下拉列表中选择了目标参考列,则该复选框将对模型的系数没有影响,除非输出表示形式(例如,系数表中的行顺序)可能会发生变化。
  • 求解器:选择要使用的求解器。迭代重加权最小二乘或随机平均梯度。
  • 功能选择:指定应该包含在回归模型中的独立列。数字和名义数据可以包括在内。
  • 使用列域中的数据:默认情况下,标称值列的域值(类别)是按字典顺序排序的,但您可以检查是否使用了列域的顺序。请注:在创建虚拟变量时,第一个类别被用作参考。

配置-高级设置:

  • 求解器选项
    • 延迟执行计算:如果选中,延迟执行。即只有在当前样本中确实存在相应的特征时,系数才会更新。通常比正常版本更快,特别是对于稀疏数据(即对于大多数行大多数值为零的数据)。目前只有SAG求解器支持。
    • 计算系数统计:如果选中,该节点将计算系数的标准误差、z-score和P>|z|值。注意,在高斯先验的情况下,这些都受到正则化的影响。如果模型是在许多特性上学习的,那么计算这些统计信息是昂贵的,并且可能负责节点运行时的很大一部分。
  • 终止条件
    • 最大周期数:可以指定要执行的最大学习周期数。这是要遍历整个表的次数。这个值在很大程度上决定了学习所需的时间。
    • 科学计数法:此值用于确定模型是否聚合。如果所有系数的相对变化都小于,则停止训练。
  • 学习率/步长
    • 学习率策略:该策略为优化过程提供了学习率。只对SAG求解器重要。
    • 步长:在固定学习率策略的情况下使用的步长(学习率)。
  • 调整
    • 权重:系数的权重分布。
    • 方差:权重分布的方差。较大的方差对应较少的正则化。
  • 数据处理
    • 将数据保存在内存中:如果选择,数据将被读入内部数据结构,从而导致极大的速度提高。如果您有足够的可用内存,特别是如果您使用SAG求解器,则强烈建议使用此选项,因为它们的处理速度高度依赖于对单个样本的随机访问。
    • 块大小:如果数据不完全保存在内存中,则节点将数据块读入内存以模拟SAG求解器的随机访问。该参数指定这些块应该有多大。
    • 使用种子:检查是否要使用静态种子。如果您使用SAG求解器,建议获得可重复的结果。
    • 种子:静态种子使用。点击“随机”按钮生成一个新的种子。

逻辑回归预测

功能:使用逻辑回归模型预测响应。该节点需要连接到逻辑回归训练节点模型和一些测试数据。只有当测试数据包含训练模型使用的列时,它才可执行。该节点将一个新列追加到包含每行预测的输入表中。

积木功能

配置界面功能说明:

配置-设置:

  • 预测列:选择目标列。可自定义预测列名称。
  • 概率列:追加的列数等于目标列的类别数。它们表示输入数据中的一行属于特定类别的概率。