机器学习重要术语词汇表

# 精确度 Accuracy

在分类中，准确性是正确分类的项数目除以测试集内的项总数。范围从 0（最不准确）到 1（最准确）。准确性是模型性能的评估指标之一。将其与 Precision、Recall 和 F-score 结合考虑。

# 曲线下面积 (AUC)

二元分类的一项评估指标，即曲线下面积值，它绘制真阳性率（y 轴）与误报率（x 轴）进行对照。范围从 0.5（最差）到 1（最佳）。也称为 ROC 曲线下面积。

# 二元分类

一个分类任务，其中标签仅为两个类中的一个。

# 校准

校准是将原始分数映射到类成员身份的过程，用于二元和多类分类。

# 分类

当使用这些数据来预测某一类别，有监督学习任务被称为“分类”。二分类指的是仅预测两个类别（例如，将图像划分为“猫”或“狗”图片）。多分类指的是预测多个类别（例如，当将图像划分为特定品种狗的图片）。

# 决定系数

回归中的一项评估指标，表明数据与模型的匹配程度。范围从 0 到 1。值 0 表示数据是随机的，否则就无法与模型相匹配。 1 表示模型与数据完全匹配。这通常称 r 平方值。

# 特征工程

特征工程是涉及定义一组特征和开发软件以从可用现象数据中生成特征向量（即特征提取）的过程。

# F-score

分类的一项评估指标，用于平衡 Precision 和 Recall

# 超参数

机器学习算法的参数。示例包括在决策林中学习的树的数量，或者梯度下降算法中的步长。在对模型进行定型之前，先设置超参数的值，并控制查找预测函数参数的过程，例如，决策树中的比较点或线性回归模型中的权重。

# Label

使用机器学习模型进行预测的元素。例如，狗的品种或将来的股票价格。

# 对数损失

在分类中，描述分类器准确性的评估指标。对数损失越小，分类器越准确。

# 损失函数

损失函数是指训练标签值与模型所做预测之间的差异。通过最小化损失函数来估算模型参数。

可以为不同的训练程序配置不同的损失函数。

# 平均绝对误差 (MAE)

回归中的一项评估指标，即所有模型误差的平均值，其中模型误差是预测标签值和正确标签值之间的差距。

# 多类分类

一种分类任务，其中标签为三个或三个以上类中的一个。

# N 元语法

文本数据的特征提取方案：N 个单词的任何序列都将转变为特征值

# 标准化

标准化是将浮点数据缩放到 0 到 1 之间的值的过程。

# 管道

要将模型与数据集相匹配所需的所有操作。管道由数据导入、转换、特征化和学习步骤组成。对管道进行定型后，它会转变为模型。

# Precision

在分类中，Precision 是正确预测为属于该类的项目的数量，除以预测为属于该类的项目的总数。

# Recall

在分类中，Recall 是正确预测为属于该类的项目的数量，除以实际属于该类的项目的总数。

# 正则化

正则化会对过于复杂的线性模型进行惩罚。正则化有两种类型：

L1 正则化将无意义特征的权重归零。进行这种正则化之后，所保存模型的大小可能会变小。
L2 正则化将无意义特征的权重范围最小化。这是一种更通用的过程，并且对离群值不太敏感。

# 回归

有监督学习任务，其中输出是一个实际值，例如，双精度值。示例包括预测股票价格。

# 相对绝对误差

回归中的一项评估指标，即所有绝对误差总和除以正确标签值和所有正确标签值的平均值之间的差值总和。

# 相对平方误差

回归中的一项评估指标，即所有绝对平方误差总和除以正确标签值和所有正确标签值的平均值之间的平方差值总和。

# 均方误差根 (RMSE)

误差平方平均值的平方根。