超全汇总!机器学习常用术语词汇表——下篇(建议收藏)

发布网友发布时间：2024-10-04 03:20

共1个回答

热心网友时间：2024-10-06 12:33

对于刚接触 TensorFlow 的新手，这篇由 Google 出品的机器学习术语词汇表是入门绝佳资源。续接上篇，我们将从 N 开始，详细介绍基本术语和 TensorFlow 专用术语，帮助你快速熟悉基础内容，开启机器学习之旅。遇到模型中的 NaN（非数字）问题，它可能导致数据链式失效。

在二元分类中，正类别与负类别有明确区分，如医学中的“肿瘤”和电子邮件分类中的“垃圾邮件”。神经网络由多层构成，每个神经元处理非线性关系。

神经网络节点接收输入并通过激活函数计算输出，激活函数是非线性转换。标准化或缩放是将值区间转换为标准范围，如将 800 到 6000 范围调整到 -1 到 +1。

特征通常以数值数据表示，如房屋面积。邮政编码这类整数数据需谨慎处理，不能简单视为数值，应作为分类数据。数值特征也称为连续特征。

Pandas 是一种数据分析工具，常用于机器学习框架中。优化算法的目标是优化某个指标，如在离线推断中生成预测并存储。

神经网络的输出层负责提供最终答案，而过拟合可能导致模型过于依赖训练数据。TensorFlow 中的 Estimator 是预创建的模型组件，如 DNNClassifier。

在训练模型前，需要先设定先验信念，比如 L2 正则化的假设。队列数据结构在 TensorFlow 中由 Queue 操作实现，通常用于 I/O。

模型的复杂度通过正则化进行控制，如 L2 正则化。精确率评估模型正确预测正类别的能力，而召回率衡量模型找出所有正类别的能力。

Softmax 函数用于多类别分类，它提供每个类别的概率分布。图像分类中，算法需保持旋转不变性，即使方向变化也能正确识别。

在模型训练过程中，保存和恢复模型的常见格式是 SavedModel，它支持跨语言操作。TensorFlow Checkpoint 用于存储模型状态。

特征工程中的缩放是指调整特征值范围，使之与其他特征一致。半监督学习利用无标签数据辅助模型训练，尤其在数据标注成本高时很有价值。

时间序列数据中的不变性包括平移不变性和大小不变性。在机器学习中，稀疏特征包含大量零值，如搜索查询中的词频。

模型训练是监督学习的核心，通过有标签数据学习规律。而无标签样本在非监督学习中用于聚类分析，如 PCA 分析购物数据中的关联性。

超参数调整通常使用验证集，与训练集和测试集区分。模型权重代表特征的重要性，宽度模型与深度模型在结构上有明显区别。

以上是机器学习术语词汇表的全面概述，继续学习将帮助你更好地理解和应用这些概念。欲了解更多详细信息，可访问相关资源。