超全汇总!机器学习常用术语词汇表——下篇(建议收藏)
发布网友
发布时间:2024-10-04 03:20
我来回答
共1个回答
热心网友
时间:2024-10-06 12:33
对于刚接触 TensorFlow 的新手,这篇由 Google 出品的机器学习术语词汇表是入门绝佳资源。续接上篇,我们将从 N 开始,详细介绍基本术语和 TensorFlow 专用术语,帮助你快速熟悉基础内容,开启机器学习之旅。遇到模型中的 NaN(非数字)问题,它可能导致数据链式失效。
在二元分类中,正类别与负类别有明确区分,如医学中的“肿瘤”和电子邮件分类中的“垃圾邮件”。神经网络由多层构成,每个神经元处理非线性关系。
神经网络节点接收输入并通过激活函数计算输出,激活函数是非线性转换。标准化或缩放是将值区间转换为标准范围,如将 800 到 6000 范围调整到 -1 到 +1。
特征通常以数值数据表示,如房屋面积。邮政编码这类整数数据需谨慎处理,不能简单视为数值,应作为分类数据。数值特征也称为连续特征。
Pandas 是一种数据分析工具,常用于机器学习框架中。优化算法的目标是优化某个指标,如在离线推断中生成预测并存储。
神经网络的输出层负责提供最终答案,而过拟合可能导致模型过于依赖训练数据。TensorFlow 中的 Estimator 是预创建的模型组件,如 DNNClassifier。
在训练模型前,需要先设定先验信念,比如 L2 正则化的假设。队列数据结构在 TensorFlow 中由 Queue 操作实现,通常用于 I/O。
模型的复杂度通过正则化进行控制,如 L2 正则化。精确率评估模型正确预测正类别的能力,而召回率衡量模型找出所有正类别的能力。
Softmax 函数用于多类别分类,它提供每个类别的概率分布。图像分类中,算法需保持旋转不变性,即使方向变化也能正确识别。
在模型训练过程中,保存和恢复模型的常见格式是 SavedModel,它支持跨语言操作。TensorFlow Checkpoint 用于存储模型状态。
特征工程中的缩放是指调整特征值范围,使之与其他特征一致。半监督学习利用无标签数据辅助模型训练,尤其在数据标注成本高时很有价值。
时间序列数据中的不变性包括平移不变性和大小不变性。在机器学习中,稀疏特征包含大量零值,如搜索查询中的词频。
模型训练是监督学习的核心,通过有标签数据学习规律。而无标签样本在非监督学习中用于聚类分析,如 PCA 分析购物数据中的关联性。
超参数调整通常使用验证集,与训练集和测试集区分。模型权重代表特征的重要性,宽度模型与深度模型在结构上有明显区别。
以上是机器学习术语词汇表的全面概述,继续学习将帮助你更好地理解和应用这些概念。欲了解更多详细信息,可访问相关资源。