一文带你读懂特征工程
发布网友
发布时间:2022-04-22 16:28
我来回答
共1个回答
热心网友
时间:2023-09-20 20:42
无论它的规模和大小如何,数据已经成为现代企业、公司和组织的一流资产。任何一个智能系统都需要数据驱动,无论它多复杂。每个智能系统的核心,均有一个或多个基于某种数据学习方法的算法,例如机器学习、深度学习或统计方法,它们利用这些数据来生成知识,并在一段时间内提供智能洞察。
算法本身是非常通用的,但无法在普通原始数据上有效发挥作用。因此,需要从原始数据中提取有意义的特征,我们才能够理解和使用这些数据。
任何一个智能数据洞察系统基本上都由端到端的管道组成:
先是获取原始数据; 然后利用数据处理技术,从这些数据中获取、处理和提取有意义的特征和属性; 最后,通常利用统计模型或机器学习模型等技术对这些特征进行建模。
如果有必要的话,还需要根据手头要解决的问题部署该模型以供将来使用。
获取原始数据后,直接在数据之上构建模型是鲁莽的,因为我们无法从普通原始数据中获得想要的结果或性能,而且算法本身也不会自动从中提取有意义的特征。在上图中指出的数据准备方面,在对原始数据进行必要的清洗、预处理分析之后,便可以采用多种方法从中提取有意义的属性或特征。特征工程是一门艺术,也是一门科学,这也是为什么数据科学家在建模之前通常会把70%的时间花在数据准备上。
“特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的准确性。”
-Jason Brownlee博士
这让我们深入了解了为什么特征工程是一个将数据转化成作为机器学习模型输入的特征的过程,换句话说,高质量的特征有助于提高模型整体的性能和准确性。特征在很大程度上与基本问题相关联。
因此,即使机器学习任务在不同的场景中可能是相同的,比如将物联网事件分类为正常和异常行为,或者将客户情绪分类,但每个场景中提取的特征都会有很大的不同。
什么是特征?
特征通常是建立在原始数据之上的特定表示,它是一个单独的可测量属性,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。
因此,就像上图中的例子一样,每行通常表示一个特征向量,所有观察到的全部特征集形成一个二维特征矩阵,也称为特征集。这类似于用来表示二维数据的数据框或电子表格。机器学习算法通常与这些数值矩阵或张量一起工作,因此绝大多数特征工程技术都是将原始数据转换为一些数值表达,以便算法理解。
基于数据集的特征可以分为两大类:
固有的原始特征是直接从数据集获得的,没有额外的数据操作。 派生特征通常是从特征工程中获得的,是从现有的数据属性中提取出来的特征。
举一个简单的例子:通过将当前日期减去订单日期,可以从包含“订单日期”的订单数据集中创建一个新的“订单履行日期”。另一方面,在特定的深度学习算法中,特征通常比较简单,因为算法本身会内部转化数据。这种方法需要的数据量会比较大,并以牺牲解释性为代价。然而,在图像处理或自然语言处理用例中,这样的折中方法往往是值得的。
对于公司面临的大多数其他用例,例如预测分析,特征工程是将数据转换成机器学习所需要的格式。特征的选择对模型的解释性和性能都至关重要。如果没有特征工程,今天的大公司就无法部署精确的机器学习系统。
特征工程
数值数据通常以标量值的形式描述观测、记录或测量数据。在这里,我们所说的数值数据是指连续数据,而不是通常用来表示分类数据的离散数据。数值数据也可以是向量值,其中向量中的每个值或实体都可以表示一个特定的特征。整数和浮点数是连续数值数据中最常见和最广泛使用的数值数据类型。
即使数值数据可以直接输入机器学习模型,在构建模型之前,仍然需要设计与场景、问题和领域相关的特征。因此,对特性工程的需求仍然存在。
8000字干货,1篇带你读懂适老化设计
解决策略包括使用大字体、高对比度、语音提示,以及简化操作流程,提供语音输入和人工客服支持等,确保他们的使用体验。实例分析中国联通、携程、优酷等应用的适老化设计,展现了改进空间,如语音播报的交互设计和功能定位等。最后,适老化设计是一个系统工程,需要多方共同努力,设计师需要具备同理心,企业需...
【千锋测试】三分钟带你读懂面向对象的三大特征:封装,继承,多态_百度知...
继承编程中的继承类似于生活中的继承,子类可以继承父类的属性和方法。类与类之间的关系就像孩子继承父母的特征。在Python中,有两种继承模式:单继承(一个子类只能有一个父类)和多继承(一个子类可以有多个父类)。子类能访问所有父类的特性,当遇到同名属性时,遵循就近原则。多态多态是指不同的对...
一文带你读懂线性分类器
在二分类问题中,线性分类器使用一组特征预测两个可能的类别。预测结果通过逻辑回归算法计算,该算法将特征的线性组合转化为概率值。逻辑函数(sigmoid函数)将线性模型的输出转换为概率值,从而将概率值与特定类别联系起来。为了度量线性分类器的性能,文章详细介绍了准确度、混淆矩阵、精确度和灵敏度等指标。
一文带你读懂物联网
物联网的技术特征有以下几点: RFID 本身是一种简单的无线系统,由询问器和应答器组成,具有唯一的编码,附在实体上。这样我们可以随时掌握物体的位置及周遭环境,对目标物体进行跟踪。 是一种以机器对机器进行智能交互为核心的、网络化的应用与服务,使对象实现智能化控制。基于云计算、大数据、人工智能等平台和互联网...
五分钟带你读懂UML类图
另外,你会注意到 合成关系的连线两端还有一个数字'1' 和数字‘2', 这被称为基数。表明这一端的类可以有几个实例, 很显然,一个鸟应该有两只翅膀。 如果一个类可能有无数个实例,则就用‘n'来表示 。关联关系、聚合关系也可以有基数的。动物几大特征,比如有新陈代谢,能繁殖。
一文教你如何读懂日本钢铁牌号
为了更直观地理解,一张详细的图表或图片将帮助你快速掌握这些复杂信息,直观展示每个牌号的特征和应用。通过视觉辅助,你可以更深入地理解SPHC、SPHD和SPCE的含义,以及它们在实际工程中的应用。了解日本钢材牌号,如同掌握了打开钢材世界大门的钥匙。希望这些信息能帮助你更好地选择和使用日本钢材,提升你的...
【论文笔记】AIRL与MA-AIRL(1.5)(一文带你读懂IRL的前世今生)
GCL(Guided Cost Learning)正是基于这一理念,通过集成样本为基础的MaxEnt IRL方法,提出了一种在未知动态环境下学习策略和成本函数的综合框架,有效地解决了复杂控制问题。综上所述,逆强化学习领域经历了从理论到实践的演化,从早期的特征匹配方法到引入最大熵原则解决奖励函数的不确定性,再到深度学习...
一文带你读懂热点“铜死亡”!
铜死亡的关键特征之一是在线粒体呼吸链中三羧酸循环(TCA循环)中脂酰化组分的异常寡聚化,以及Fe-S簇蛋白水平的降低。FDX1作为铜死亡的上游调节因子,通过将Cu2+还原为Cu+,促使脱氢脂酰转乙酰酶(DLAT)脂酰化,同时降低铜硫簇蛋白水平,从而引发细胞死亡。铜死亡与多种疾病,如乳腺癌、肺癌、神经...
2024年高考作文题出炉 这些题目你读懂了吗
写一篇文章。要求:①自选角度,自拟标题; ②文体不限(诗歌除外),文体特征明显;③不少于800字; ④不得抄袭,不得套作。上海卷 写作(70分)生活中,人们常用认可度判别事物,区分高下。请写一篇文章,谈谈你对“认可度”的认识和思考。要求:(1)自拟题目;(2)不少于800字。
读懂这4个what,你就读懂了创维电视高端化战略
文:刘步尘 导读:酷开系统2019年9月—2021年8月两年间的数据显示:创维电视人均开机次数增长27.47%,总开机次数增长59.67%;人均启用电视时长增长91.67%,总启用时长增长139.57%。数据从侧面折射出一个事实:经历了近10年的低迷期之后,电视正在重新回归人们的主流生活。 9月23日,创维在北京召开主题为“致敬真实”的秋季新...