问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何使用Amazon Machine Learning构建机器学习预测模型

发布网友 发布时间:2022-04-08 07:03

我来回答

2个回答

热心网友 时间:2022-04-08 08:32

  本月上旬,AWS宣布推出亚马逊机器学习服务(Amazon Machine Learning),声称这项新的AWS服务来自于亚马逊内部的数据科学家用于创建机器学习模型的技术,可以帮助你使用你所收集到的所有数据来提高你决策的质量。你可以使用大量数据来建立并微调预测模型,然后大规模使用亚马逊机器学习进行预测(在批处理模式下或者在实时模式下)。即使没有统计学高级文凭或者对于建立、运行、维护你自己的处理和存储基础架构不熟悉,你也能从机器学习中受益。AWS首席布道者Jeff Barr撰写了一篇博文,一步一步地介绍了如何使用亚马逊机器学习服务构建预测模型。

  机器学习基础

  为了从机器学习中受益,你需要有一些可以用于训练的现有数据。把训练数据想象成数据库或电子表格的行是有一定帮助的。每一行代表一个单独的数据元素(一个购买,一次发货,或者一个目录项)。列表示该元素的属性:客户邮政编码,购买价格,信用卡类型,项目的大小,等等。

  该训练数据必须包含实际结果的例子。例如,用行代表完成的交易,不论是合法还是欺诈,每一行必须包含一列作为目标变量来表示结果。这个数据是用来创建一个机器学习模型,当给拟议中的交易提交新数据时将返回有关其有效性的预测。亚马逊机器学习支持三种不同类型的预测:二元分类,多类分类和回归分析。让我们来看看每一个:

  二元分类用于预测两种可能的结果中的一个。这是合法的交易吗?客户将购买此产品吗?送货地址是公寓大楼吗?

  多类分类用于预测三个或更多可能的结果中的一个,以及每一个的可能性。这件产品是关于服装的一本书,一部电影,还是一篇文章?这部电影是喜剧片,纪录片,还是惊悚片?哪一类产品让这个客户最感兴趣呢?

  回归分析被用于预测一个数字。库存应放置多少27寸显示器?我们应该为此花费多少钱呢?其中有百分之多少有可能作为礼品出售?

  一个适当培训和调整过的模型可以用来回答上述问题之一。在某些情况下,使用相同的训练数据来建立两个或两个以上的模型是合适的。

  你应该计划着花费一些时间来丰富你的数据,以确保它能很好的匹配你的训练过程。举个简单的例子,你可能会以基于邮政编码的位置数据开始。经过一番分析,你很可能发现你可以使用包含或大或小的分辨率不同的位置表示来提高结果的质量。机器学习的训练过程是反复的,你需要明确的计划来花一些时间了解和评估你最初的结果,然后用它们来充实你的数据。

  你可以利用提供给你的一组性能指标来衡量你的每个模型的质量。例如,曲线下面积(AUC)标准显示了二元分类的性能。这是在0.0到1.0范围内的一个浮点值,它表示了模型每隔多久在没训练过的数据上预测结果。随着模型质量的上升,数值从0.5上升到1.0。0.5的值不比随机猜测要好,而0.9在大多数情况下是一个很好地模型数据。但是0.9999的数值太过于好而让人难以相信,并且这个值可能意味着训练数据出现了问题。

  当你建立你的二进制预测模型时,你将需要花一些时间观察结果并且调整截止值。它代表该预测是正确的概率;在特定情况下,你可以根据假阳性(预测应该是假的,但被预测为真)和假阴性(预测应该是真实的,但被预测为假)的相对重要性将值调整高或者低。如果你正在为电子邮件建设一个垃圾邮件过滤器,假阴性会将垃圾邮件投递到你的收件箱中,而假阳性会将你的合法邮件丢弃到垃圾文件夹中。在这种情况下,假阳性是不理想的。假阳性和假阴性之间的权衡是要依赖于你的业务问题以及你打算如何在生产中利用该模型。

  亚马逊机器学习实操

  利用AWS Machine Leaning API,开发人员能够在Amazon RDS中创建新的模型,利用来自Amazon S3、Amazon Redshift或者MySQL数据库中的数据。让我们漫步在创建一个模型的过程中,并且按照亚马逊机器学习开发人员教程部分中描述的步骤来产生一些预测。你可以注册亚马逊机器学习,然后如果你愿意的话你可以按照向导中的步骤来使用。该指南使用一个略有增强的副本,该副本是来自加州大学欧文分校的机器学习库的可公开获得的营销银行的数据集。我们即将完成的模型将回答“用户将要订阅我们的新产品吗?”

热心网友 时间:2022-04-08 09:50

  为了从机器学习中受益,你需要有一些可以用于训练的现有数据。把训练数据想象成数据库或电子表格的行是有一定帮助的。每一行代表一个单独的数据元素(一个购买,一次发货,或者一个目录项)。列表示该元素的属性:客户邮政编码,购买价格,信用卡类型,项目的大小,等等。

  该训练数据必须包含实际结果的例子。例如,用行代表完成的交易,不论是合法还是欺诈,每一行必须包含一列作为目标变量来表示结果。这个数据是用来创建一个机器学习模型,当给拟议中的交易提交新数据时将返回有关其有效性的预测。亚马逊机器学习支持三种不同类型的预测:二元分类,多类分类和回归分析。
详情:http://www.csdn.net/article/2015-04-21/2824528
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
苹果电脑电池充不进电苹果电脑充不进去电是怎么回事 苹果电脑不充电没反应苹果电脑充电指示灯不亮充不了电怎么办 狗狗更加忠诚护家、善解人意,养一只宠物陪伴自己,泰迪能长多大... 描写泰迪狗的外形和特点的句子 国外留学有用吗 花钱出国留学有用吗 !这叫什么号 百万医疗赔付后是否可以续保 前一年理赔过医疗险还能续保吗? 医疗住院险理赔后还能购买吗? 如何通过ABO血型判断亲缘关系 螳螂捕蝉,黄雀在后的意思 演员陈晓的新浪微博 高考时间是6月几号? 我哥哥姐姐的血型都是O型,我的可能是O型吗?跑完了 陈晓微博为什么没有关注赵丽颖 我会是什么样的血型啊? 今年中国大陆高考是什么时候? 陈晓的微博是多少啊 高考是几月份? A型和O型血的人,生出来的孩子是什么血型 为啥叫乘龙快婿 a血型与a血型生出什么血型 高考时间是多久? 陈晓的微博评论登上热搜,你认为陈晓是一个怎样的人? 我成长的故事 陈晓关注了赵丽颖的微博吗 此地无银三百两讲的是什么? 妈妈是B型血 女儿是O型血 爸爸该是什么血型啊 中国的高考时间是几月几号? 赵丽颖离婚,陈晓微博评论被挤爆!网友让他回去追赵丽颖,你觉得现实吗? 谁给我解释一下坐井观天 想要一份血型表 高考是什么时候开始的 高考时间什么时候改成6月份的? 哥哥姐姐血型是B型,弟弟应是什么血型 我是o型血,我妈妈是什么血型? 两人打架,第三人劝架,结果意外受伤,那么第三人的伤有谁承担责任? 高考各科的时间是多少? times会议如何预约 赵丽颖离婚后,网友给陈晓微博留言,陈妍希如何回应? 爸爸血型是0型,妈妈是B血型,孩子应该是什么血型 成长的故事(200字) 陈晓人气很高的原因有哪些? 如何通过会易通预约开会? 他是拥有两个妻子的老演员,66岁的他仍奔波赚钱养家,你知道他是谁吗... 如何做好会议预约管理? 寇世勋:娶两个老婆住楼上楼下从不吵架,儿女和睦,他却直言后悔,为何呢? 寇世勋的女儿照片 65岁老戏骨一生娶两位老婆,一位住楼上一位住楼下,他到底是谁?