如何使用Amazon Machine Learning构建机器学习预测模型

发布网友发布时间：2022-04-08 07:03

共2个回答

热心网友时间：2022-04-08 08:32

　　本月上旬，AWS宣布推出亚马逊机器学习服务(Amazon Machine Learning)，声称这项新的AWS服务来自于亚马逊内部的数据科学家用于创建机器学习模型的技术，可以帮助你使用你所收集到的所有数据来提高你决策的质量。你可以使用大量数据来建立并微调预测模型，然后大规模使用亚马逊机器学习进行预测(在批处理模式下或者在实时模式下)。即使没有统计学高级文凭或者对于建立、运行、维护你自己的处理和存储基础架构不熟悉，你也能从机器学习中受益。AWS首席布道者Jeff Barr撰写了一篇博文，一步一步地介绍了如何使用亚马逊机器学习服务构建预测模型。

　　机器学习基础

　　为了从机器学习中受益，你需要有一些可以用于训练的现有数据。把训练数据想象成数据库或电子表格的行是有一定帮助的。每一行代表一个单独的数据元素(一个购买，一次发货，或者一个目录项)。列表示该元素的属性：客户邮政编码，购买价格，信用卡类型，项目的大小，等等。

　　该训练数据必须包含实际结果的例子。例如，用行代表完成的交易，不论是合法还是欺诈，每一行必须包含一列作为目标变量来表示结果。这个数据是用来创建一个机器学习模型，当给拟议中的交易提交新数据时将返回有关其有效性的预测。亚马逊机器学习支持三种不同类型的预测：二元分类，多类分类和回归分析。让我们来看看每一个：

　　二元分类用于预测两种可能的结果中的一个。这是合法的交易吗?客户将购买此产品吗?送货地址是公寓大楼吗?

　　多类分类用于预测三个或更多可能的结果中的一个，以及每一个的可能性。这件产品是关于服装的一本书，一部电影，还是一篇文章?这部电影是喜剧片，纪录片，还是惊悚片?哪一类产品让这个客户最感兴趣呢?

　　回归分析被用于预测一个数字。库存应放置多少27寸显示器?我们应该为此花费多少钱呢?其中有百分之多少有可能作为礼品出售?

　　一个适当培训和调整过的模型可以用来回答上述问题之一。在某些情况下，使用相同的训练数据来建立两个或两个以上的模型是合适的。

　　你应该计划着花费一些时间来丰富你的数据，以确保它能很好的匹配你的训练过程。举个简单的例子，你可能会以基于邮政编码的位置数据开始。经过一番分析，你很可能发现你可以使用包含或大或小的分辨率不同的位置表示来提高结果的质量。机器学习的训练过程是反复的，你需要明确的计划来花一些时间了解和评估你最初的结果，然后用它们来充实你的数据。

　　你可以利用提供给你的一组性能指标来衡量你的每个模型的质量。例如，曲线下面积(AUC)标准显示了二元分类的性能。这是在0.0到1.0范围内的一个浮点值，它表示了模型每隔多久在没训练过的数据上预测结果。随着模型质量的上升，数值从0.5上升到1.0。0.5的值不比随机猜测要好，而0.9在大多数情况下是一个很好地模型数据。但是0.9999的数值太过于好而让人难以相信，并且这个值可能意味着训练数据出现了问题。

　　当你建立你的二进制预测模型时，你将需要花一些时间观察结果并且调整截止值。它代表该预测是正确的概率;在特定情况下，你可以根据假阳性(预测应该是假的，但被预测为真)和假阴性(预测应该是真实的，但被预测为假)的相对重要性将值调整高或者低。如果你正在为电子邮件建设一个垃圾邮件过滤器，假阴性会将垃圾邮件投递到你的收件箱中，而假阳性会将你的合法邮件丢弃到垃圾文件夹中。在这种情况下，假阳性是不理想的。假阳性和假阴性之间的权衡是要依赖于你的业务问题以及你打算如何在生产中利用该模型。

　　亚马逊机器学习实操

　　利用AWS Machine Leaning API，开发人员能够在Amazon RDS中创建新的模型，利用来自Amazon S3、Amazon Redshift或者MySQL数据库中的数据。让我们漫步在创建一个模型的过程中，并且按照亚马逊机器学习开发人员教程部分中描述的步骤来产生一些预测。你可以注册亚马逊机器学习，然后如果你愿意的话你可以按照向导中的步骤来使用。该指南使用一个略有增强的副本，该副本是来自加州大学欧文分校的机器学习库的可公开获得的营销银行的数据集。我们即将完成的模型将回答“用户将要订阅我们的新产品吗?”

热心网友时间：2022-04-08 09:50

　　为了从机器学习中受益，你需要有一些可以用于训练的现有数据。把训练数据想象成数据库或电子表格的行是有一定帮助的。每一行代表一个单独的数据元素(一个购买，一次发货，或者一个目录项)。列表示该元素的属性：客户邮政编码，购买价格，信用卡类型，项目的大小，等等。

　　该训练数据必须包含实际结果的例子。例如，用行代表完成的交易，不论是合法还是欺诈，每一行必须包含一列作为目标变量来表示结果。这个数据是用来创建一个机器学习模型，当给拟议中的交易提交新数据时将返回有关其有效性的预测。亚马逊机器学习支持三种不同类型的预测：二元分类，多类分类和回归分析。
详情：http://www.csdn.net/article/2015-04-21/2824528