大数据正在引领一场营销变革

发布网友发布时间：2022-04-23 16:19

共2个回答

懂视网时间：2022-05-06 11:59

这是之前发布于《程序员》杂志2011年08期的一篇文章，这里再在Blog上发布一下。在当前这个信息量飞速增长的时代，一个企业，尤其是电子商务企业的成功已经越来越多地与其海量数据处理能力相关联。高效、迅速地从海量数据中挖掘出潜在价值并转化为决策依据的

这是之前发布于《程序员》杂志2011年08期的一篇文章，这里再在Blog上发布一下。

在当前这个信息量飞速增长的时代，一个企业，尤其是电子商务企业的成功已经越来越多地与其海量数据处理能力相关联。高效、迅速地从海量数据中挖掘出潜在价值并转化为决策依据的能力，将成为企业的核心竞争力。

数据的重要性毋庸置疑，但随着数据的产生速度越来越快，数据量越来越大，数据处理技术的挑战自然也越来越大。如何从海量数据中挖掘出价值所在，分析出深层含义，进而转化为可操作的信息，已经成为各互联网企业尤其是电子商务公司不得不研究的课题。本文将介绍国内箱包行业电子商务领军者麦包包如何利用海量数据的分析处理（个性化推荐引擎）来协助用户更好地完成购买体验。

图1 数据层基础架构

数据层基础架构

如图1所示，麦包包的数据层基础架构与其他很多互联网公司相比，可能会有一点儿差异，那就是有一个用于实时分析处理的在线分析数据层，用来处理一些对实时性要求较高的分析任务。
总的来说，麦包包的数据层分为下面三个部分。

在线交易数据层

用于存放网站对外访问数据，如交易相关、产品相关、用户相关等数据。

离线分析数据层

用于分析各种报表、数据挖掘，如购买行为、销售分析、浏览跟踪等。

在线分析数据层

用于处理一些对实时性要求较高的分析，如在线交易分析、用户浏览推荐等。在线交易数据层和离线分析数据层对于大家来说都已经比较熟悉了，二者的数据特点和访问特点都很清晰明确，架构方向也相对明确。只有在线分析系统比较特别，既有高并发的用户访问，同时又兼具了分析型复杂查询及海量的基础数据，构建起来相对要复杂一些。所以下面简单介绍一下麦包包如何构建在线分析系统的应用之一——“个性化推荐引擎”。

个性化推荐引擎

我们首先分析一下这个推荐引擎的需求。

关联个性化

根据用户的喜好倾向以及访问历史记录，不同用户浏览同一个产品时，将给出不同的关联推荐结果。

页面个性化

不同用户访问同一个页面，我们将会根据用户的以往购买历史及浏览行为而展示个性化的内容。

搜索个性化

随着用户的多次搜索及结果点击行为，我们会对搜索结果进行过滤重组，尽可能展示更符合用户需求的搜索结果。也就是说，在完全相同的基础数据中，不同用户在同一时间搜索同一个关键词，可能会给出不一样的结果；或者同一个用户重复多次搜索同一个关键词，也可能会有不一样的结果。

我们再来看一看推荐引擎的数据特点。

海量

超过500万会员，5位数的SKU，7位数的访问量。将这些数据与会员及SKU的各类属性相互关联，数据量之庞大可想而知。

多维度

从性能优化角度来说，数据量大并不可怕，只要访问方式简单，很容易通过索引等手段进行优化。可偏偏不幸的是，由于将用户和产品进行多维度关联，既需要根据用户去分析，又需要根据产品去关联，再辅以运行时的各类属性；既可能各个维度同时存在，也可能只有任何一个维度；多维度就多维度吧，可还有很多访问是分析型，比较难以优化扩展。

访问高并发

当然，数据量大也并不一定就可怕，如果并发访问较小，响应时间要求不是太高，那也容易解决，可以用Hadoop之类的分布式系统来分析计算。可恰恰不巧的就是这个系统面对的是网站上的访问客户，对并发及响应时间的要求和OLTP系统一样。

需求已经确定，数据特点也已了解，下一步就是根据数据的特点，设计一个切实可行的架构来实现这些应用需求了。

在如此海量数据中进行高并发的复杂分析查询，还要能够快速响应，看上去就像是一个不可能的任务。但仔细分析之后，我们不难发现，推荐引擎结果主要由以下几个因素决定。

用户固定属性：年龄、性别、职业类型、地域、价格承受范围、色彩喜好、品牌喜好等。

产品固定属性：品牌、类别、材质、价格、色系等。

用户以往行为：浏览历史、购买历史等。

用户当前行为：当前点击、浏览等。

以上四个因素实际上对应了四种数据，在分析每一种数据的特点之后，可以发现前面三个因素所对应的数据都是相对静态的，只有用户当前行为才是一个在不断变化的动态数据。也就是说，在海量数据中，只有少部分数据是动态的，其他大部分都是静态。
当然，用户属性中的各种喜好，也需要我们通过用户以往的历史购买以及浏览行为进行各种分析挖掘才能获得，但这都是由历史积淀数据分析得来，而不是由当前的运行时动态数据决定。价格承受范围以及地域特性也同样如此。

数据的这一特性对我们的架构设计起到了一个非常关键的作用，因为我们可以使用完全不同的方式来将静态数据和动态数据分开处理，再合并分析。静态数据的变化较小，实时性要求较低，我们将进行离线分析；动态数据相对较少，但实时性要求较高，我们在线实时处理。动、静数据在线合并分析。这样一来，我们就可以很轻松地绕过海量数据的高并发在线分析的问题，将这一动作交由离线分析系统定时作业批量完成，既不会有高并发问题，又不存在响应时间的压力。至于在线实时数据的处理，由于数据量的大幅缩减，以及访问方式的简化，比在线交易的OLTP系统复杂度高不了太多，自然也就容易优化了。

图2 推荐引擎基本架构

架构设计

简单来说，推荐引擎系统本身的基础架构就如图2所展现的一样，一部分数据进行离线计算，另一部分数据在线计算合并，最终通过推荐引擎API将数据处理后返回给前端应用。

看上去简单，但有几个问题并没有展现出来，那就是离线计算和在线计算这两部分具体是如何构建的？数据如何进入离线计算系统？又如何将离线运算结果回送至在线计算系统中？最终数据又如何交由前端应用使用？让我们再来看看图3。

离线分析层完全可以通过成熟的产品来构建，如Greenplum、Hadoop等，目前我们已经使用了Greeplum，后续很快还会引入Hadoop，通过HBase + Hive来对处理我们的用户与各SKU的关系数据，帮助进一步完善我们的协同过滤算法，进而优化推荐引擎。在线合并分析层我们选择MySQL数据库。可能有些人会问，为什么不使用当前如此流行的NoSQL产品呢？主要原因有以下两点。

MySQL更便于维护与备份等运维需求。

NoSQL不满足我们的一些分析型查询需求。

NoSQL产品虽然流行，但每种产品都还只适于某些特定的应用场景，很多听上去完美的理论目前暂时还仅仅只是听上去完美，实际用起来仍然存在各种各样的问题。所以我们选择了更适合于我们的MySQL作为在线合并分析层的数据库。

图3 推荐引擎整体架构

整个架构的数据流，如图3所示。

前端应用产生用户的浏览日志、购买日志、搜索日志以及用户及产品属性数据进入。

通过文件日志收集程序以及基于MySQL开放复制协议所定制的数据同步工具（注：在我的个人网站上有介绍：http://isky000.com/database/mysql-replication-extend）将数据同步至离线分析系统中。

通过离线任务的统计分析，得出会员的各种喜好属性，并将之与产品属性进行关联分析，得出一个用户产品倾向性关联结果，然后再通过应用程序定期从离线分析系统将上述分析结果写入在线合并分析数据库中。

推荐引擎根据前端应用（如Search）传入的用户当前运行时操作属性，与在线合并分析数据库中属性进行合并（Merge），再过滤（Filter）。

前端应用从推荐引擎处获取Merge与Filter之后的数据，再在前端页面上完成展现。

热心网友时间：2022-05-06 09:07

大数据正在引领一场营销变革
短短十数年，大数据、物联网、云存储、移动互联从趋势成为主流，商业生态早已迈过无数个可能，进入了今天飞速发展的快车道。大数据产业已渐趋成熟，亟待被各行各业所运用。小米数据产品总监刘洋在易观智库学术沙龙交流会上表示，随着大数据概念越来越清晰，运用产品类型的形式在数据当中应用将会越来越多。
大数据规模日趋庞大
所谓的大数据技术，就是从各种类型的数据中，采用新处理模式快速获得有价值的信息，从而实现深度理解、敏锐发现与精准决策。随着互联网+影响力的不断深入，人们的生产和生活方式发生了极大的改变。新一代信息技术与经济社会各领域的深度融合，引发了数据量的爆发式增长，使得数据资源成为国家重要的战略资源和核心创新要素。
据统计，全球所掌握的数据，每18个月就会翻倍。到2020年，全球的数据量将达到40ZB，其中我国所掌握的数据将占20%。
利用大数据分析，能够总结经验、发现规律、预测趋势、辅助决策，充分释放和利用海量数据资源中蕴含的巨大价值。大数据冲击传统市场，渗入更多的企业成为趋势。
据了解，2015年全球大数据产业规模达到了1403亿美元。预计到2020年，这一数据将达到10270亿美元。其中，2020年中国大数据产业规模或达13626亿元。
百分点产品市场总监、中关村(000931,股吧)大数据交易产业联盟副秘书长张涵诚向《中国产经新闻》等媒体表示，从卖产品转变为卖服务，服从管理转为创造客户价值，互联网核心思维是数据思维，是大数据冲击传统市场的三方面表现。
同时，随着数据资源的开放及使用逐步深入，应用创新成了大数据发展的主要驱动力。目前就传统的企业而言，已经将数据分析、数据资源作为一种新的业务，且投入程度可能强于传统的业务。
据相关数据分析显示，到2020年，中国大数据产业细分市场规模中，应用层规模占比将达到40%，衍生层规模占比达18.5%。
另外，按照行业来划分，未来大数据应用预计将以*和金融为主，预计2020年*和金融大数据应用或将占60%，随后是工业以及电力应用。
大数据是一种技术，一种思维的创新，也是数据本身价值的发掘。大数据时代，很多企业已经以数据化运营来驱动企业重大战略决策和业务发展，获得了卓越的成绩，成为行业里数据化运营的领先者。
刘洋在会上解说了数据驱动的两种模式，即分析决策和应用产品。其中分析决策包括战略分析、竞争分析以及商业分析。他表示，市面上大部分企业在做商业分析之前往往忽略了先做战略分析和竞争分析。
而所谓产品应用，刘洋表示，是与产品相关的数据，把这类数据包装成行业的内容或者是服务，提供给用户。
不仅如此，利用产品跟用户建立关系，利用数据发现规律从而驱动产品创新，也是一个非常好大数据的应用。张涵诚认为，这将能够实时了解用户需求，并及时对服务做出迎合客户群的调整，以赢得更大的市场占比。
电商平台没有评论，意味着转化率的降低、客单的下降。个性化的推荐，需要一个推荐引擎了解消费者的偏好、行为习惯，帮助他推荐一款产品。利用大数据可以洞察消费者的建议，对产品的看法，通过迅速做反馈，可以创造更大的营销。
大数据基因植入传统企业，还会使一些企业成为平台型的企业。张涵诚表示，有了数据以后，企业可以无限地延伸，采购大量的数据可以跟供应商更多做集成。例如，生产数据服务将会有更多的订单，销售渠道数据将同行商品放在平台上卖。
完善大数据体系建设
对制造业企业而言，大数据技术的战略意义不仅在于掌握庞大的数据信息，更在于对数据的“加工能力”——对大量的数据进行专业化的处理，使之转化成为对企业有用的信息。
虽然，很多企业已经意识到以数据驱动企业决策的价值，但是在“淘金”大数据过程中，仍然对思维架构、方式方法有些模糊不清。尤其是当企业IT部门面对瞬息万变的业务要求，面对TB/PB级的海量大数据的实时分析，面对*度复杂的数据分析时，常常束手无策。
数据处理的成本非常高，业务发展多元化的时候发现经常遇到一个问题就是数据不准。就目前行业发展情况来看，基本上大规模的公司相对多一些，小的开发者可能越来越艰难。在中大型的开发者越来越多的情况下，发现用户的需求已经脱离了原来老的模式，这就需要把自己的数据拿过来做分析，放到系统里面与CRM、销售系统、投放系统、运营系统做打通，做一个全盘分析。
“大数据分析分四个步骤，即数据应用、数据分析、数据存储和计算以及数据源。其中数据源主要是保证数据不脏。”刘洋说道。
大数据在业务中的分析流程大概分两种类型。一种是当我们有数据和数据分析系统时的监控，通过业务上线、数据的监控、异常数据的发现、异常状况处理的策略、业务改进，形成一个闭环模式。另一种是产品要上新的功能，通过业务上线、效果评估、改进策略、业务改进、效果评估来形成闭环模式。
而就大数据团队架构，分为分散式和中心式。相较于分散式大数据团队的高成本、灵活、难管理特点，中心式的大数据团队的特点则是低成本、易管理、低效率。
分散式的大数据团队，因为每个业务都比较庞大，业务与业务之间的耦合度较低，需要灵活、快速的数据支撑，大型的数据平台无法满足快速变化的业务要求，于是业务会自建平台和分析人员。
仅中心式的大数据团队而言，各个业务有一些区分度，但是区别不大，于是公司会采用统一的数据树立部门，对所有的业务进行数据分析的支撑。
目前，形形色色的大数据已然成为了各领域发展的新宠。伴随技术的发展，大数据正在引领一场营销变革。大数据的存在让营销者能更好地、更实时地对消费者画像并实现无限的消费者细分。大数据强大的分析、挖掘、整合能力让营销变得简单起来。