腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法

日期: 栏目:文章分享 浏览:881 评论:0
DC数据通道,互联网技术,周期管理,增长黑客,指标体系,数据体系,数据驱动,用户分析,腾讯QQ大数据,轨迹数据

对于增长黑客(Growth Hacker),行业里有一个很清晰的定义就是数据驱动营销,以市场指导产品,通过技术化手段贯彻增长目标的人。所以这里有一个很核心的理念就是数据驱动营销和增长,这个也是数据团队的核心价值所在。经过多年的实战经验积累,我们沉淀了一套适用于自身业务的数据驱动方法,希望能够拿出来跟大家做个分享,欢迎大家关注。

1. 背景

近两年来,随着“增长黑客”的概念从大洋彼岸的硅谷传入国内,相关的理念和方法开始在互联网技术圈流行起来。2015年,《增长黑客》一书的出版和流行更是把“增长黑客”这个名词正式带入了大众的视野。“增长黑客”近年来兴起于美国互联网创业圈,指的是一种新型的职业或团队角色,主要是依靠技术和数据的力量来达成营销目标,而非传统意义上靠砸钱来获取用户的市场推广角色。因此,增长黑客有一个很重要的理念就是“数据驱动”,也就是通过对数据的分析挖掘来发现有价值的数据洞察,并推动线上的落地应用,再通过A/B test来不断的迭代优化,最后找到最有效的策略方案,帮助业务实现持续增长。

作为公司历史最悠久的数据团队之一,SNG数据中心早在2008年就开始建设专门的数据团队,9年来一直致力于大数据的分析和挖掘,通过数据来支持SNG业务的发展。在这个过程中,我们也积累了不少的理论方法和实战经验,希望能够拿出来跟大家做个分享。我们的分享计划分批展开,涉及的内容包括数据基础能力建设、大盘指标预测、用户增长分析、营收增长分析、产品优化分析等。后面我们会有相关系列文章陆续发出,这篇文章算是一篇开篇的综述,旨在让大家能够对我们的经验方法有个整体的了解。当然,数据涉及到的知识体系和领域太过庞大,我们的分享也只是冰山一角,希望能够给大家带来一些启发,欢迎大家关注。

2. 基础能力建设

问渠那得清如许,为有源头活水来。数据行当里面有一句老话叫做“Garbage in,garbage out(垃圾进,垃圾出)”,指的就是要从源头上确保数据的及时和准确,以保证上层的分析和挖掘能够得出正确的、有价值的结论。SNG的数据异构现象突出,业务上包含了即时通讯(QQ)、社交平台(QQ空间)、增值产品(QQ会员、黄钻等)、游戏(手Q游戏、空间页游)等庞杂的业务体系,而且个个都是海量的数据,不仅如此,随着公司组织架构的调整我们还经历过大范围的PC数据和移动端数据的整合,有大量的历史遗留问题要解决,复杂程度可想而知。这一节将为大家介绍我们为了管理和维护这么多纷繁复杂的业务数据是如何建设基础的数据能力的。

2.1 数据上报通道建设

对于大部分的数据挖掘工程师来说,对数据的理解和应用都是从数据仓库开始的,殊不知,用户在产品上的每一次操作行为要上报到数据仓库成为某个库表中的一行记录都要经过Agent部署、埋点、上报、转发、清洗、调度入库等多个步骤,每一个步骤都需要严格保证数据的一致和稳定。在数据量小、数据结构简单的情况下,这或许不是一件太难的事情,但是面对SNG海量异构的复杂数据环境,要保证好数据的一致、稳定、实时,绝不是一项容易的工作。为了更好的应对海量复杂的数据上报问题,早在2012年,我们就开始了新一代数据上报通道DataCollector(简称DC)的建设。经过4年多的持续迭代优化,DC现在每天要支持1P+大小,1万亿+记录条数的数据的稳定上报,为SNG的底层数据建设立下了汗马功劳。DC通道的架构可以参考图1:

腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法-第1张图片-Ceacer网络

图1:DC数据上报通道架构图

按照DC数据上报通道的架构,我们只需要六步即可完成一次新的数据上报:

第一步:安装及检查DCAgent版本

第二步:按照API文档进行数据上报埋点

第三步:创建新的数据接口

第四步:检查上报通道

第五步:查询流水数据

第六步:查看入库情况

2.2 数据体系建设

完善的数据上报通道的建设解决了数据来源的问题,但是海量的数据在上报到数据仓库的过程中以及上报之后如果没有科学有效的治理,后果将是灾难性的,就像洪水来袭时没有防洪工程,任由洪水泛滥一样恐怖。比如在日常的数据工作中,我们经常遇到这样的情况:数据库表没有说明文档,字段定义和统计逻辑不清晰,业务核心指标口径不统一,库表搜索难度大,等等。这些问题都是由于缺乏科学合理的元数据管理和数据体系导致的。SNG在多年的数据工作中也是深受这些问题的困扰。痛定思痛,我们通过规范数据上报、建立标准化接口、规范数据字典等一系列优化措施的执行,针对即时通讯、社交平台、包月增值等业务,沉淀了一套适合SNG业务特点的数据体系建设的方法。

以社交平台为例,我们总结了一套适用于社交产品用户写操作行为的数据体系如表1以及写操作维表如表2:

写操作时间 QQ号码 写操作来源 一级操作ID 二级操作ID 写操作次数
20170313 123456 1(PC) 5 822 5
20170313 123456 2(iOS) 5 823 10
20170313 123456 3(Android) 5 36 15

表1:社交平台写操作行为数据体系示例

 

一级操作ID 一级操作名 二级操作ID 二级操作名
5 UGC操作 822 原创
5 UGC操作 823 转发
5 UGC操作 36 评论回复

表2:社交平台写操作维表示例

该数据体系及维表体系建设起来之后,纵使业务变幻,万变不离其宗,有新的写操作功能特性发布之后,只需要按照约定好的数据体系进行埋点上报,同时在维表里添加新的写操作ID的映射关系,报表即可自动生成,不需要数据分析师再额外开发,可见一个科学的数据体系的重要性,可以大大减少人力成本,提升开发效率。

       2.3 指标体系建设

曾经听一个从鹅厂出去创业的同事讲过他自己亲身经历的一个创业故事。在他们的产品上线初期,公司最大的目标就是获取更多的安装用户。为了达成这个目标,他组建了一个庞大的线下团队在各个网点做地推,同时线上也在购买各种渠道和广告,进行品牌宣传。一段时间的运营下来,成效显著,安装用户数每天都在成倍甚至十几倍的增长。就在整个公司上下都在为安装用户数的大涨而欢呼雀跃的时候,他自己却陷入了极大的恐慌之中。因为他发现,在庞大的安装用户里,日均活跃用户数(DAU)非常少,也就是说公司花费了巨大的精力和成本获取来的用户,最终却没有在产品中留存下来。在接下来的时间里,他迅速调整了公司目标,开始以提升DAU为导向指导运营思路,最终成功的提高了用户的留存,DAU也随之改变了之前的颓势,开始稳步上涨。

同样的故事在硅谷也发生过。早在 Facebook 成立之前,美国社交网络的老大是MySpace。MySpace 历史久,用户多,还有东家加大金主新闻集团撑腰,从任何一个角度看都应该可以轻易碾压由几个大学辍学生创办的 Facebook,最终却输得一败涂地。其中的原因当然不只一个,但是有一个有趣的区别是:MySpace 公司运营的主要指标是注册“用户数”,而 Facebook 在 Mark 的指引下,在成立的早期就把“月活跃用户数”作为对外汇报和内部运营的主要指标。

相比之下,从“用户数”到“月活跃用户数”,看起来只是多了三个字,却确保了 Facebook 内部的任何决策都是指向真实持续的活跃用户增长。

这样的故事背后,其实考验的是一家公司或者一个产品的指标体系规划和建设能力。在“增长黑客”的理念当中,有一个“北极星指标(North Star Metric)”的概念,指的就是有一个唯一重要的的指标,像北极星一样挂在天空中,指引着全公司上上下下,向着同一个方向迈进。当然,不同的产品形态会有不同的北极星指标,平台产品关注的是活跃用户数、活跃留存率这类指标,营收产品关注的是付费用户数、付费渗透率等等。在不同的产品发展阶段,指标体系的规划也会有所不同。我们对不同的产品形态及产品发展阶段的指标体系进行多年的研究之后,针对产品从灰度上线到稳定期的各个阶段总结了一套适用于大多数产品的不同发展阶段的指标体系,如图3:

腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法-第2张图片-Ceacer网络

图3:产品各发展阶段的指标体系规划

3. 用户增长分析

前面介绍了我们在数据上报、数据体系、指标体系等方面做的基础建设工作。面对每天上报的1P+大小,1万亿+记录条数的海量数据,我们当然不会止步于报表开发层面,更加不会让这些有巨大价值的数据躺在仓库里面睡大觉。特别是在人口红利衰减,业务增长乏力的大环境下,如何从海量的数据中挖掘出对用户、对产品有价值的信息助力业务增长,成了我们数据团队每天都在思考的问题,这也是“增长黑客”的核心使命。在本节中,我将通过用户生命周期管理(CLM)和用户分群两个在数据精细化运营中经常用到的方法来介绍我们是如何通过数据来驱动业务增长的。

       3.1 用户生命周期管理(CLM)

任何一名产品运营人员,每天思考的无非是这三个哲学上的终极问题:用户是谁,用户从哪里来,用户要到哪里去。为了解决好这三个问题,用户生命周期管理(Customer Life-Cycle Management)方法应运而生。传统的用户生命周期管理基本上包含五个阶段:获取、提升、成熟、衰退、离网,用户在不同的生命周期阶段会有不同的诉求,产品运营上也会有不同的方案和侧重点:

腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法-第3张图片-Ceacer网络

图4:用户生命周期

这里有很多数据可以发挥巨大价值的地方,以新用户获取为例,通过对历史新进用户的特征进行分析和数据建模,我们能够建立一个预测用户转化概率的精准拉新模型,在推广资源有限的情况下,锁定高转化概率的潜在用户进行资源投放,大大提升投放效率。从我们实际应用的情况来看,通过模型筛选出来的潜在用户,在转化率上往往比通过人工经验判断筛选出来的用户有20%-60%的提升,比随机筛选出来的用户更是有成倍甚至几倍的提升。

我们对CLM方法的研究和应用,最早始于2012年,当时跟麦肯锡的驻场团队一起封闭开发,以新用户获取为切入点,整理了8亿用户的近千个特征字段,进行了详细的数据分析,近十轮的模型迭代,在多个渠道进行了200多次的活动投放试点,试验用户群+渠道+文案+活动形式的各种组合,期间还陆陆续续邀请了近百个QQ用户参加深度访谈调研,验证我们的数据结论,最终使得实验组的点击率比对照组的提升稳定在40%-110%以上。随后,我们又把在新用户获取项目中沉淀下来的经验和方法复用到了活跃用户流失预警以及流失用户拉回的运营活动中,效果都有了显著的提升,数据在增长分析中的价值得到了有利的验证。自此,整套的用户生命周期管理方法就此打磨成型。接下来,我们把这套方法先后在QQ会员游戏联运项目、空间页游项目、手Q游戏运营项目中进行了推广和复用,进一步放大了数据的价值。到今天,CLM的方法和理念已经渗透到了SNG的多个重要业务中,并且还在持续的探索和优化。以手Q游戏运营为例,我们每天都会通过QQ手游公众号投放数以亿计的精准拉新、拉付费、关怀等类型的CLM消息,并且能够自动采集数据进行效果监控,彻底改变了以前“产品经理提号码包需求->数据团队提包(排期)->产品经理上传号码包->投放->产品经理提效果统计监控需求->数据团队开发报表(排期)”的传统而又痛苦的模式,不仅大大提高了资源使用效率,也帮助业务大大减少了运营成本。

在推广CLM方法,拓展业务场景的同时,为了更好的服务业务,我们自身的能力建设也没有停下脚步,特征库、算法库、AB test工具等已经日趋完善和成熟,另外值得一提的是,我们近期上线的lookalike功能使得需求的响应速度又有了进一步的提升。以前业务有一个拉新的需求,需要先跟我们沟通需求,我们了解需求之后要经过数据准备、采样、模型训练/验证/部署等过程,这么一个过程下来,快则一两个星期,慢则一个月,模型才能上线使用,这个对于需求紧急、心情急迫的运营同学来说显然是不能忍的。现在,运营同学只需要上传一个种子用户号码包就可以通过lookalike功能进行人群扩散,返回跟种子用户相似的其他用户进行运营活动的投放,前后只需要一个小时左右,速度有了质的飞跃,当然这也得益于我们投入了很多精力进行基础特征库的建设。

       3.2 用户分群

CLM模型建立之后,我们可以通过模型找到更加精准的目标用户,但是为了把运营活动做的更加精细,我们还需要考虑这些问题:我们的目标用户的人群属性怎样?有什么行为特点和兴趣爱好?根据这些应该怎样设计运营活动。这就要用到用户分群了。用户分群从语义上理解就是对用户群进行细分,不同的用户群有不同的特征,好的分群能够帮助业务充分认识群体用户的差异化特征,从而找到正确的营销机会、运营方向。所以在数据分析行业里,有一句老话叫做“不细分,毋宁死”,讲的就是这个道理。既然用户分群这么重要,那我们要怎么做呢?用户分群常见的维度包括以下几个:

1.    统计指标:年龄,性别,地域

2.    付费状态:免费,试用,付费用户

3.    购买历史:未付费用户,一次付费用户,多次付费用户

4.    访问位置:用户使用产品的区域位置

5.    使用频率:用户使用产品的频率

6.    使用深度:轻度,中度,重度用户

7.    广告点击:用户点击了广告 vs 未点击广告

在维度少的情况下,用户分群是很好做的,比如年龄维度,我们经常会按照人生不同的生命阶段进行划分,再比如活跃维度,我们可以划分成低活跃、中活跃、高活跃用户群体。但是当维度增加到几十个甚至几百个维度时,人脑就完全处理不过来了,这个时候无监督聚类的方法就派上用场啦。举个例子,我们采集了以下10几个维度的数据,需要对用户进行分群。

腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法-第4张图片-Ceacer网络

图5:用户特征维度

就算经验再丰富的运营同学,面对这十几个复杂的数据维度,相信也很难对用户群进行准确的划分。而我们借助无监督聚类分析的方法,可以很快的把用户分成以下几类:

腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法-第5张图片-Ceacer网络

图6:用户无监督聚类结果

当然这里的结果都是数值信息,还不能直接指导运营方向和思路。但是结合业务理解对数据进行提炼和解读,我们很容易将数据转化成人可以理解的用户分群:

聚类1特征:年龄未知或低龄,好友少,活跃度和使用粘性都极低【低端低龄群体】

聚类2特征:年龄偏小,前台在线和消息活跃均比较高【学生活跃群体】

聚类3特征:平均27岁左右,PC端和手机端活跃度均非常高  【职场高粘性群体】

聚类4特征:平均28岁左右,前台在线和消息活跃都极低【职场低粘性群体】

聚类5特征:年龄较高,手机在线时长高,但消息沟通极少   【高龄低活跃群体】

当运营同学拿到这样一个科学、可理解的用户分群结果时,就可以针对不同用户群体的特征设计符合该群体特点和需求的文案、道具和活动形式。运营活动也必将取得事半功倍的效果。

4. 总结

正如文章开头所说,数据涉及到的知识体系和领域太过庞大,这里的介绍只是冰山一角,海量的数据中蕴含着丰富的金矿还等着我们去开采。回顾这些年的数据工作,我们在数据类型上,从结构化的用户行为数据挖到LBS轨迹数据,从关系链的图数据挖到文本数据,在系统架构上,我们也在不断完善和优化我们的数据系统及架构,为业务提供更好的数据服务。我们一直相信,通过数据驱动来帮助业务增长是数据团队最大的使命和价值,我们会在这条道路上持续探索,不忘初心,砥砺前行。

来源:腾讯QQ大数据 

更多阅读:

  • 腾讯QQ大数据:BI方法论-数据体系建设之路
  • 腾讯QQ大数据:产品指标体系如何搭建
  • 腾讯QQ大数据:从用户行为去理解内容-item2vec及其应用
  • 腾讯QQ大数据:机器学习建模问题中的特征构造方法
  • 腾讯QQ大数据:手Q游戏中心的个性化推荐实战
  • 腾讯QQ大数据:逻辑回归如何用于新用户识别与触达
  • 腾讯QQ大数据:相关推荐之反浩克装甲
  • 腾讯QQ大数据:Quicksilver快数据处理系统
  • 腾讯QQ大数据:神盾推荐——MAB算法应用总结
  • 腾讯QQ大数据:一种海量社交短文本的热点话题发现方法
  • 腾讯QQ大数据:视频打标签算法探讨
  • 腾讯QQ大数据:神盾推荐系统的超大规模参数学习探究
  • 腾讯QQ大数据:用户增长分析——用户分群分析
  • 用户增长分析——用户分群分析
  • 大数据下的用户分析

2021-06-01 17:06:58

标签: