用户画像的设计和构建流程

针对APP埋点之后,你将不断收到各种各样的用户行为数据,为了更好的做用户运营,你需要把原始数据提取成“用户标签”,而用户标签化,即为用户画像的刻画。传统意义的用户画像,可以按生成方式,简单分为三类:

  • 基础属性:根据用户属性上报,直接提取,例如:年龄、性别、地域等人口属性
  • 统计属性:根据用户行为数据,聚类统计,基于一定的概率按时间因子衰减
  • 价值属性:根据多维度特征融合,算法预测,生成各种高潜用户属性,比如付费高潜、流失高潜,一般为概率模型

上述描述的用户画像又怎么生成呢?从数据处理角度看,可以分为三个过程:

  • 基础数据处理,ods层数据建设
  • 画像中间数据ETL,行为偏好数据提取
  • 画像信息宽表建设,用户画像结果数据

把上述步骤继续细化,我们可以得到:
1、用户标签体系设计,技术人员跟业务资深人员,根据业务特点设计用户标签分类,即根据精细化运营目的设计标签
2、埋点数据整理,设计好标签之后,数据开发跟前端开发一起设计埋点数据规范,只有数据埋点完备,用户行为才能完备
3、多源数据拉通,一般不同数据源需要有统一的用户id,比如统一为微信小程序的openid
4、数据融合 ,多种行为数据提取
5、基于规则的标签提取、生成
6、基于聚类分析结果的标签提取
7、基于算法的特征挖掘,画像建模提取
8、多标签合并,多个标签结果合并成统一的宽表
9、标签质量分析、监控,及时发现标签缺失,有效监控标签质量

最后,所有标签只是把用户逐步细化的过程,你还需要一个可以触达用户的系统,你还需要一批可以打动用户的营销策略。只有把用户细分,用合适的策略通过高效的触达渠道,才能达到精准运营的效果。

用户画像的设计和构建流程

聊一聊AB测试实验结果分析

从事互联网工作的同学,对“AB测试”概念一定不会陌生,如果你觉得陌生,建议换一家互联网公司看看。
AB测试流程上看,可简单分为三部:

  • 用户筛选
  • 实验策略
  • 结果分析

前两部有比较标准的实现流程。
用户筛选:比如账号随机、人群画像分层筛选的
实验策略:一般会涉及一个实验系统

前两步功能可能工程实践多一些,暂不讲述,今天讲讲——结果分析。

假设你对一个app首页做了一个瀑布流优化,你拿到实验组、控制组(参照组)的CTR数据,“假设检验”流程如下:

  • H0:实验组CTR<=参照组CTR
  • H1:假设不成立,实验有效
  • P值:0.05

我们可以得到实验组、参照组的均值方差,我们假定人数够多的情况下,是符合正态分布的,所以上述描述,可以转化为:
1、随机抽取足够大的两组用户,分别统计CTR,求差值:
ctr_diff = 实验组CTR - 参照组CTR
ctr_diff 显然是符合正态分布的

2、根据 ctr_diff,我们可以假设全局正态分布的均值0,方差=ctr_diff的方差
3、所以根据1、2,可以计算得到p值

p值小于0.05,你会选择上线新的瀑布流优化版本。流程上是OK的,但是可能存在问题。

1、CTR高是否核心业务贡献就高,比如停留时长呢?支付转换呢?
2、实验的时机,是否会出现人群偏差,比如寒暑假,自然学生人群占比可能多一点(年龄分布抽样可以解决部分问题)
3、老用户的守旧倾斜(不接受新的变化),是否对结果有“否定作用”

所以,你可能不能只选择CTR,首选,我们衡量的指标是多元化的,可以选择对业务KPI相关的核心指标进一步佐证。
多指标的操作流程是:

  • 每组假设检验
  • 每组验证p值

多组检验验证p值=0.05 是不合适的,容易产生type I error(阿尔法错误,“冒进”错误)
所以Bonferroni提出了一种Bonferroni校正方法(Bonferroni Method),即一种降低p值的再检验方法:

  • p值/指标数量

Bonferroni校正方法是一种较为严格的方法,如果能够拒绝原假设,那就放心上线吧。但是,宁愿错杀也不接受的,可能犯了type II error (贝塔错误,"保守"错误)
Holm 提出了一种改进方法,较为融合,也即改进p值的对比方法,可参考:Holm–Bonferroni_method

  • 最小的p值和p值/指标数量,第二小的p值和p值/(指标数量-1)比较,以此类推
聊一聊AB测试实验结果分析