实战干货|实验多样本少，那该如何是好

实战干货|实验多样本少|实验多样本少，那该如何是好

在之前有关实验设计的文章中，我们简单提到过正交分层，它的作用在于将有限的用户数或流量，同时用于多个实验中而互不干扰。理想情况下，正交分层体系中的每一层，就像是一个“平行宇宙”，可以各自进行独立的实验。在正交分层的体系里，一个用户很可能是同时被多个实验命中的。既然这样，如何能做到实验间没有互相干扰呢？

正交分层如何实现“平行宇宙”

图片来自网络

AB实验中的随机分组通过性能较好的哈希算法，将用户ID进行特殊转换处理，确保分组时尽可能做到随机。可以理解成对我们每个人的手机号做一些复杂处理，避免直接按照尾号分组时，出现尾号8用户群和尾号4用户群之间的样本有偏差。

随机分组是发生在每一个分层中的，而正交分层是指层与层之间需要保证正交性，有现成的检验方法，感兴趣的同学可以自行查找，此处先不做赘述。借助一系列正交哈希算法（目前较多采用正交表算法），我们可以保证任意两层之间的实验独立性。

如上图，假设我们选择同一个用户群体，任意取到若干正交分层中的两层：分别记为第N层和第N+1层。我们决定对第N层进行AB实验，即将该层的用户随机分为A、B两组；同时我们再对第N+1层进行AB实验，记为A1、B1两组。两组实验覆盖到的人群是一样的，我们下发不同的策略。正交分层能够做到第N层中的A组用户，在第N+1层随机分散到A1和B1两个组。当我们在分析第N+1层实验效果时，可以认为A1组和B1组所受到来自第N层策略的影响是相同的。因此，在分析A1、B1两组间的效果差异时，可以将来自其他层的影响忽略不计。

通过正交分层，我们可以做到样本量有限时，依然可以同时进行多组实验，这有助于我们更快速找到有效的策略。因此，正交分层也成为了成熟实验平台的标配。然而，并不是满足了正交分层，我们就可以认为可以无视不同层间的策略干扰，下面我们详细介绍。

正交分层存在局限性

正交分层若想保证策略间“无干扰”，还需要一个前提：不同层间策略的相关性需要尽可能低。先举个例子说明策略相关性。
比如，常见的给用户发红包的策略，假定策略1是每人发0.5元，策略2是每人发1.0元。这两个策略都是发红包，是高度相关的（本质上是同一类），其效果会产生干扰。试想，如果我们实验时分别取一层来下发策略1，另一层与之正交，下发策略2。由第一部分的解释，策略2将会均匀的影响到策略1的实验组和对照组。就这个例子看，因为策略2下发的金额较高，效果大概率会好于策略1，所以当分析策略1效果时，很可能发现其实验组相比对照组没有提升，得到“发钱无效“的实验结论。其原因是策略1（弱策略）的实验组和对照组均匀的受到了策略2（强策略）的影响，而策略2覆盖掉了策略1的效果。
策略相关性难以准确量化，可以通过策略种类、参数是否会出现增强、削弱、替代等，来判断策略是否会存在相互影响。上面是一个典型的强策略覆盖弱策略的例子，它会让弱策略看起来是无效的。可见正交分层有其明显的局限性，即便是使用了正交分层，依然无法避免相关策略间的干扰。

下面再举一些常见的、需要注意的场景：

头条、抖音信息流，针对某特征设置不同权重的推荐算法实验。如果使用正交分层，权重较高的策略效果很可能覆盖权重较低的策略，得到低权重策略无效的结论在百度搜索结果页中，用户点击会调起百度，这是一种常见的拉活方式（如下图）。对不同调起方式（例如点击百度知道、点击贴吧调起）做效果分析时，二者可能存在干扰。比如说，百度知道能够覆盖的关键词和问题更多，极有可能每一位搜索用户每天都会被它调起1次，而贴吧覆盖的搜索query相对少，使用正交分层去做这个实验（一层是点击知道调起，另一层是点击贴吧调起），很有可能会得到“通过贴吧调起百度App是无效的”这种结论

类似的情形，你还碰到哪些？

实验分析需要基于实验场景制定针对性的分析方法，更需要选择对正确的实验方式。当需要验证这种相关策略的差异时，建议使用同一层来进行分组，对每个组进行策略互斥的实验。

这是尾巴

没错，这就是实验三部曲之3，主要供有一些实验经验、或者对实验感兴趣的同学了解。因为内容略生硬，我又把它分成了上、下两部分，这一篇是上，下一篇是《容易被忽视的样本比率偏差（SRM）》，明天同时段发出~
《实验三部曲》并不能覆盖增长实验中的很多细节，我们不尽于此，后续继续用这种小篇幅的文章来做单点突破。欢迎对用户增长实验感兴趣的你，留言分享你认为实验分析中容易被忽视的坑，一周后我会给点赞最高（截至4月29日18点）的留言主送去一份神秘礼物。

转发是最大的打赏，在看的你最好看~

转载请注明：电商实战教程 » 实战干货|实验多样本少，那该如何是好

喜欢 (0)

电商实战教程 _淘宝开店教程_抖音开店_直播电商教程_拼多多运营知识

实战干货|实验多样本少，那该如何是好

文章评论已关闭！