
在当前的互联网商业化领域,数据实验的应用十分广泛。在日常工作中,设计师可以提供跟踪设计方案的实验数据,来验证对用户行为的推测是否准确,方案是否有效。也可以在讨论方案时,从历史实验数据中提取用户行为规律,作为设计决策的参考。系统掌握数据实验的基础知识,理解数据如何产生,有助于我们更理性地审视数据并识别潜在误导因素,提升从数据中所提取的信息的准确性和有效性,也可以帮助我们与数据、业务团队实现更高效同频的沟通。
本文将从 A/B 测试 这一常用实验方式出发,梳理实验基础知识,并探讨如何理性看待实验数据并从中提取设计经验,为后续设计决策提供支撑。
更多数据设计干货:
1. “显著”与 P 值
为什么我们在看 A/B 测试数据时不能只看提升了多少,还要关注数据是否“显著”?显著到底是什么意思呢?我们先来看一个故事:
统计学家费舍尔在某次下午茶歇中,碰到一位女士,她坚称“在制作奶茶时,先加茶再加奶,与先加奶再加茶的味道是不同的”。
为了确定这个女士是否真的能分辨出先加奶与先加茶所带来的味道差异,现场的人随即以 2 种顺序各泡了 4 杯奶茶(总共 8 杯)给这位女士辨认,而这位女士全部辨认出来了。
此时,费舍尔在想:即使这位女士是靠猜的,其实也有一定概率能全部蒙对。他利用统计学公式计算了靠随机猜全部猜对的概率,这个概率为 0.0143,是一个很小的概率,所以他选择了相信这个女士能够分辨得了奶茶的制作顺序。
在 A/B 测试中,当实验组相较对照组数据有所提升或下降,我们很难直接断定这个数据变化是由实验组与对照组之间的差异带来的,还是由样本实验自带的变异性所导致的偶然数据波动,此时就会使用类似《品茶女士》故事中的反证法,先假定“实验组与对照组的差异不会对数据产生影响”,并统计在这个前提下还能产生同等或更大幅度的指标变化的概率有多大,这个概率就是 P 值 (P-value),在上面的品茶故事中,P 值=0.014。
当 P 值很小,小于统计学中的显著性水平(α,一般取 0.05 或 0.01 ),我们会认为实验结果“显著”,即“实验组与对照组的差异”与实验结果无关的概率很小。
也就是 P 值越小,显著性越强,数据变化是由实验组引起的可能性就越大。
关于”显著“有两个常见理解误区需要关注:
- 显著性不等于重要性: 显著性表示数据变化大概率与实验组有关,而非数据提升的幅度很大。
- 不显著不等于无关: 数据不显著仅意味着当前没有足够的证据来证明数据变化与实验组有关。样本量不足或实验组带来的数据变化幅度过小,都可能导致结果不显著。
2. 实验的最小样本量
由于样本量过少时偶然事件对结果的影响更大,因此在进行 A/B 测试前,需要利用统计学公式(通常实验平台会提供计算工具)估算出实验所需的最小样本量。最小样本量主要受以下参数影响:
基线转化率
即当前版本(对照组)当前的转化表现,比如按钮当前点击率为 5%,5%就是基准转化率。一般基准转化率越极端高或极端低,所需样本量越多。
例如,我们想测试鱼饵B的转化率是否比鱼饵A高,此时:
- 当池塘里鱼非常少,用鱼饵 A 还是鱼饵 B 各尝试 100 次都只钓上来 1 次,这时候我们很难判断鱼饵 B 有没有用,需要大幅提升尝试次数来积累数据;
- 当池塘里鱼非常多,用鱼饵 A 还是鱼饵 B 各尝试 100 次都钓上来 99 次,这时候我们也很难判断鱼饵 B 有没有用,所以也需要大幅提升尝试次数来积累数据。
最小可检测效应(MDE,Minimum Detectable Effect)
即实验希望能检测到新方案带来的指标“最小变化幅度”,比如:希望点击率能从 5% 提升到 5.5%,那 MDE 就是 0.5%。一般 MDE 越小,所需样本越多。
继续使用钓鱼例子:
- 当我们认为鱼饵 B 相对于鱼饵 A,钓鱼的成功率能提升 50% 时,由于提升幅度很大,各垂钓 100 次就能大致看出是否有这么大的提升幅度。
- 当我们认为鱼饵B相对于鱼饵 A,钓鱼的成功率只能提升 1% 时,由于提升幅度很小,各垂钓 100 次后,即使发现鱼饵 B 多钓上来 1 条鱼,多出来的这条鱼也有可能纯粹是运气。我们只有大幅度提升尝试次数,才能确定 1% 的差异是否稳定地出现。
显著性水平(α)
如前文所述,显著性水平代表出现“指标变化与实验组无关,但我们却当成有关”的最大概率。统计学中显著性水平的常用值为 0.05 或 0.01。一般来说,显著性水平设置得越小,所需的样本量越大。 这里我们可以借用前文的《品茶女士》来理解:
假设 “品茶女士无法分辨茶的冲泡顺序,靠猜且猜中全部” 的概率为 P(即 P 值):
- 爱丽丝觉得只要 P 小于 0.05(显著性水平),她就愿意相信这位女士真的能够分辨茶的冲泡顺序。而此时已测试了 8 杯,P=1/70=0.0143,明显小于 0.05,她愿意相信这位女士是真的能分辨。
- 而莉莉是一个很谨慎的人,她觉得只有 P 小于 0.01(显著性水平)时她才愿意相信。为了给出一个让莉莉信服的结果,品茶女士又继续品尝并正确分辨了另外 8 杯茶,而 16 杯茶全靠猜并猜对的概率 P=1/12870=0.000078,远低于 0.01,此时莉莉终于心服口服。
也就是我们越谨慎(显著性水平设置的越小),就需要进行越多次的测试(更大的样本量),才能确定观察到的结果并非“运气”所致。
统计功效(Power)
统计功效(Power)指的是:如果实验组对指标真的有影响,能通过抽样实验发现到这个影响的概率。一般来说,越大的样本量可以提供越高的 Power 值。也就是实验样本量越大,意味着“实验组对指标有影响”能被准确识别出来的概率越高。
例如:鱼饵 B 的钓鱼成功率比鱼饵 A 高,但若只测试 50 次,可能刚好这 50 次碰到多数鱼都是对饵料的差异不敏感的品种,鱼饵 B 的优势无法被体现出来。而如果增加垂钓次数至 10000 次,此时“刚好碰到对饵料不敏感的鱼”这类干扰因素会在一定程度上被平均掉,鱼饵 B 的优势有更大的概率可以被体现。
3. 实验时长
实验开启后什么时候可以回收实验数据呢?一般需要满足以下几个条件:
覆盖了完整的用户行为周期
需要考虑用户是否存在周期性行为差异,比如电商,用户可能在周五晚至周日期间购物行为较频繁,此时如果我们要测某个方案对转化率的影响,则实验时长至少应为 7 天或 7 天的倍数,避免只测工作日或只测周末导致结论偏差。也需要考虑避开特殊时期的干扰,比如要验证间距对商品卡转化率的影响,但实验期间有大促,用户的消费行为可能会受大促影响导致存在偏差。
确认各组实验样本量都达标
这里我们需要注意最小样本量不直接等同于实验进组流量。在回收实验结果时我们也要考虑进组流量的有效曝光率。举个例子,某次我们在实验“不同的朋友评价展示样式对商品转化率的影响”时,观测到虽然进组流量很大,但几个实验组的指标均没有明显起伏,细拆发现是:朋友评价的展示准入门槛较高,导致数量较少,进而导致进组用户中能看到「朋友评价」的占比非常低。此时我们需要通过延长实验时长并合理调整评论准入门槛来继续增加样本量,才能更准确地观测实验指标。
统计结果趋于稳定
样本量达标后还需关注 p 值是否连续一段时间稳定低于或高于显著性水平 (0.05)没有突升突降,避免收到一个处于波动中的实验结论。
注意事项:应避免 Data Peeking 行为,即在实验过程中频繁查看实验指标,并在实验中期某个指标恰好显著时立即终止实验并下结论。这会导致结论的统计学有效性降低。就好比我们本来打算抛 1000 次硬币来确定正面和反面的概率,在抛了 100 次的时候出现了 70 次正面,我们就下结论说:抛硬币有 70% 的概率是正面。
即使实验跑满了周期、结果也提示显著,我们在解读数据时仍需保持警惕,避免被数据分析中的陷阱误导。
1. 对齐数据口径和颗粒度,减少误判
数据口径(Metric Definition)是数据分析的基石。设计师在早期实验方案设计与后期查看实验结果时,需要与产品经理和数据分析师对齐关键指标的口径,避免口径理解有偏差导致对实验结果的误判。
以商品推荐页为例,在验证“店铺名右侧箭头对商品下单转化的影响”时,如果“下单转化”的口径定义仅包含商品推荐页的成交数据,而不包含进店后产生的商品成交,则很有可能会使对照组的转化率比实际转化低,导致样式选用时误判。

除对齐数据口径外,我们还需考虑数据维度是否精准,是否需要进一步细拆,避免从笼统数据入手分析实验结果。
再次以商品推荐页为例,在调整底部商品卡区域并进行实验后,得到了商品推荐页转化率提升、但卡片点击率下降的结论。这一结论初步听下来有些反常,为什么页面中按钮变大用户却不点击了,而页面转化又提升了?

在对口径的过程中,我们发现结论中的点击率口径是指全屏大卡整体的点击率。故又与数据同学提需对页面中的各个点击区域进行点击率细拆。

通过细拆数据我们发现:实验组中整体点击率下降主要来源于「商品卡非按钮区」的点击率下降,而「按钮区」中 3 个按钮的点击率均有一定幅度提升。即:实验组的样式调整减少了用户点击商品卡区域进入商详的占比,提升了当前页面直接成交的占比。
2. 排除新奇效应与首因效应的干扰
当我们在对较大幅度的交互调整或创新样式进行实验时,实验可能不仅是在测试变化本身的影响,也在测试随之而来的固有人为偏见。这里需要注意的两个关键偏见是「新奇效应」与「首因效应」:
新奇效应(Novelty Effect)
新事物本身就能激发用户的初步兴趣和参与度,而这可能会暂时提升实验组的数据表现,如果测试时间不够长,就会导致结果过于乐观。例如,在页面中新增了一个入口 icon,icon 是一个不常见的图形,用户最开始可能会因为好奇心驱动去点击。
首因效应 (Primacy Effect)
基于“习惯的力量”,用户往往倾向于记住并偏爱他们之前接触到的界面或流程,此时如果对流程或样式进行改动,用户可能会本能地抗拒这种变化,而这可能会削弱实验组的数据表现。例如,对页面框架优化时调整了某个入口的位置,用户可能需要一段时间才能适应,在此之前点击率可能会受影响。
为了降低这两种偏见带来的数据影响,当我们在做一些较大幅度的交互调整或创新样式时,可以考虑:
延长实验周期
如将实验周期延长至 2 周及以上,并观察指标变化趋势是否趋于平稳。在实验方案准备推全时可以考虑再开启反转实验。
细分受众
分析新老用户群体的差异,比如在改动页面框架后页面整体转化下降,此时可以分层查看新、老用户的转化表现,如老用户的转化下降比整体转化下降幅度更大,则很可能是“老用户短期波动”掩盖了长期表现。
3. 关注分层数据,避免被辛普森悖论误导
在查看实验数据时,还需关注细分维度的数据,避免受辛普森悖论(Simpson's Paradox)误导,即整体数据结论与分层数据结论相反。
举个例子:假设我们在测试「新按钮样式是否有助于提升转化率」,此时整体实验数据呈现「对照组」转化率更高,而细分用户性别群却会发现:无论是男性用户还是女性用户,「实验组」的点击率都更高。

辛普森悖论出现的通常是由于忽略了潜在变量对实验的影响(如不同机型展示效果不同、不同性别选择倾向不同…),且潜在变量在两组样本中比例不均(对照组男女比 1:9,实验组男女比 2:3)。
足够大的样本量结合完善的随机策略可以一定程度上降低 A/B 测试结论中出现悖论的概率,但无法彻底避免。故在一些受众较广或明确存在用户分层的场景,设计师在查看实验数据时不能只看整体数据,也需关注不同维度划分后的数据情况,如:新用户&老用户、iOS 端&安卓端、不同年龄层、不同会员等级、不同流量来源……
1. 关注数据背后而非数据本身
在回收实验数据时,我们不能仅将重点放在数据是否显著提升上。A/B 测试可以帮助我们验证方案 A 与 B 中哪个对目标更有效,但是它无法告知我们是否存在一个更优的方案 C。一次实验的结束应该是下一次探索的开始,无论新方案被实验验证为有效或无效,我们都需结合用户场景分析与定性研究去理解数据背后的用户行为和心理动机,不断尝试打破既有边界去思考和探索新的方案。让数据成为设计决策的有效支撑,而不是束缚我们视野的工具。
2. 警惕数据驱动下的体验牺牲
实验方案即使在某项关键指标上表现“更好”,也不代表它是满足用户体验和长期业务发展的最佳方案。过度关注 A/B 测试中某个或某几个指标是否显著提升,可能导致我们忽略设计改动对用户生命周期价值、用户满意度、品牌口碑等长期指标的潜在负面影响。例如,带有“欺骗式引导”的设计可能在短期内提高转化率,但同时会损害用户信任和长期留存。此时的数据“好”只是短期片面现象。我们不仅需要关注目标指标的“显著提升”,更要关注背后是否存在难以直接用数据衡量的体验牺牲,避免忽视产品的长期健康发展。
在科学理性看待数据的前提下,如何提升转化是我们持续关注的问题。转化的关键在于“供需匹配”。以下是电商推荐场景中,根据“供需匹配”逻辑,如何提升转化的几点经验与思考:
1. 提高信息对用户需求的命中率
- 仅保留核心信息作为钩子:分发场景中每个单元可以透出的信息有限,应避免披露过多的细节信息、减低理解压力。例如,活动商品卡最为关键的是活动价,详细活动规则可以留给后续承接页。
- 设置合理的信息参考系:恰当的对比基准可以使用户对信息的感知更趋向正向收益,而非负面联想。例如,在评论基数较低的小众商品推荐页,仅为有评论积累的商品展示 “ N 人好评” 会优于全部商品外露评论数。
- 控制增量信息的密度与精准度:一个信息如果是多数商品都有的,其影响力就会被稀释。例如,我们在商品卡中引入关联的 KOL 信息时设定了严格的外露标准,避免此类信息密集出现,同时确保用户看到的都是熟悉的 KOL,以防止信息影响力被稀释。
2. 使更多的满足用户需求的信息能被看见
- 对稳定功能模块进行“瘦身” :对已经具备稳定用户需求与认知的基础模块,适当缩减其在页面中的篇幅占比及吸睛程度,并不会对转化带来负面影响。
- 保持稳定的信息结构:当重复单元较多时(如商品列表),保持稳定的基础信息结构有助于降低用户认知损耗,使用户将更多的注意力集中在商品本身,而非关注一直变化的样式。
- 根据匹配准确性灵活调整信息密度与广度:在匹配度较高的推荐场景,可适当降低内容数量并提高内容单位的信息量。反之,在匹配度较低的推荐场景,缩减内容单位信息量并提高内容个数的转化收益会更大。
理性地看待实验数据的价值与边界,持续积累提升转化的经验,我们才能不断从实验数据中提取出有效的信息,在数据的基础上不断探索新的可能性。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
MJ+SD智能设计
已累计诞生 772 位幸运星
发表评论 为下方 1 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓