名奢网 名表 最新资讯 查看内容

互联网算法和产品优化的几个反直觉现象

2023-3-25 13:45| 发布者: fuwanbiao| 查看: 135| 评论: 0

放大 缩小
简介:本文不触及任何细致的业务和形态,没有公开任何数据和需求维护的技术。互联网产品和算法的优化,是宽广程序员和产品经理的主要工作。但想精确权衡线上实验效果,历来都不简单。笔者将这些反直觉现象,总结成三个典型 ...

本文不触及任何细致的业务和形态,没有公开任何数据和需求维护的技术。


互联网产品和算法的优化,是宽广程序员和产品经理的主要工作。但想精确权衡线上实验效果,历来都不简单。笔者将这些反直觉现象,总结成三个典型案例予以讨论。但是它们的隐秘性一个比一个更大。


太长不看的,能够直接看精简版:


左手倒右手:多个入口挨个优化,此消彼长,一年到头大盘没变


只看点击率:用户完胜利能需求更多的操作,页面越来越复杂,却不自知


系统耦合:模型变差,但点击率效率是涨的。最后发现是系统间耦合破坏实验分层假定,流量散布发作了改动, 曝光PV比点击PV跌得更多


大部分人只对delta(增量)有感知。第一版从0开端,很难做AB实验,第一版做的太好了反而给后续的迭代拦路了,一定要做的足够快(cha),然后快速迭代,这样才干契合“互联网思想”。


下面是正文。


1. 左手倒右手


通常,一个功用有多个入口。流量好像沙漏,一层层地从上往下漏:


互联网算法和产品优化的几个反直觉现象


例如有四个入口, 当D入口的样式或算法改动,而用户对新样式很感兴味,就会到新入口D尝试。于是A,B, C 的流量转到了D,D点击率置信提升。 但是实验挂载的指标常常只需D入口,总量无置信变更,却又很难检测出其他入口流量的降落。


随着用户对新入口的新颖感逐步降低,实验变得不置信了,不外没关系,实验讲演早就写好了,推全了。 那下一次就是优化A了...最后结果是,忙活了一整年,发现整个大盘原地不动。此消彼长,彼消此涨。左手倒右手,乐此不疲。 就像不会游泳的人在游泳池里来回扑腾。


指标下钻也是一样,全局无变更,那么下钻到某个特定口径,就置信提升了。但缘由可能只是流量从其他中央,流到了这个特定口径中。


其基本缘由是,用户需求量是相对稳定的。好比买鞋,只需经济形势没有明显变更,总量就是一亿双。每个用户不论点了多少下,最终也只会成交比较肯定的数目。


达观地来说,可能80%的实验都是左手倒右手; 达观地说,对全局大盘没有影响的实验也不能一棒子打死,假如原先的体验短板被补齐了,这也是贡献。 但从实验丈量的角度,怎样来判别用户是由于新颖,还是真正的用户体验的提升呢?以笔者拙见:


  • 增加流量系统的完好监控 :即便是单入口实验,也要去剖析其他入口的流量和用户流转,并察看足够长的时间以肯定用户的对新样式的接受度。
  • 全局留白和长期实验 : 以年的单位,对一切实验中止汇总,整体统筹的来看全年效果。

以上都提出要长期察看,但是长期实验是很难实施的,它极大地增加了实验门槛和察看时长,违犯了互联网“快即是好”的教义,你让大家等三个月再给老板汇报吗?


另外,长期实验可能从基本上不可行: 物理实验假定了系统的参数是肯定和稳态的,但用户实验不是,用户有记忆性,显著地会受整体大盘,前期实验和用户习气的影响:今天喜欢,明天就疲倦; 不只如此,实验分层的流量很可能会在搜集和锻炼时泄露,进而使得一切实验效果在长期看会趋于平均。 这就招致了实验在分桶和时间上耦合, 短期看有效果的实验,长期看就一定有效果。


2. 点击越多,产品越好?


假如说在老板那里取得的最大收获是什么,那应该是对指标口径的严厉请求了。


一切优化都是需求指标的,而指标的定义和计算并不简单,极大地影响了优化的实施和最终的效果。 指标是一切问题的开端。定义好的指标就处置了一半的问题,否则计划能够不用看了。


实践状况中,实验丈量天生遭到了度量伎俩的限制,除了上面的长期性, 用户需求不一定非要经过点击来完成。可是大部分状况下,只需点击和转化才有埋点。这就构成了实验指标度量不准的问题。我们举三个例子:


一个音乐播放器,假如其团队的KPI是应用翻开次数。 那么在锁屏界面的小banner播放器上,按钮越少越好。 假如把“上一首”按钮去掉,那么用户就不得不进入APP再去点击上一首,应用翻开次数直线上涨。可是这样的优化,除了增加用户的操作步骤,有什么意义呢?


互联网算法和产品优化的几个反直觉现象


一个列表展示页,假如由于某些标签展示,招致关键信息如题目展示不全,用户为了看清题目,就不得不点击进入详情页,进而招致点击率飙升,可是这是反用户的。产品连最关键的信息都没展示全,还谈什么体验?反过来说,很多产品优化,越是把丰厚信息在列表页展示出来,用户在列表页曾经取得了足够信息,点击就越少,最后线上点击率爆降,那该实验该推全吗?


再一个大家熟知且可怕的例子,一个APP的广告装置引流: 直接最大化装机量和展示量,只需能提升装机量,那么其他问题就不是问题。那么各种五迷三道的事情就呈现了:部分厂商的牛皮癣广告,弹窗,自动装置等,无所不用其极。


这实质是指标的设定和评价问题。 以笔者拙见, 商业和战略目的,业务目的, 产品目的,技术目的, 四者应该是有不同的推导逻辑的,以至是完整不同的。但理想状况是,技术背产品目的,产品背业务目的,最终全部坍缩到了某个特定的指标如点击率上。 而一旦这个指标并不能完好地描写整个系统时,奇特的事情就发作了。


由于要最大化点击率,所以页面自但是然地进化地越来越复杂,入口越来越多。 点击是伎俩而不是目的,最后的转化成交和用户口碑和留存才是,我们却常常搞混了目的和伎俩。 用户迷失在信息的迷宫中,用大量无效的点击换得了团队的KPI。 反之,你要花大量的功夫给老板解释,为什么点击率降了还要推全?


以笔者拙见, 有以下可能解法:


  1. 更完好和明晰的指标体系 : 分辨上述四个目的(商业/业务/产品/技术),完善推导思索, 并引入其他体验指标。 搜索有称心度评测,引荐有不感兴味的负反响按钮,以及用户体验评测和原声反响。当然期间遇到不少问题:固然大部分体验指标很难作算法优化的目的;算法招致的个性化也使得评测变成了难题。
  2. 提升丈量的精确性 : 例如尽可能地简化反响,将反响行为和用户必定运用处径绑定在一同:如抖音的上下滑,婚恋匹配程序的左右滑。 喜欢即点击,不喜欢即滑动,反响越简单,搜集越精确。 不外很多产品的设计一定能如此极简。 另外,似乎也没有团队或模型,特地研讨用户在“干什么”或“怎样想”。 扫除隐私思索,假如眼动以至脑电能引入,优化便能上一个新的台阶。
  3. 引入带约束的目的 。 如 最小化用户成交所需的点击和停留时长,可能真没人这么运用。 工具属性的产品,最大的价值就是让用户在尽可能方便简单地运用,“用完即走”。 问题是,没人甘心只做工具,一切的APP都想做平台,总想让用户留下来,先看文章再点广告。 担任工具的和担任商业化的,在企业里通常是两个并行部门。 商业化部门看了这个指标直摇头:你这老同志坏得很呢!用户不点击了,我们的饭碗怎样办?

3. 指标耦合逆优化


这个问题相比前面两个更难以察觉。实验系统经过火层实验和参数正交保障各系统的解耦。 但当两个算法模块之间有内生的耦合性时,分层实验的假定就被破坏了。


引见一种典型状况:移动端搜索的分卡片feeds流。由于单个query会触发多种类型的结果。因而会设计不同的卡片,卡片间经过效率预估中止“组间排序”,例如搜美团,对外卖感兴味的用户美团外卖在前面,而对股票感兴味的则股票卡片在前面。 卡片在内部中止商品的“组内排序”。它们通常由不同团队担任。


当上线新模型时,假如组内新模型效果发作变更,如将冷门商品排到前面,组间排序模型会预估卡片效率降落,进而使得整个卡片排名相对靠后,招致卡片曝光降落, 但本卡片点击PV的降落水平反而比曝光量要小。分子分母都变小,而分母小的更多。


这就是耦合招致“指标逆优化”: 组内模型效果变差,反而本卡片的点击率提升!


这种现象也很难察看, 你说卡片的曝光PV降了呀? 但由于搜索是分query的,以上现象可能只在一部分query上呈现。卡片间的效率越相似的query,组间排序的震荡反而会更大。 不下钻基本发现不了。


算法优化,还得去摸清上下游系统的脾气。系统间耦合使得问题变得虚无缥缈。实验效果真的能反映真实的模型性能吗?对此恐怕难有通用的处置计划。笔者拙见,先解耦,再优化。参考EM算法,先固定住一个优化另外一个。当然,首先是要发现问题,并压服上下游一同优化。


4. 算法的未来


往常,回到文章最前面的那张图,应该就了如指掌了。三个维度的耦合都可能存在,而理想中,多个维度的耦合以至会同时发作,进而大大增加问题的复杂性。


互联网算法和产品优化的几个反直觉现象


产品和算法迭代还有其他问题,如:


  • 大部分人只对delta(增量)有感知 。第一版从0开端,很难做AB实验,那么不论基线做得多好,都很难量化地作为迭代贡献。第一版做的太好了反而给后续的迭代拦路了,一定要做的足够快(cha),然后快速迭代,这样才干契合“互联网思想”。
  • 找软柿子捏 : 很多活动类的基线都是随机,可是跟随机比取得100%提升,有意义吗? 这也是对第一点的延伸。
  • 拿着锤子找钉子: 搞出一个技术,然后往一切的业务上硬套。配合上多个优化点,最后起作用的很可能不是这个技术,而是特征或样本优化
  • 产品和算法脱节 : 产品看绝对, 算法看相对。不论绝对指标跌得如何洪水滔天,算法依然能够讲自己的故事,分享transformer能够堆叠多少层。 反过来,产品也不了解算法逻辑,以为算法就是没有业务sense的“配置生成器”。
  • 实验次数多了,指标关注多了,实验系统总会发作第一类错误,总能找到置信上涨的实验。只需实验够勤奋,就能经过重复的震荡,来取得N次实验推全,而对大盘的影响可能并不显著。

这触及到十分复杂的问题,一篇文章必定无法讲完。但是,我们能做哪些事情呢?首先是 花时间去思索和揣摩愈加科学、严谨和长期的指标体系。长期有耐烦。对复杂系统心存敏感和敬畏。其次, 做产品和做算法不能纯靠AB实验由于丈量才干和精确性的限制, 过火依赖指标优化,会招致恶劣的产品和算法。深度学习和实验系统的复杂性虽高,但不能成为懒散的借口。只看指标,不做深化剖析,就是鸵鸟心态。


我们能够明显的看到,现有的算法还不够好, 在与亿万用户的交互过程当中,我们的算法还处在十分原始的状态。小红书的种草心智,大约率也不是由算法来取得的。 算法只能follow和猜测,却不能拿捏用户的想法,更不能智能地影响它。 算法流量机制依然需求专家花大量的时间去设计。 算法优化的公平性也逐步提上日程, 其他例如算法歧视,和信息茧房,这些问题到往常也没有明白的解法。


推而广之,绩效考核也是如此。人都是很聪明的,只需给他制定一个规则,他就能经过各种方式来破解这套规则,完成自身的利益最大化。 固然数据是金规范,可是数据也是人定出来和测算出来的。 我还是比较认可“过程和结果一样重要”的理念。 目的要做牵引,而不是绝对请求:太过绝对的只关注指标的好坏,会让动作变形。一个不好的过程取得的好的指标,比好的过程取得普通的指标,带来的反作用更大。



路过

雷人

握手

鲜花

鸡蛋
已有 0 人参与

会员评论

最新文章

文章列表

 名表回收网手机版

官网微博:名表回收网服务平台

今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
返回顶部