全球快看:基于检索网站热度分析的 用户换机意向预测模型

通信世界全媒体   2023-04-27 15:06:12

(CWW)在互联网时代,手机已成为人们日常生活中不可或缺的通信和娱乐工具。对于电信运营商而言,通信服务与手机配套销售是重要业务领域,而如何高效、高质地识别有购机需求的用户并开展营销,是运营商在数字化转型趋势下实现高质量、精细化运营的业务场景之一。以某运营商的数据为例,每月有更换手机行为的用户占比为3%~4%。因此,掌握哪些用户有潜在换机需求、用户喜欢的手机类型及可接受的价位等信息,准确定位用户需求并开展针对性营销,不仅有利于运营商扩大用户市场规模,节约营销成本;也有利于提升服务质量,使用户获得更好的感知。

现有用户换机意向预测模型的不足

当前对具有购机意向用户的识别,主要采用数据分析及机器学习建模等方式,基于用户上网行为等运营商数据,从海量终端用户中筛选出有换机意愿的用户。从目前研究方向来看,大致可分为偏理论研究和偏应用研究两类。其中,偏理论研究侧重于对不同算法、数据处理方法的探索,以提升模型预测的精准度;而偏应用的研究则聚焦于建模方式,希望建立更接近于真实应用场景的模型。两类研究的最终目的都是在业务拓展中提升营销精准度、降低营销成本。


【资料图】

综合现有研究成果来看,无论是偏理论的研究还是偏应用的研究,用户换机预测模型的建立都需要采集至少一个月的用户样本数据,并根据抽象出的标签属性进行画像建模。这意味着从数据采集到利用模型预测出换机用户,通常情况下较用户产生换机意向滞后1个多月;而在实际营销场景中,1个月内用户大概率已经通过其他渠道完成购机。因此,现有预测模型在营销实践中,往往因时效性的限制而使应用效果受到影响。

针对上述问题,本文提出一种基于检索网站热度分析的用户换机意向预测模型,该方案能够将有换机意向用户的识别周期由30日缩短至2日以内,较业内传统预测模型查准率提升6.1PP以上。模型投产后外呼接通转化率提升26%,因而具有良好的应用推广价值。

基于检索网站热度分析预测模型的建立

换机用户的定义

在现有研究中,对换机用户的判断主要基于终端的国际移动设备识别码(InternationalMobileEquipmentIdentity,IMEI)变更。但在业务实践中,一些用户的IMEI变更可能为假性换机信号,例如用户终端的IMEI发生短期临时性改变,或在信息采集过程中存在偶发性的错误。为助力终端营销,用户

换机意向预测模型需剔除假性换机信号,识别真正具有换机意愿的用户。故本文将换机行为定义为:用户在当月发生IMEI变更及机型变更,并在次月仍然使用新IMEI或新机型。与之相应的技术性定义如下。

{[IMEI__A(M-1)≠IMEI__B(M)]and[MODEL__A(M-1)≠MODEL__B(M)]}

and

{[IMEI_B(M)=IMEI_B(M+1)]or[MODEL_B(M)=MODEL_B(M+1)]}

其中用户使用的旧终端标记为A,其IMEI标记为IMEI__A,机型标记为MODEL__A;更换的新终端标记为B,其IMEI标记为IMEI__B,机型标记为MODEL__B;当月标记为M,上月及次月分别为M-1和M+1。

模型设计原理

为提升换机用户识别的时效性,本文将用户换机行为的路径明确为:产生换机想法—确定预算—检索在售机型—确定预购机型—对比价格—购买新手机。从中可以发现,用户产生购机意向的早期信号较直观地体现在相关检索和访问记录中。

目前对用户上网浏览内容的识别主要采用深度数据包检测(DeepPacket Inspection,DPI)技术。用户上网检索在售手机信息时,搜索内容将以相应规则协议的形式,通过URL编码体现在用户访问的网址中,或通过用户终端发起请求的网址记录呈现。因此,可通过DPI技术解析用户上网日志中涉及换机的内容,定位具有换机意向的用户,具体示例见表1。

表1 检索访问vivo官网URL示例表2部分网站关键词访问量统计

URL优先级规则库

为挖掘用户在各类网页及APP上检索换机相关信息的记录,本文整理主流搜索引擎、电商网站等相关网址域名,按照检索访问行为统计各域名下搜索手机、访问下单页等URL信息,并提取关键词转化为正则表达式,获取购机相关URL规则共69条。

因运营商用户上网日志数据量巨大,单日压缩后约10~12TB,为提升解析效率,本模型采用网址热度优先级排序法及无效URL过滤法。

1.网址热度优先级排序法

分析各域名关键词数量及访问热度(如表2所示),对URL进行优先级排序,然后对用户上网日志从高优先级至低优先级依次匹配,并提取匹配到的URL记录。按照上述方法整理URL优先级规则库案例,如表3所示。

表2 部分网站关键词访问量统计

表3URL优先级规则库案例

2.无效URL过滤法

在按照正则表达式匹配域名的过程中,存在大量与购机无关的URL信息,需在解析过程中进行剔除。以百度为例,百度定位记录占百度域名记录总数的13.15%,URL对于用户购机行为无参考意义,故需要进行过滤。本方案最终整理剔除无效URL28条。

模型建立步骤

本文所述用户换机意向预测模型的建立步骤如下(如图1所示)。

图1 基于检索网站热度分析的预测模型流程示意

第一步:域名正则表达式匹配。

1.域名匹配。输入用户上网日志数据,基于URL优先级规则库,按照优先级依次匹配域名,若匹配成功则提取该上网日志数据记入待过滤数据表A,并跳过后续规则,启动下一条上网日志匹配;若69条规则均未匹配成功则剔除该上网日志数据。

2.无效URL过滤。将待过滤数据表A中的上网日志记录,基于28条无效URL规则进行过滤剔除,并将剔除后数据集记为待解析数据集B。

第二步:意向换机行为识别。

1.关键词提取。对待解析数据集B,匹配检索或访问关键词并提取对应信息,例如检索内容及商品编码,并将提取内容记入待解析数据集C。

2.换机意向识别。用待解析数据集C的记录匹配手机品牌,若匹配成功则打标对应用户换机意向为“是”,并将匹配上的手机品牌打标为用户偏好品牌;否则打标用户换机意向为“否”。

3.预测结果输出。输出换机意向标记为“是”的用户群及其偏好的手机品牌,作为换机预测结果集D。

对基于检索网站热度分析预测模型应用效果的评估

数据说明

本文抽取2022年3月某一天的上网日志数据作为实验数据集,建模预测用户是否将发生换机行为,并基于预测结果核验用户是否在2022年4月发生换机行为,据此评估模型效果。

经统计某运营商各主流手机品牌用户量,发现苹果、华为、OPPO及vivo终端用户总占比为69.65%(详见表4),故本文最终选取上述4个手机品牌用于换机行为预测。

表4 终端品牌用户占比

模型结果

根据上述数据集最终得到预测换机用户7058人(品牌分布见表5),本文将从模型效果、时效性及应用效果3个维度进行整体评估。

表5 基于正则表达式的用户换机预测结果

1.模型效果评估

因不同数据集正负样本比等情况会影响最终模型应用效果,故本文主要通过对比不同换机预测模型在同一数据集的表现,评估模型效果。本文引入查准率作为模型应用效果评估指标,查准率主要用于衡量模型的准确性,以换机模型为例,查准率的定义为:查准率=预测换机且实际换机的用户数/预测换机的用户数。

经建模分析,本文提出的DPI预测方法查准率为17%,较其他方法查准率提升6.1PP以上(见表6),即该模型预测查准率较好。

表6 预测模型效果对比

2.时效性评估

业务营销使用的传统规则模型及lightGBM模型,需采集至少1个月的用户数据方可进行换机预测。而本文使用的DPI方法仅需累计1日数据,并基于现有资源运算14小时即可得到换机预测结果,与传统方法相比,预测周期从30日缩短至2日以内。

3.营销效果

针对模型输出的潜在换机用户,根据其品牌选择偏好匹配相应的终端政策,并将结果反馈给业务营销人员,以便对用户开展精准营销。实际营销效果统计显示,模型预测目标接转率可达1.45%,较非模型预测的1.15%提升约26%,模型应用效果良好。

总结与展望

本文提出一种基于检索网站热度分析的用户换机意向预测模型,结合业务营销需求及用户品牌使用情况,选取4个手机品牌进行模型测试与评估,进而验证了该方案在模型准确性、时效性及业务应用效果等方面均有所提升。当然,本文所提出的建模方法仍存在改进和完善的空间。一方面,可以通过补充并解析更多购机相关平台及购机行为URL,如各平台下单、分享商品等行为,扩大换机用户识别范围并提升模型查全率;另一方面,不断拓展手机品牌及具体机型,为精准匹配用户偏好并开展营销提供支撑。后续我们将不断完善购机行为解析体系,以适应不断变化的终端市场,助力高质量、高效率的用户服务运营。