用户行为序列的特征设计与挖掘

2025-08-06 09:26:47 友融云 124

【金融风控】用户行为序列的特征设计与挖掘

一、风控业务的全生命周期认知

1.1 风控的三大核心阶段与任务

金融风控本质上是对风险的动态管理过程，根据业务流程可划分为三个关键阶段：

1.1.1 贷前阶段

核心目标是风险准入控制，通过特征筛选排除高风险用户。例如，某银行通过分析用户近 12 个月的贷款申请次数（若超过 5 次，违约风险会上升 3 倍以上）、征信查询频率（每月超过 3 次，很可能是在 "广撒网" 借钱，这种情况必须触发预警）等行为序列特征，结合收入稳定性等信息，构建反欺诈评分模型，把高风险用户挡在门外。

1.1.2 贷中阶段

重点在于风险动态监控，实时捕捉用户行为异常。例如，某消费金融公司通过监测用户信用卡消费的时间间隔（若从日均 1 笔突增至 10 笔）、消费地点的跨区域跳跃（如北京用户突然在海南大额消费）等特征，及时调整用户额度或冻结账户，防止损失扩大。

1.1.3 贷后阶段

核心任务是逾期管理与坏账处置。例如，某互联网银行通过分析用户逾期后的还款行为序列（如连续 3 个月仅偿还最低还款额的用户，下一步逾期的概率是正常用户的 4.2 倍）、催收响应频率（如 1 个月内拒接催收电话超过 5 次，说明其还款意愿极低，需要升级催收手段）等特征，制定差异化的催收策略。

1.2 行为序列特征的业务价值

用户行为序列如同 “数字指纹”，蕴含着丰富的风险信息：

· 欺诈识别：黑产用户的行为序列往往呈现高频密集（如每分钟发起 3 次交易）、地理跳跃（IP 地址跨地域切换）等特征。某支付平台通过监测这些高频密集、地理跳跃的行为特征，成功拦截了一个涉案金额达 2000 万元的盗刷团伙；

· 风险预警：正常用户的消费行为通常具有时间规律性（如每月 15 日发薪后集中消费）、金额稳定性（如每月消费金额波动不超过 30%）。当这些规律被打破时，就是风险预警的最佳时机。某信用卡中心通过监测消费金额波动异常，提前 3 个月识别出 70% 的潜在逾期用户；

· 催收策略优化：逾期用户的还款意愿可通过还款间隔（如逾期后第 10 天首次还款，全额还款率比 30 天后才首次还款的用户高 58%）、沟通响应（如催收短信回复率超过 60% 的用户，协商还款成功率明显更高）等序列特征量化评估；

二、手动特征设计的实战方法论

2.1 行为序列特征的四大核心维度

设计有效的行为特征，就像拼图一样，需要从不同维度收集信息。经过行业实践验证，有四个核心维度必须覆盖：

2.1.1 时间序列特征：捕捉行为的时间规律

· 近期性（Recency）：最近一次信用卡消费如果超过 30 天，说明用户可能在 "养卡" 或已经出现资金问题；近 6 个月内有过逾期记录的用户，再次逾期的概率会增加；

· 频率（Frequency）：过去 30 天内贷款申请次数超过 5 次，属于明显的异常信号；每月信用卡消费笔数如果比历史均值偏差超过 50%，需要警惕套现风险；

· 时间间隔：两次大额消费的时间差从平均 7 天突然缩短到 1 天，很可能是在集中套现；工资到账后 7 天内就花光所有额度的用户，资金链通常比较紧张；

2.1.2 行为模式特征：识别习惯的改变

· 消费习惯：夜间消费占比超过 40% 的用户需要关注，特别是凌晨 2-4 点的大额交易；连续 3 个月只买奢侈品的普通收入用户，可能存在非理性消费倾向；

· 设备行为：每月更换登录设备超过 3 次，可能是账户被盗用；北京用户突然使用美国 IP 登录，除非有合理的出国记录，否则应立即触发验证；

2.1.3 风险触发特征：抓住明确的危险信号

· 异常交易：单笔消费金额超过历史均值 3 倍时，可能是盗刷；同一设备短时间内登录 5 个以上账户，大概率是团伙作案；

· 逾期行为：近 12 个月内逾期次数超过 3 次，基本可以归入高风险名单；逾期后超过 60 天不还款，需要考虑法律催收手段；

2.1.4 关联关系特征：发现隐藏的团伙

· 社交网络：借款人的联系人中如果有 20% 以上是高风险用户，那他本人的风险等级也要提升；3 个以上账户共同申请同一笔贷款，可能是团伙欺诈；

· 设备关联：同一设备注册 5 个以上账户，很可能是在 "养号"；不同账户的登录地址重叠度超过 80%，可能存在账户共享或盗用；

2.2 分阶段特征设计实践

不同阶段的风控目标不同，特征设计的侧重点也应该有所区别。

2.2.1 贷前阶段的关键特征

· 申请行为序列：申请过程中的每一个小动作都可能暴露风险。如用户在申请贷款时的页面停留时间（若关键信息填写时间不足 30 秒的申请，造假概率是正常申请的 8 倍，则标记为异常）、修改次数（超过 5 次则可能存在信息造假，后续违约率明显偏高）；

· 征信行为序列：如近 6 个月内的征信查询次数（超过 10 次，说明用户可能在多家机构碰壁，则信用风险高）、贷款审批通过率（低于 30% 则还款能力存疑）；

2.2.2 贷中阶段的关键特征

· 消费行为序列：消费行为的变化往往先于逾期发生。如信用卡消费的时间分布（若凌晨 2 点大额消费占比超过 30%，可能是在参与非法交易）、消费金额的波动性（标准差超过历史均值的 2 倍，说明用户财务状况可能出现了问题）；

· 额度使用序列：如信用额度使用率（连续 3 个月超过 90% ，用户很可能在 "拆东墙补西墙"，则风险预警）、临时额度申请频率（每月超过 2 次，说明其资金需求异常迫切，需要重新评估还款能力）；

2.2.3 贷后阶段的关键特征

· 还款行为序列：还款行为直接反映用户的还款意愿。如逾期后的首次还款时间（超过 30 天，需要加大催收力度）、还款金额的规律性（连续 2 个月仅偿还最低还款额，可能是在拖延时间）；

· 催收响应序列：如催收电话接通率（低于 50% ，大概率是恶意拖欠）、短信回复时间（超过 48 小时未回复，可能需要启动司法流程）。这些特征能帮助我们把有限的催收资源用在刀刃上；

三、自动化特征工程的技术突破

随着数据量的爆炸式增长，手动设计特征已经难以应对复杂的风控场景。自动化特征工程技术的出现，让我们能从海量数据中挖掘出更隐蔽的风险信号。

3.1 深度学习在序列建模中的应用

深度学习就像给计算机装上了 "顺风耳" 和 "千里眼"，能捕捉到人类难以察觉的行为模式。

3.1.1 LSTM 网络的实战案例

某支付公司的 LSTM 模型发现了一个有趣的规律：用户在进行大额消费前，通常会有小额试探性交易（比如 10 元以下的测试支付）。这个发现帮助他们将盗刷识别准确率提升了 40%。

更重要的是，LSTM 能捕捉金额的异常跳跃。正常用户的消费金额波动一般在 ±30% 以内，而欺诈用户可能在短时间内从 100 元突增至 10000 元。通过学习这种模式，模型可以在交易发生时实时发出预警。

3.1.2 图神经网络（GNN）的创新应用

如果说 LSTM 是在看单个用户的行为轨迹，GNN 则是在看一群用户的关系网络。某银行通过构建用户 - 设备 - IP 的关联图，发现了多个团伙欺诈模式：

· 共享设备或 IP 的账户，消费时间高度同步（时间差小于 5 分钟）；

· 某设备在 24 小时内从北京 "移动" 到上海，关联账户同时出现大额消费；

这些模式靠人工很难发现，而 GNN 能像侦探一样，从复杂的关系网中揪出可疑的团伙。

3.2 自动化特征生成的工具链

手动设计特征就像用手挖井，而自动化工具则像钻井机。某互联网银行的特征工厂架构值得借鉴：

3.2.1 特征工厂（Feature Factory）的架构设计

某互联网银行的特征工厂包含三大模块：

1. 原始数据层：整合用户行为日志、设备信息、地理位置等多源数据。这里的关键是数据的标准化，确保不同来源的数据能 "对话"；

2. 特征生成层：通过预设的模板自动生成时间序列特征（如近 7 天的登录次数）、统计特征（如消费金额的分位数）、组合特征（如消费频率 × 金额波动性）；

3. 特征验证层：通过 PSI（Population Stability Index）监控特征分布稳定性，当 PSI>0.2 时，说明特征分布发生了显著变化，需要重新生成；

3.2.2 特征工程的最佳实践

· 时间窗口的动态调整：对于高频交易场景（如支付）采用 1 小时窗口，低频场景（如贷款申请）采用 30 天窗口，就像用显微镜看细节，用望远镜看全局；

· 特征交叉组合：将用户的消费金额与消费地点进行交叉（如北京地区用户的消费金额超过当地平均水平 2 倍），这种组合特征比单一特征更有区分度；

· 异常检测与特征过滤：通过 IQR（四分位距）方法识别并过滤异常值（如消费金额超过 Q3+1.5IQR），避免这些 "噪音" 影响模型；

四、特征挖掘的高阶技巧与实践

掌握了基础方法后，我们还需要一些 "绝招" 来应对更复杂的风险场景。

4.1 行为序列的模式识别

4.1.1 序列相似性检测

正常用户和欺诈用户的行为序列就像不同的舞蹈，有着不同的节奏。某电商平台用动态时间规整（DTW）算法发现：

· 正常用户的浏览 - 加购 - 支付流程，时间间隔通常在 30 分钟以内；

· 黑产用户则有固定模式：连续 5 次浏览同一商品后立即下单；

通过比较用户行为序列与这些模式的相似度，就能快速识别可疑用户。

4.1.2 异常子序列发现

有时候风险信号只出现在行为序列的某一段。某银行用滑动窗口结合孤立森林算法，找到了两个重要的异常模式：

· 贷款申请前 1 个月，每天查询征信 3 次以上（明显在找贷款渠道）；

· 信用卡逾期前 3 个月，突然停止使用其他银行的信用卡（可能在集中资金）；

这些子序列就像疾病的早期症状，发现得越早，风险控制的成本就越低。

4.2 特征的业务可解释性设计

风控模型不能是 "黑盒子"，特征必须能被业务人员理解和验证。

4.2.1 特征归因分析

某消费金融公司通过 SHAP 值分析发现：

· 用户的还款意愿主要受 “近 6 个月逾期次数”（贡献度 40%）、“催收响应速度”（贡献度 30%）等特征影响；

· 反欺诈模型中 “设备变更频率”（贡献度 25%）、“IP 地址异常”（贡献度 20%）是关键指标；

知道了这些，业务人员就能明白模型为什么给某个用户高分或低分，也能更有针对性地改进策略。

4.2.2 特征可视化工具

某银行开发了特征洞察平台，通过以下可视化手段提升可解释性：

· 特征重要性热力图：直观展示各特征对风险评分的影响程度；

· 行为序列轨迹图：动态展示用户的消费、还款等行为路径；

· 异常行为预警看板：实时监控高风险特征的触发情况；

五、实战中的常见问题与解决方案

5.1 数据稀疏性处理

时间序列填充技术

· 插值法：对于缺失的消费记录，可以用前后数据的平均值填充（线性插值），或者用多项式拟合趋势（多项式插值）；

· 序列补全模型：使用 Transformer 模型预测用户可能的消费时间和金额；

特征聚合策略

· 时间窗口聚合：将分钟级数据聚合为小时级特征（如每小时的登录次数），减少数据颗粒度；

· 设备维度聚合：将同一设备的多个账户行为合并（如某设备关联的所有账户的总消费金额）；

5.2 特征稳定性维护

5.2.1 PSI 监控体系

某银行建立了特征 PSI 的三级预警机制：

· 绿色（PSI<0.1）：特征稳定，无需干预；

· 黄色（0.1≤PSI<0.2）：需人工复核数据分布变化原因；

· 红色（PSI≥0.2）：触发特征重构流程；

5.2.2 特征漂移检测

· 统计检验法：通过 KS 检验比较训练集与测试集的特征分布差异；

· 在线学习机制：定期使用新数据重新训练特征生成模型，让特征 "常更常新"；

5.3 模型可解释性增强

很多时候模型预测结果和业务直觉不符，这时候需要增强可解释性：

5.3.1 规则引擎与模型的结合

某支付公司将深度学习模型的输出与规则引擎结合：

· 当模型预测风险分 > 80 分时，触发人工复核；

· 同时，若用户行为满足 “异地登录 + 大额消费 + 设备变更” 的规则组合，直接冻结账户；

这种 "模型 + 规则" 的双引擎模式，既发挥了模型的准确性，又保证了关键风险的可控性。

5.3.2 特征解释工具链

· 局部解释工具：用 LIME 工具解释单个用户的风险评分原因，比如 "你的逾期次数比 90% 的用户多"；

· 全局解释工具：通过 SHAP 值分析所有用户的特征重要性，帮助理解模型的整体决策逻辑；

六、前沿技术趋势与未来展望

6.1 联邦学习在特征工程中的应用

某银行联盟通过联邦学习技术实现：

· 跨机构特征融合：在不共享原始数据的前提下，联合训练反欺诈模型；

· 隐私保护机制：采用同态加密技术对特征数据进行加密处理，确保数据 "可用不可见"；

通过这种方式，反欺诈准确率提升了 27%，同时完全符合数据隐私法规。

6.2 强化学习在动态风控中的实践

风控不是一成不变的，需要像下棋一样根据对手的动作调整策略。某消费金融公司的强化学习系统：

· 状态空间：包含用户的消费行为、还款记录、信用评分等特征；

· 动作空间：包括额度提升、冻结账户、催收策略调整等操作；

· 奖励函数：以降低逾期率和提升收益为目标；

这个系统能像智能棋手一样，根据用户行为的变化实时调整风控措施，比传统的固定规则灵活得多。

6.3 无监督学习的异常检测创新

对于未知的欺诈模式，监督学习往往无能为力。某电商平台采用自编码器（Autoencoder）模型实现：

· 先学习正常用户的行为模式（如浏览时长、点击路径）；

· 当新行为的重构误差超过阈值时，就判定为异常；

这种方法成功识别了一种新型欺诈：用户突然购买从未涉及的奢侈品品类，而且金额巨大。

七、总结与行动指南

7.1 特征设计的黄金法则

1. 业务驱动：特征需紧密围绕风控业务目标（如反欺诈、逾期预测）；

2. 动态更新：建立特征的定期评估与迭代机制（建议每月一次），及时淘汰失效特征；

3. 可解释性：确保特征能被业务人员理解和验证，这样才能落地应用；

7.2 特征挖掘的进阶路径

· 初级阶段：掌握基础统计特征（如均值、标准差）和时间序列特征（如近 7 天、30 天行为等）；

· 中级阶段：学习自动化特征工程工具（如 Featuretools）和基础深度学习模型（如 LSTM）；

· 高级阶段：探索联邦学习、强化学习等前沿技术在风控中的应用，设计跨领域的特征融合方案；

7.3 资源推荐

· 书籍：《金融风控核心技术：业务逻辑、模型与算法》；

· 工具：Python 的 Scikit-learn、TensorFlow / PyTorch框架，特征工程工具 Featuretools；

· 案例库：Kaggle 的 Home Credit Default Risk 竞赛数据集；

通过对用户行为序列的深度挖掘，我们不仅能构建更精准的风控模型，更能实现对风险的前瞻性管理。在实际工作中，建议从贷前、贷中、贷后三个维度建立特征库，结合自动化工具与人工经验，持续优化特征体系，为金融业务的稳健发展筑牢数字防线。