机器学习反欺诈实战案例的学习笔记

前面两篇文章对如何利用社区算法来挖掘异常团体进行了示例说明，其过程主要分为生成相似行为、构建图、图划分、对划分社区进行挖掘这四个步骤。这种风控思路在『风控要略·互联网业务反欺诈之路』这本书里的机器学习实战案例章节中也有体现，本文分享下对该书中给出的三个实战案例的学习笔记。

案例1 黑产设备群控网络设备挖掘
群控技术容易在设备行为上出现相似性，如被群控的这些设备可能会多次在相近的时间、相近的IP和WIFI上出现大量的一致性行为。
1）建模数据准备，包括设备环境以及业务系统日志等数据获取、清洗过程。
2）聚类模型开发

特征工程
相似计算：比较两两设备行为之间的相似性，滤除相似性较低的连边，得到可疑设备关系
图划分：通过连通图算法得到设备在多个维度具有相似性的群组

3）业务应用
对疑似群控设备list进行剥离分析，确认是否群控设备。从已确认的群控设备中，挖掘欺诈特征，服务生产。

案例2 渠道作弊用户行为聚类分析
自动化改机刷量工具、人肉众包团伙和云控木马等刷量方式产生的新账户，其行为具有相似性。
本例中需要分析特定渠道的用户在某应用市场APP的使用行为是否存在多个行为高度相似的用户集合，然后基于相似用户的规模等情况判断该推广渠道是否存在作弊行为。可基于留存率情况为对分析渠道进行预筛。
1）获取渠道用户访问APP的行为数据
包括渠道ID，登录类型，动作编号（点击或者下载等），动作场景（如动作发生在展示页面为详情、排行软件等场景）、动作相关的APP ID。
2）用文本的空间向量模型刻画用户行为

每个用户的动作集合看作是一篇文章，每个动作看作是一个单词，重复出现的动作看作是一个单词的多次出现。
单词权重使用TF-IDF来表示，两篇文档的相似度可表示为：
3）使用基于相似度阈值约束的聚类算法
对用户行为向量进行聚类，得到多个有相似行为的用户集合（簇）。
4）聚类结果应用

在该渠道的新增用户中统计行为相似用户的情况，比如计算相似用户的总数量和占比，最大规模簇中的用户数量和占比等。相似用户越多，越有可能使用了刷量工具。
设定作弊判别规则，比如当前渠道的新户中有30%以上存在相似行为，就认为它为作弊渠道。

案例3 金融在线申请欺诈团伙识别
金融申请中团伙欺诈可能会在表填信息、设备环境上表现出聚集特点。
1）计算不同实体之间的关联异常度

实体：Cookie，联系人电话、单位地址等
异常度：如对于家庭座机的关联异常度，统计有和他人共用过家庭座机的所有订单总数以及其中为欺诈的订单总数，以欺诈概率（或者其他指标）作为异常度

2）关联变生成
分别在每个实体上对两两用户建立关联边，
关联
边的权重与前面计算的异常度成正比，接着
对关联边进行合并，比如通过权重值简单相加，生成形如<订单01,订单02,边总权重>的数据。
3）图连通计算

过滤掉权重较低的边，通过Spark GraphX或者Python Networkx生成连通子图。

4）对每个子图计算团伙异常度
5）欺诈团伙输出

如对于如下欺诈团伙，可以获取该团伙下的所有订单ID，输出团伙异常度值、团伙规模、作弊特征以及其他如已知欺诈订单量等数据。

题图来源：网站Pexels

THE END

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/239482.html

机器学习反欺诈实战案例的学习笔记

作者专栏

反欺诈攻防战