传统对于欺诈行为的几种处理方式:
- 黑名单、信誉库和设备指纹,这种方法的缺点是覆盖率和准确率有限,而且虚拟机等可逃避设备指纹监测;
- 规则系统,这种方法需要深入了解欺诈模式,但不能够有效应对不断变化的欺诈手段;
- 有监督的机器学习,这种方法的缺点是需要大量人工标注数据,只能检测同种特征行为的欺诈。
上述的这些做法都只发现了欺诈行为的冰山一角,而从一个群体行为来看,才有可能发现数据内部的真实特性。
最终的目标和处理方式,都指向了无监督的大数据欺诈检测。
监督学习的优势及意义:
1、大多数据是未经过人为标记的;
2、可以对数据中的复杂信息进行分离;
3、可以分析事物间的内在联系,包过因果关系和相关性;
4、可以自动发现描述数据的显著性,实现特征自学习;
5、可以为有监督学习提供预训练;
6、可以随时随地学习新环境下的新知识,实现对各种场景及环境变化的灵活自适应;
无监督学习特征提取是整个算法必不可少的部分。
特征的提取就是对特征的选择,主要有:特征拆解和特征组合两大类。
1、特征拆解同样也十分容易理解,就是对特征进行拆分观察。例如号码或者ip地址的前缀拿出来对比,把前缀相同或者类似的人聚合在一起分析。
2.特征的组合是指多个字段在一起才是有含义的。例如字段X是经度,字段Y是纬度,那么,当XY在一起的时候才能确定这个人的特征,单看X或Y都不具备可研究性。巧妙利用特征组合可以发现很多欺诈手法的共性,识别机器人伪装。例如,比较设备型号+设备分辨率,发现某一批用户的两个信息不符(iPad的分辨率却与iPhone 7相同),则可断定这是采用模拟器伪装的设备。
图中,无监督学习利用上文中提到的特征提取技术,对原始数据处理后产生特征池(特征工程),包含用户行为、资料、设备信息等数据,对用户进行关联及聚类。图中的聚类,是利用特征,聚类出异常。通过自学习,选择特征权重wi和关联函数Fi,得到关联概率p(x,y),从而得到各个散点之间的内联程度,也就是我们所说的“相似度”。这一过程用到图分析等各种聚类算法,将此算法应用于反欺诈可谓是如鱼得水,运用自如。但是同样,没有完美的算法,只有合适的数据及合适的算法类别,