4 Min. Read

Un nuevo enfoque para la protección contra fraudes avanzados con bots: modelos macro de comportamiento

Shachar Guz Shachar Guz Feb 21, 2018

Uno de mis afiches de películas es de la película Being John Malkovich. Cientos de personas sostienen máscaras de John Malkovich, lo que dificulta saber cuál es el verdadero. El mundo del fraude móvil es muy similar. Las personas que crean fraudes trabajan mucho para pasar desapercibidas. Envían conjuntos de impresiones, clics, instalaciones y actividades in-app que parecen reales. El mero volumen del fraude con frecuencia dificulta mucho la determinación de la diferencia entre el tráfico legítimo y el fraudulento, en particular cuando el fraude simula la conducta humana.

Identificación de bots avanzados
Hace algunas semanas, uno de los científicos de datos de Protect360 me enfrentó antes de tomarme mi primera taza de café. Estaba muy emocionada con lo que había descubierto.

Estaba inmersa en el análisis de un fraude y trabajaba en una anomalía particularmente interesante. El equipo había detectado el resurgimiento de bots que intentaban enviar clics e instalaciones falsos. En 2014, denominábamos este tipo de fraude simulación de SDK (ahora, hay gente que lo denomina suplantación de SDK) e implementábamos mecanismos de seguridad en nuestro SDK para bloquear la actividad activamente. Después de aislar una aplicación muy buscada por estos bots, los científicos de datos se adentraron más e identificaron algunos bots nuevos y avanzados. A continuación, ella identificó una serie de marcadores de comportamiento únicos que podrían usarse para identificar con exactitud estos nuevos bots de fraude.

Análisis de distribución de fraude
El próximo paso fue comprender la escala y el impacto de este fraude: cuán propagado está y cuánto cuestan estos nuevos bots de fraude avanzado a los marketers. En función de este análisis inicial del fraude, nuestros científicos de datos antifraude desarrollaron una serie de nuevas firmas contra fraudes. A continuación, configuramos un breve análisis de regresión basado en estos nuevos mecanismos de detección. Al analizar la actividad anterior al mecanismo y compararla con la posterior, el equipo proyectó que el nuevo mecanismo podría bloquear aproximadamente el 0.05% de esta clase de tráfico, lo que coincidía con las predicciones iniciales de nuestro equipo.

Validación de firmas de fraude
A la mañana siguiente, se enviaron estos nuevos mecanismos a uno de los líderes del equipo de ciencia de datos para que continuara el análisis. El científico de datos principal ejecutó un análisis de regresión más extenso y aplicó el nuevo mecanismo a un plazo mayor: en lugar de abarcar una semana, el análisis de regresión retrocedía diez semanas y exploraba la actividad en todas las aplicaciones y en todos los clientes. Este análisis secundario reveló algunos resultados sorprendentes. Durante las semanas anteriores, el nuevo mecanismo de identificación conductual había marcado aproximadamente un 5% de esta clase de tráfico como fraude. O la firma de fraude inicial estaba sesgada, o nuestro impacto proyectado se basaba en un conjunto de datos aberrante, o había otros factores que todavía no habíamos identificado.

Aunque revelar una nueva firma de fraude con una huella tan grande provocaba mucha emoción, esto era 100 veces más grande que nuestras proyecciones iniciales. Claramente, había algo extraño en nuestro nuevo modelo de fraudes o en nuestras proyecciones iniciales.

Había otra variable que afectaba el conjunto de prueba inicial o nuestro conjunto de validación más amplio. El equipo comenzó a profundizar en el periodo de 10 semanas y a mirar más profundamente para observar otros periodos y otras tendencias de fraudes para intentar encontrar correlaciones que pudieran explicar la brecha aparente. Observaron tendencias de desempeño, variaciones en la cantidad de instalaciones, fuentes de medios, patrones de comportamiento in-app, tasas de conversión y más, pero ninguna de las métricas se destacó. A continuación, el equipo mirando más profundamente y analizó referencias regionales y verticales, además de comparar referencias de aplicaciones individuales.

Aislamiento de las variables clave
Este análisis macro más amplio reveló que la variable clave que impulsaba las anomalías era un grupo específico de aplicaciones que tenían un aumento drástico en instalaciones en una misma semana. La cantidad de instalaciones esa semana había aumentado diez veces.

Ahora que habíamos aislado la cohorte problemática de aplicaciones, debíamos identificar qué había impulsado este aumento en las instalaciones. Cuando ejecutamos nuestras firmas de fraude de análisis conductual en esta misma cohorte de aplicaciones, determinamos que aproximadamente el 90% del crecimiento falso se debía a una serie de bots de fraude avanzados. Aunque estos bots más avanzados habían evadido la detección anteriormente, ahora sabíamos exactamente dónde y de qué manera ocurría el fraude.

Pero, ¿qué sucedía con la brecha aparente en las proyecciones iniciales? En retrospectiva, este aumento en el fraude había de hecho normalizado nuestro análisis de regresión inicial. Al deshacernos de otros mecanismos de protección contra fraudes, determinamos que, de hecho, el nuevo mecanismo antifraude afectaría aproximadamente al 5% de esta clase de tráfico.

Conclusión
En un mundo que enfrenta el desafío de la actividad de fraude, encontrar los patrones conductuales en el extenso mundo de los datos no es fácil. Con frecuencia, una combinación de diferentes tipos de fraude es una máscara eficaz para bots de fraudes más nuevos y avanzados. La única manera de detectar y bloquear con exactitud estos bots avanzados es mediante la aplicación estratégica de aprendizaje de máquina en conjuntos de datos masivos, seguida de análisis prácticos extensos a nivel macro y micro para validar el aprendizaje. Como una buena solución antivirus, este proceso debe ser continuo y debe identificar y bloquear las amenazas más recientes a medida que aparezcan.

Esperamos poder compartir más resultados y este híbrido entre modelos conductuales y de distribución en las próximas semanas.