Uma nova abordagem para a proteção contra fraudes por bots avançados: modelagem comportamental macro - AppsFlyer (Portuguese)
4 Min. Read

Uma nova abordagem para a proteção contra fraudes por bots avançados: modelagem comportamental macro

Shachar Guz Shachar Guz Feb 21, 2018

Um dos meus cartazes de filme favoritos é o de “Quero Ser John Malkovich”. Centenas de pessoas seguram máscaras com o rosto de John Malkovich, o que torna muito difícil saber qual deles é o verdadeiro. O universo das fraudes móveis é bem parecido com isso. Fraudadores trabalham duro para passarem despercebidos, enviando impressões, cliques, instalações e atividades no aplicativo que parecem muito realistas. O enorme volume de fraudes dificulta muito identificar a diferença entre o tráfego real e o fraudulento, especialmente quando a fraude imita o comportamento humano.

Identificando bots avançados

Há algumas semanas, uma de nossas cientistas de dados do Protect360 me chamou para conversar antes mesmo que eu pudesse tomar meu primeiro café do dia. Ela estava muito animada pelo que tinha descoberto.

Ela estava trabalhando em uma profunda análise de fraudes, em uma anomalia particularmente interessante. A equipe tinha detectado um aumento de bots tentando enviar cliques e instalações falsos. Em 2014, chamávamos esse tipo de fraude de Simulação de SDK (alguns chamam hoje de Spoofing SDK) e usávamos mecanismos de segurança em nosso SDK para bloquear ativamente essas atividades. Após isolar um aplicativo altamente visado por esses bots, a cientista de dados foi mais fundo e identificou vários bots novos e mais avançados. Ela detectou uma série de marcadores comportamentais individuais que poderiam ser usados para identificar esses novos bots fraudulentos.

Análise de distribuição de fraudes

Nosso próximo passo foi entender a escala e o impacto dessa fraude: o quão generalizada era e quanto esses novos bots avançados estavam custando aos profissionais de marketing. Com base nessa análise inicial da fraude, nossos cientistas de dados antifraude desenvolveram uma série de novas assinaturas de fraude e então configuramos uma curta análise de regressão com base nesses novos mecanismos de detecção. Analisando a atividade pré-mecanismo e comparando-a ao pós-mecanismo, a equipe estimou que o novo mecanismo era capaz de bloquear cerca de 0,05% dessa classe de tráfego, o que aproximadamente correspondia às previsões iniciais da equipe.


Validação das assinaturas de fraude

Na manhã seguinte, esses novos mecanismos foram enviados a um dos líderes de nossas equipes de cientistas de dados para maiores análises. O cientista de dados sênior executou uma análise de regressão mais extensa, aplicando o novo mecanismo a um período de tempo mais longo: em vez de regredir apenas uma semana, essa análise englobou as dez semanas anteriores, explorando atividades em todos os aplicativos e clientes. A segunda análise revelou resultados surpreendentes. Nas semanas anteriores, os novos mecanismos de identificação comportamental sinalizaram quase 5% dessa classe de tráfego como fraude! Talvez a assinatura de fraude inicial apresentasse falhas, ou o impacto estimado tivesse tomado por base conjuntos de dados anormais, ou ainda havia outros fatores ainda não identificados.

Embora desmascarar uma nova assinatura de fraude com um rastro tão importante gerasse bastante animação, era ainda 100 vezes maior do que nossas estimativas iniciais. Era claro que havia algo de errado com nosso novo modelo de fraude ou com nossas estimativas iniciais.

Era nítido que havia outra variável influenciando fosse o teste inicial, fosse nosso conjunto mais amplo de validação. A equipe foi mais fundo nesse período de 10 semanas, além de ampliar a análise observando outros períodos de tempo e outras tendências de fraude a fim de encontrar correlações que pudessem explicar a aparente lacuna. Eles analisaram tendências de desempenho, variações nos números de instalações, fontes de mídia, padrões de comportamento no aplicativo, taxas de conversão, entre outros, mais nenhuma dessas métricas chegava a se destacar muito. A equipe ampliou ainda mais a pesquisa, analisando referências regionais e verticais, bem como comparando referências de aplicativos específicos.

Isolando variáveis-chave

Essa análise mais ampla revelou a variável-chave impulsionando essas anomalias: um grupo específico de aplicativos obteve um aumento repentino de instalações, todos na mesma semana. O aumento nas instalações foi  cerca de dez vezes maior naquela semana.

Agora que tínhamos isolado o cohort problemático de aplicativos, precisávamos identificar o que impulsionou o aumento nas instalações. Quando usamos as assinaturas de fraude de análise comportamental mais recentes no mesmo cohort de aplicativos, atestamos que cerca de 90% do crescimento falso era decorrente de uma série de bots fraudulentos avançados. Esses bots mais avançados até então tinham conseguido escapar da detecção, mas agora sabíamos exatamente onde e como as fraudes ocorriam.

Mas e aquela lacuna aparente em nossas estimativas iniciais? Em retrospecto, o que esse pico nas fraudes fez foi normalizar nossa análise de regressão inicial. Ao remover nossos outros mecanismos de proteção contra fraudes, percebemos que o novo mecanismo, na verdade, afetava cerca de 5% desta classe de tráfego.

Conclusão

Em um mundo atormentado por atividades fraudulentas, encontrar os padrões comportamentais certos em um grande volume de dados não é nada fácil. Muitas vezes uma combinação de diferentes tipos de fraude serve para mascarar de forma eficiente bots fraudulentos mais novos e mais avançados. A única forma de detectar e bloquear com precisão esses bots avançados é por meio do uso estratégico de aprendizado de máquina em conjuntos de dados gigantescos, seguido por análises dedicadas e extensas, a nível micro e macro, para validar esse aprendizado. Assim como uma boa solução de antivírus, esse processo deve ser contínuo: identificando e bloqueando as ameaças mais recentes assim que surgirem.

Estamos ansiosos para compartilhar mais de nossas descobertas, bem como esse novo híbrido de modelo de comportamento e de distribuição, nas próximas semanas.