7 Min. Read

История про то, как мы создавали “новое оружие” для борьбы с мошенничеством

Avatar Daniel Morgan Nov 09, 2016

Около месяца назад мы запустили DeviceRank, первую в мире технологию защиты от мобильного мошенничества, которая работает на уровне мобильных устройств и предотвращает атрибуцию незаконных установок/действий в приложении. Эффективность этой уникальной технологии от 3 до 12 раз выше, нежели традиционные решения по  борьбе с “черным” трафиком, представленные на рынке сегодня. Уже при запуске DeviceRank наделал немало шума в мобильной индустрии. И так как нам не каждый день удается поработать над технологией, которая может изменить правила игры в огромной, мультимиллиардной индустрии, сегодня я хочу рассказать о том, как мы создавали DeviceRank и какие драгоценные инсайты обнаружили на своем пути.

DeviceRank – первая в своем роде технология защиты от мошенничества с мобильной рекламой, при разработке которой использовалась огромная база данных по установкам и мета-данные пользовательских действий. Все это – результат совместной работы с большим количеством паблишеров и разработчиков мобильных приложений. Для идентификации мошеннических действий и исключения этих установок и событий из атрибуции DeviceRank использует Big Data и машинное обучение, составляя рейтинги. Эта технология является частью активного пакетного антифрод решения AppsFlyer, которая объединяет такие инструменты как фильтрация IP-адресов и модель распределения, валидацию установок, предотвращение сфабрикованных событий и безопасный SDK AppsFlyer. Именно поэтому DeviceRank – это технология, которая способна изменить правила игры и предоставить маркетологам мощный инструмент защиты и предотвращения фрода.

Данные – основа разработки
К созданию DeviceRank нас подтолкнуло простое предположение, что если проанализировать известные и подтвержденные мошеннические действия, то можно выявить новые триггеры в метаданных, которые будут уникальным образом идентифицировать мошенничество.

В ходе анализа мы выявили большое число мошеннических установок и внутренних событий (подтвержденных фрод), совершенных с устройств, которые можно объединить в отдельные группы. Для тех, кто не очень хорошо знаком с концепцией идентификации мошенничества, напомним, что каждое мобильное устройство обладает уникальным идентификатором IDFA или GAID. И Apple, и Google предоставляют эти ID рекламодателям, чтобы те могли анализировать эффективность рекламных кампаний и таргетировать свою рекламу на правильную аудиторию. Идентификаторы устройств являются неотъемлемой частью любой маркетинговой и рекламной кампании приложений, а также используются каждой атрибуционной платформой и трекинг-провайдером.  

Затем мы изолировать информацию об устройствах, в мета-данных которых обнаруживались определенные сигналы и тенденции, которые широко встречаются среди мошеннических устройств, а также начали сравнивать сфальсифицированную внутреннюю активность с действиями реальных, живых пользователей. Дальнейший регрессионный анализ выявил более 20 сигнальных триггеров в мета-данных, которые при должном объединении и использовании очень точно определяли какие устройства являются мошенническими, а какие нет. К тому времени, как мы выпустили DeviceRank, технология была протестирована и отточена на всей базе данных AppsFlyer по установочной и внутренней активности в приложениях, а это самая большая база данных этой категории в мире.

И результаты были поразительными!

Мобильный фрод – проблема не всегда однозначная  
Когда мы только начали разработку, DeviceRank давал либо положительных, либо отрицательный результат. Однако, алгоритмы оценки быстро развивались и очень скоро превратились в многосоставную рейтинговую систему, похожую на кредитный скоринг.  Устройства с рейтингами A, AA или AAA являются живыми пользователями; девайсы, получившие рейтинг B показывают подозрительные сигнатуры мета-данных и требуют дальнейшего изучения; устройства категории C – подтвержденный фрод. По умолчанию все установки и внутренние события с девайсов, которые получили рейтинг С в DeviceRank, исключаются из атрибуции. И хотя DeviceRank уже присвоил рейтинг более 98% всех активных мобильных устройств, есть еще девайсы, на которых активировано ограничение по сбору данных о рекламе, такие устройства получили рейтинг X. Нельзя забывать и про новые устройства, которым присвоен рейтинг N. Наши алгоритмы машинного обучения эволюционировали до уровня, когда они могут определить точный временной промежуток, в течение которого устройство было временно взломано или “угнано”, и автоматически обновить рейтинг этого девайса после того, как мошенническая активность с него прекратится.

Мы продолжали внутреннее тестирование нашей рейтинговой системы и машинного обучения на протяжении нескольких месяцев, прежде чем выпустили DeviceRank на суд широкой аудитории. Некоторые из самых интересных инсайтов, которые мы обнаружили, включали интересную комбинацию сигналов, которые чаще всего выявляли мошенничество. Тогда как наш оригинальный алгоритм работал только с несколькими, простыми паттернами в данных по вовлеченности, аналитические выводы последовательно свидетельствовали о том, что единичного триггера явно недостаточно для точной идентификации устройства в качестве мошеннического. Мы обнаружили, что в то время как наше пакетное антифрод решение показывает высокую эффективность при выявлении точеных, индивидуальных мошеннических действий, DeviceRank способен идентифицировать и исключить более широкий ряд мошенническое активности с подделкой внутренних событий. При этом алгоритмы DeviceRank используют Big Data, аккумулированные из тысячи приложений, и исключает атрибуцию мошеннических действий, несмотря на то, что злоумышленники используют очень креативные методы обмана стандартных алгоритмов защиты.

Единичные данные не могут быть хорошим индикатором
Разрабатывая новую системы, мы обнаружили несколько действительно креативных способов обхода стандартных инструментов защиты, которые используют мошенники. Эти разработки могли обмануть даже абсолютно новые алгоритмы DeviceRank.

Например, мы выявили такую мошенническую схему, распространенную в азиатском регионе, при которой происходят целые марафоны по “сбрасыванию” ID устройств. Обновление ID устройств позволяет обойти большинство антифрод решений, так как одно и то же устройство после этой процедуры каждый раз кажется новым. Этот метод делает мошенников практически неуловимыми. Но подобные reset-марафоны обычно происходят волнами и нацелены на определенные кампании или источники трафика, данные по таким кампаниям демонстрируют очень высокое соотношение устройств с новыми ID (рейтинг N). А так как мы уже оценили более 98% всех активных устройств в мире, кампании, загрязненные мошенничеством через reset-марафоны, показывали аномально высокий процент устройств с рейтингом N и очень сильно выделялись на фоне остальных.

Такая схема помогла нам выявить махинации в кампаниях, где процент установок с помощью устройств, имеющих ограничения по сбору рекламных данных, был невероятно высоким. Опять-таки, мы заметили, что некоторые кампании показывают аномально количество таких девайсов, которые в нашей системе имеют рейтинг X.

Кампании, данные которых “загрязнены” устройствами с новыми ID устройств или установками с помощью устройств с ограничениями по сбору данных, было достаточно просто идентифицировать, но мы не могли маркировать их как стопроцентный фрод. Но, именно эти инсайты легли в основу другого, сопутствующего продукта – Инсайты DeviceRank.

Еще один уровень защиты
Инсайты DeviceRank – это премиальное предложение (сейчас в закрытом бета-тестировании), которое является качественным дополнительным инструментом для продвинутых маркетологов мобильных приложений. “Инсайты” предоставляют маркетологам детальные рейтинги устройств во всех кампаниях, а также другие данные маркетинговой активности и эффективности рекламных кампаний. Если коротко – этот инструмент дает возможность определить какие кампании привлекают мошеннические (рейтинг С) или подозрительные (рейтинг В) пользовательские действия, а в какие реальных пользователей. Более того, маркетологи могут отмечать какие кампании или паблишеры показывают аномально высокий процент устройств категории N (новые ID устройств) и X (ограниченный сбор данных).

Реакция индустрии
В течение нескольких часов после запуска DeviceRank, сотни крупных компаний связались с нами, чтобы узнать больше об этой технологии. Перед нами встала дилемма: мы не хотели открыто делиться с мошенниками деталями нашего решения, но в то же время хотели рассказать коллегам о наших наработках и о том, что мы делаем. Ответная реакция от тех, кто получил демо, была феноменальной, а места в закрытом тестировании Инсайтов DeviceRank пользуются большим спросом.

К сожалению, другой участник нашего рынка решил опубликовать пасквильные утверждения о том, что эффективность DeviceRank строится на неподтвержденных предположениях. Хотя до этого, именно эта компания призывала лидеров индустрии разработать новые инструменты защиты от мобильного мошенничества. Этот разочаровывающих выпад в адрес DeviceRank был основан на недостатке информации и недальновиден, проще говоря, неправилен.

DeviceRank – это инновационная, экспериментальная технология, которая использует стандартные мобильные данные для того, чтобы предоставить мощные новые возможности всем клиентам AppsFlyer с помощью нашего пакетного антифрод решения. DeviceRank не является и никогда не являлся самодостаточным, отдельно стоящим антифрод решением и им нельзя воспользоваться в качестве самостоятельного продукта. Инсайты DeviceRank предоставляют маркетологам качественное обнаружение мошенничества на уровне устройств и возможность решать проблемы с мошенническими и подозрительными установками и вовлеченностью.

Мы решили не опускаться до уровня наших оппонентов и не вступать в незрелую драку в грязи. И спасибо, что почти каждый репортер, который обратился к команде прежде, чем публиковать эту историю, определил, что не было никакого повода для публикации.

Реакция специалистов
Отклик о новой технологии, который мы получили от маркетологов и мобильных специалистов был невероятно положителен. И хотя продукту только несколько недель, каждый маркетолог, получивших демо Инсайтов DeviceRank вернулся к нам с качественными предложениями о дальнейшей работе в этом направлении. В первые недели после запуска у нас не было ни одного ложноположительного результата от рекламодателей. Мы даже не предполагали такой волны положительных отзывов, и я благодарю науку о данных и нашу продуктовую команду за весь их тяжелый труд, сделавший это инновационное решение реальностью.

Следующие шаги и ключевые выводы
Мошенничество в мобильной среде – реальная проблема и растущая угроза. Изобретательные мошенники продолжают постоянно развиваться. DeviceRank – это большой шаг вперед, первый из многих. Это не остановит мобильный фрод, но даст всем нашим клиентам преимущество перед конкурентами (которые не используют наше решение).

Один из ключевых выводов для моей команды из всего этого процесса – важность доработок и оптимизации, основанных на данных. То, что началось как исследовательское упражнение, эволюционировало много раз, прежде чем стать полностью отточенным и готовым к релизу продуктом. Каждая итерация открывала новые возможности, которые вели к более тщательной проработке отдельных продуктовых фич.  Такой же подход мы рекомендуем мобильным маркетологам: используйте наш продукт и вы сами прекрасно увидите результаты. Практикуйте то, что мы проповедуем.  

В “густонаселенной” индустрии подход, основанный на данных, является ключевой инновацией. Мы гордимся тем, что именно он привел к успеху DeviceRank. Ранее мы решили не выпускать DeviceRank на рынок, пока наша уверенность в данных не будет тверда, как камень. И результаты говорят сами за себя.