Ensocore | Анализ кликов – OpenSource архитектура

ным кодом для создания мощной, масштабируемой, устойчивой к сбоям службы анализа кликов в режиме реального времени легче, чем вы могли ожидать. Все компоненты легко доступны и постоянно совершенствуются благодаря армии opensource-сообщества и организаций, которые также используют этот софт. Давайте посмотрим на стек, чтобы все это заработало: стек включает Divolte, Apache Kafka и Apache Druid. Детали каждого компонента описаны ниже.

Divolte

Divolte можно использовать как основу для создания чего угодно: от базовой панели инструментов веб-аналитики до механизмов рекомендаций в реальном времени или систем оптимизации баннеров. Используя небольшой фрагмент JavaScript и пиксель в веб-браузере клиентов, он собирает данные о их поведении на веб-сайте или в приложении. Инструмент Divolte с лицензией Apache был открыт GoDataDriven, который занимается ключевыми проектами с открытым кодом, такими как Apache Airflow и Apache Flink.

Серверным компонентом является Divolte Collector, который получает события от легкого компонента Javascript на стороне клиента, встроенного в ваш веб-сайт или приложение. После встраивания этот компонент автоматически будет собирать и отправлять детали в Divolte Collector. Это масштабируемый и эффективный сервер для сбора данных кликов и публикации их в приемнике, например Kafka, HDFS или S3.

Детали, включенные в стандартный набор данных, предоставляют большое количество информации. Вот пример того, что включено: Активность устройства сессии, Первая сессия, IP-адрес и т.д. Вы можете пойти дальше, добавив новые события и данные, чтобы добавить богатства и широты стандартным параметрам. Примером может быть инициирование сообщения, которое будет записано, когда пользователи прокручивают страницы длинной формы, и опубликовать его на информационной панели в режиме реального времени, чтобы редакторы контента могли адаптировать свой контент через несколько минут после публикации, чтобы увеличить показы рекламы и улучшить качество их выхода.

Kafka

Атрибуты, собранные Divolte, можно передавать в реальном времени прямо в Apache Kafka с помощью простого изменения конфигурации.

Типичный конвейер для Kafka начинается с приема данных из баз данных, шин сообщений, API и программных адаптеров (туда подходит Divolte), предварительной обработки (нормализация, фильтрация, трансформация и обогащение), аналитики (включая машинное обучение и сопоставление шаблонов), а затем потребления инструментами для отчетности и контроля процессов, приложениями пользователя и аналитикой в реальном времени.

Druid

После того как события доставлены в тему Apache Kafka, потребители сообщений потребляют события. Apache Druid явля

ется идеальным партнёром для использования данных в реальном времени от Kafka; это позволяет создавать информационные панели и визуализации, использующие данные в реальном времени, действительно практичный опыт исследования данных для видов специального анализа, который необходим маркетологам и разработчикам продуктов. Используя инструмент визуализации на основе Druid, они могут исследовать данные в реальном времени и делать выводы о том, что происходит прямо сейчас, не привлекая инженеров.

Что дальше?

Далее дело только за практикой! Хороший пример настройки стека приведен в этой статье: клик!

Михайло Махно

Анализ кликов – OpenSource архитектура

More recent stories

Создание решений торгов в режиме реального времени для видеорекламы

Разница между NiFi и Streamsets

Apache Druid — Краткий обзор