Принимать решения и задавать вопросы о цифровых услугах, которые вы предоставляете, должно быть легко. Но данные, которые вам нужны, фильтруются и обрабатываются, прежде чем они попадут к вам — часто, когда уже слишком поздно. Триада проектов с открытым исходным кодом — Divolte, Apache Kafka и Apache Druid — может обеспечивать сбор данных в реальном времени, потоковую передачу и интерактивную визуализацию потоков кликов, так что вы можете исследовать, что происходит на ваших цифровых каналах так же легко, как смотреть в офисное окно.
Поведение пользователей в цифровых приложениях записывается как поток отдельных событий, в котором регистрируется каждый шаг посетителя, который он совершает, посещая веб-сайт, читая статьи, нажимая ссылки, отправляя формы и т.д.
На протяжении многих лет эти данные были доступны только администраторам серверов, собирались как журналы веб-сервера в таком объеме и сложности, что получить понимание бизнеса было сложно. Но по мере того, как цифровые каналы выросли до критически важного статуса, который они имеют сегодня, возросла важность выяснить, как использовать эти данные, чтобы быстро понять поведение и профили клиентов и принять эффективные бизнес-решения.
Такие популярные продукты, как Google Analytics, были созданы, чтобы удовлетворить эту потребность и предоставить способы предоставления этих данных различным командам в организации. Эти инструменты хранят данные на размещенных платформах и предоставляют ограниченный набор предварительно отформатированных и часто отложенных просмотров взаимодействия пользователя.
По мере того, как цифровые каналы распространялись и росли как в критичности для бизнеса, так и в скорости и объеме данных, стратегам развития продукта и рынка нужен быстрый и гибкий доступ к этим поведенческим данным, даже когда наборы данных разрастаются до огромных масштабов. Им нужен интуитивно понятный интерфейс, который позволит им исследовать всегда свежие данные в режиме реального времени, подпитывая их любопытство и обеспечивая проактивное принятие решений.
Теперь три проекта программного обеспечения с открытым исходным кодом позволяют вам поддерживать поток данных от пользователя к аналитику или лицу, принимающему решения, для специального исследования данных в реальном времени, возвращая данные потока кликов под ваш собственный контроль: где оно хранится, что хранится и как долго оно хранится.
Использовать технологии с открытым исход
ным кодом для создания мощной, масштабируемой, устойчивой к сбоям службы анализа кликов в режиме реального времени легче, чем вы могли ожидать. Все компоненты легко доступны и постоянно совершенствуются благодаря армии opensource-сообщества и организаций, которые также используют этот софт. Давайте посмотрим на стек, чтобы все это заработало: стек включает Divolte, Apache Kafka и Apache Druid. Детали каждого компонента описаны ниже.
Divolte
Divolte можно использовать как основу для создания чего угодно: от базовой панели инструментов веб-аналитики до механизмов рекомендаций в реальном времени или систем оптимизации баннеров. Используя небольшой фрагмент JavaScript и пиксель в веб-браузере клиентов, он собирает данные о их поведении на веб-сайте или в приложении. Инструмент Divolte с лицензией Apache был открыт GoDataDriven, который занимается ключевыми проектами с открытым кодом, такими как Apache Airflow и Apache Flink.
Серверным компонентом является Divolte Collector, который получает события от легкого компонента Javascript на стороне клиента, встроенного в ваш веб-сайт или приложение. После встраивания этот компонент автоматически будет собирать и отправлять детали в Divolte Collector. Это масштабируемый и эффективный сервер для сбора данных кликов и публикации их в приемнике, например Kafka, HDFS или S3.
Детали, включенные в стандартный набор данных, предоставляют большое количество информации. Вот пример того, что включено: Активность устройства сессии, Первая сессия, IP-адрес и т.д. Вы можете пойти дальше, добавив новые события и данные, чтобы добавить богатства и широты стандартным параметрам. Примером может быть инициирование сообщения, которое будет записано, когда пользователи прокручивают страницы длинной формы, и опубликовать его на информационной панели в режиме реального времени, чтобы редакторы контента могли адаптировать свой контент через несколько минут после публикации, чтобы увеличить показы рекламы и улучшить качество их выхода.
Kafka
Атрибуты, собранные Divolte, можно передавать в реальном времени прямо в Apache Kafka с помощью простого изменения конфигурации.
Типичный конвейер для Kafka начинается с приема данных из баз данных, шин сообщений, API и программных адаптеров (туда подходит Divolte), предварительной обработки (нормализация, фильтрация, трансформация и обогащение), аналитики (включая машинное обучение и сопоставление шаблонов), а затем потребления инструментами для отчетности и контроля процессов, приложениями пользователя и аналитикой в реальном времени.
Druid
После того как события доставлены в тему Apache Kafka, потребители сообщений потребляют события. Apache Druid явля
ется идеальным партнёром для использования данных в реальном времени от Kafka; это позволяет создавать информационные панели и визуализации, использующие данные в реальном времени, действительно практичный опыт исследования данных для видов специального анализа, который необходим маркетологам и разработчикам продуктов. Используя инструмент визуализации на основе Druid, они могут исследовать данные в реальном времени и делать выводы о том, что происходит прямо сейчас, не привлекая инженеров.
Что дальше?
Далее дело только за практикой! Хороший пример настройки стека приведен в этой статье: клик!
Михайло Махно