Please enable JavaScript to view the comments powered by Disqus.

Аналіз кліків – OpenSource архітектура

Image

Приймати рішення та ставити запитання щодо цифрових послуг, які ви надаєте, має бути легко. Але дані, які вам потрібні, фільтруються й обробляються, перш ніж вони потраплять до вас – часто, коли вже надто пізно. Тріада проектів з відкритим вихідним кодом – Divolte, Apache Kafka та Apache Druid – може забезпечивати збір даних у реальному часі, потокову передачу та інтерактивну візуалізацію потоків кліків, тож ви можете досліджувати, що відбувається на ваших цифрових каналах так само легко, як дивитись у вікно офісу.

Поведінка користувачів у цифрових додатках записується як потік окремих подій, у якому записується кожен крок відвідувача, який він подорожує відвідуванням веб-сайту, читає статті, натискає посилання, надсилає форми тощо.

Протягом багатьох років ці дані були доступні лише для адміністраторів серверів, збиралися як журнали веб-сервера в такому обсязі та складності, що отримати розуміння бізнесу було складно. Але в міру того, як цифрові канали виросли на критично важливий статус, який вони мають сьогодні, зросла важливість з’ясувати, як використовувати ці дані, щоб швидко зрозуміти поведінку та профілі клієнтів і прийняти ефективні бізнес-рішення.

Такі популярні продукти, як Google Analytics, були створені, щоб задовольнити цю потребу та надати способи надання цих даних різним командам в організації. Ці інструменти зберігають дані на розміщених платформах і надають обмежений набір попередньо відформатованих і часто відкладених переглядів взаємодії користувача.

У міру того, як цифрові канали розповсюдилися та зросли як у критичності для бізнесу, так і в швидкості й об’ємі даних, стратегам розвитку продукту та ринку потрібен швидший і гнучкіший доступ до цих поведінкових даних, навіть коли набори даних розростаються до величезних масштабів. Їм потрібен інтуїтивно зрозумілий інтерфейс, який дозволить їм досліджувати завжди свіжі дані в режимі реального часу, підживлюючи їхню цікавість і забезпечуючи проактивне прийняття рішень.

Тепер три проекти програмного забезпечення з відкритим вихідним кодом дозволяють вам підтримувати перетікання даних від користувача до аналітика або особи, що приймає рішення, для спеціального дослідження даних у реальному часі, повертаючи дані потоку кліків під ваш власний контроль: де воно зберігається, що зберігається та як довго воно зберігається.

Використовувати технології з відкритим вихідним кодом для створення потужної, масштабованої, стійкої до збоїв служби аналізу кліків у режимі реального часу легше, ніж ви могли очікувати. Усі компоненти легко доступні та постійно вдосконалюються завдяки армії opensource спільноти та організацій, що також використовують цей софт. Давайте подивимося на стек, щоб усе це запрацювало: стек включає Divolte, Apache Kafka та Apache Druid. Подробиці кожного компонента описано нижче.

Divolte

Divolte можна використовувати як основу для створення чого завгодно: від базової панелі інструментів веб-аналітики до механізмів рекомендацій у реальному часі чи систем оптимізації банерів. Використовуючи невеликий фрагмент JavaScript і піксель у веб-переглядачі клієнтів, він збирає дані про їхню поведінку на веб-сайті чи в програмі. Інструмент Divolte з ліцензією Apache був відкритий GoDataDriven, який займається ключовими проектами з відкритим кодом, такими як Apache Airflow і Apache Flink.

Серверним компонентом є Divolte Collector, який отримує події від легкого компонента Javascript на стороні клієнта, вбудованого у ваш веб-сайт або програму. Після вбудовування цей компонент автоматично збиратиме та надсилатиме деталі до Divolte Collector. Це масштабований і продуктивний сервер для збору даних кліків і публікації їх у приймачі, наприклад Kafka, HDFS або S3.

Деталі, включені в стандартний набір даних, надають велику кількість інформації. Ось зразок того, що включено: Пристрій активності сеансу, Перша сесія, IP-адреса тощо. Ви можете піти далі, додавши нові події та дані, щоб додати багатства та широти стандартним параметрам. Прикладом може бути ініціювання повідомлення, яке буде записане, коли користувачі прокручують сторінки довгої форми, і опублікувати його на інформаційній панелі в режимі реального часу, щоб редактори вмісту могли адаптувати свій вміст через кілька хвилин після публікації, щоб збільшити покази реклами та покращити якість їх вихід.

Kafka

Атрибути, зібрані Divolte, можна передавати в реальному часі прямо в Apache Kafka за допомогою простої зміни конфігурації.

Типовий конвеєр для Kafka починається з прийому даних із баз даних, шин повідомлень, API та програмних адаптерів (туди підходить Divolte), попередньої обробки (нормалізація, фільтрація, трансформація та збагачення), аналітики (включаючи машинне навчання та зіставлення шаблонів). ), а потім споживання інструментами для звітності та контролю процесів, програмами користувача та аналітикою в реальному часі.

Druid

Після того як події доставлено до теми Apache Kafka, споживачі повідомлень споживають події. Apache Druid є ідеальним партнером для використання даних у реальному часі від Kafka; це дозволяє створювати інформаційні панелі та візуалізації, які використовують дані в реальному часі, справді практичний досвід дослідження даних для видів спеціального аналізу, який потрібен маркетологам і розробникам продуктів. Використовуючи інструмент візуалізації на основі Druid, вони можуть досліджувати дані в реальному часі та робити висновки про те, що відбувається зараз, не залучаючи інженерів.

Що далі?

Далі справа лише за практикою! Гарний приклад налаштування стеку наведено у цій статті: клік!

Mykhailo Makhno

 

More recent stories

Image
2019-02-19 09:26:23
Створення рішень для торгів у режимі реального часу для відеореклами
Read More
Image
2020-10-05 17:33:16
Різниця між NiFi та Streamsets
Read More
Image
2021-01-09 16:32:26
Apache Druid — короткий огляд
Read More