Заказчик - крупная аптечная сеть. В процессе разработки и модернизации нового программного обеспечения (ПО) Команда ИТ-специалистов Заказчика столкнулась с необходимостью использования масштабируемой и отказоустойчивой платформы для совместной работы. Для этих целей Заказчиком была выбрана распределенная потоковая платформа Apache Kafkа, позволяющая обрабатывать и передавать данные в реальном времени.
В процессе внедрения и настройки Kafka команда Заказчика столкнулась с такими проблемами, как ошибки и сбои в работе текущей инфраструктуры, что приводило к снижению клиентского сервиса и нарушению сроков, негативно влияя на рентабельность бизнеса. Заказчик обратился к нам для проведения аудита и последующей настройки платформы.
Цель:
Аудит текущей инфраструктуры Заказчика.
Настройка и обеспечение бесперебойной работы потоковой платформы Apache Kafka.
Как решали:

I Этап. Аудит текущих настроек Apache Kafka
Специалистами Just IT был проведен анализ текущей инфраструктуры Заказчика, в результате которого было выявлено, что сборка кластера Kafka была выполнена некорректно, API и НОДы работали с ошибками, распределение нагрузки и ресурсов было настроено неверно. В связи с тем, что силами Заказчика данную проблему не удавалось решить в течение длительного времени - привлекли наших инженеров.
II Этап.Формирование команды
Для решения поставленных задач было выбрано три исполнителя: team lid для управление проектом, middle devops и senior devops для проведения глубокого анализа, построения инфраструктуры реализации и внедрения изменений.
III Этап.Интеграция и развертывание
Наша команда проработала архитектуру проекта и собрала новый кластер Kafka с тремя Server Node для повышения стабильности, улучшения производительности и обеспечения безопасности. Также было использовано два балансировщика нагрузки на сервер для плавного масштабирования инфраструктуры и повышения отказоустойчивости. Было настроено распределение сетевого трафика и задач между устройствами.
IV Этап.Мониторинг и логирование
Для выявления и устранения ошибок и обеспечения безопасности были использованы сервисы мониторинга работы Kafka, что позволило отладить работу системы.
V Этап.Обучение специалистов со стороны Заказчика
Срок реализации:
2 недели.
Результат
Улучшение качества и надежности: кластер Kafka работает стабильно без сбоев Проект реализован по принципу - инфраструктура как код, любые изменения проходят через Репозиторий.
Инструменты
Состав команды