Кейсы

Автоматизация бизнес-процессов. Сервис по классификации и типизации данных

Заказчик - крупная консалтинговая компания в сфере недвижимости решила автоматизировать процесс по классификации и типизации данных, поскольку ручная классификация активов компании по подгруппам и странам производства отнимала много времени и ресурсов из-за невозможности одновременной работы. Все это существенно увеличивало время ожидания ответа клиентом.
Кроме того, присутствовала высокая вероятность человеческих ошибок при обработке десятков тысяч наименований

Цель:
Автоматизировать процесс классификации наименований активов по подгруппам (75+ категорий) и регионам производства (10+ регионов) с помощью машинного обучения.

Как решали?
Процесс разработки включал несколько этапов:

➊

ML-СИСТЕМА

➋

ВЕБ-ИНТЕРФЕЙС

➌

МЕХАНИЗМ ДООБУЧЕНИЯ

➍

СИСТЕМА ОБРАБОТКИ КОНФЛИКТОВ КЛАССИФИКАЦИИ И ВЕДЕНИЯ ЛОГОВ

➎

АРХИТЕКТУРА ДЛЯ МОДУЛЯ ПАРСИНГА ЦЕН

Этап I. Разработана ML-система на базе дообучаемой модели BERT (bert-base-multilingual-cased)
Этап II. Создан веб-интерфейс с системой ролей (3 уровня доступа)
Этап III. Реализован механизм дообучения модели на основе пользовательских исправлений
Этап IV. Система обработки конфликтов классификации и ведения логов
Этап V. Заложена архитектура для модуля парсинга цен (в разработке из-за ограничений доступа к сайтам при подборе средней цены)

Срок: 3 месяца

Результат

Общая точность	Попаданий с 1 уровня	Попаданий со 2 уровня	Попаданий с 3 уровня	Нуждается в корректировке и дообучение
89%	57%	26%	6%	11%

Сокращение времени обработки документов в 10+ раз
Освобождение 3-4 сотрудников от рутинной работы классификации
Обработка 92,000 строк обучающих данных
Классификация по 75+ подгруппам и 7+ регионам

Отзыв клиента:
"Раньше у нас 3-4 человека постоянно сидели и вручную классифицировали активы при проведении аудитов- это было очень трудозатратно и не всегда точно. К тому же этот процесс занимал слишком много времени. Теперь система делает это автоматически: больше половины наименований классифицируется точно с первого раза, еще четверть - со второго раза после дообучения. Время обработки больших массивов данных сократилось в разы, а наши сотрудники могут заниматься более важными аналитическими задачами. Особенно ценно, что система умеет учиться на наших исправлениях и становится только лучше. Интерфейс программы интуитивно понятный и удобный для дообучения"

Состав команды:
Ведущий разработчик/ML-инженер
Мененджер проекта
Эксперт заказчика для валидации результатов

Инструменты команды:

Софт:
Python, PyTorch, Transformers (Hugging Face)
BERT multilingual для NLP
Pandas, NumPy для обработки данных
PostgreSQL для хранения данных

Железо:
CPU: AMD Ryzen 5 3600
RAM: 16GB
GPU: GTX 1660S, 6GB VRAM для обучения ML-модели

Архитектура:
Веб-приложение с API
Система управления пользователями
База данных для логирования и дообучения

В интересах защиты информации и обеспечения конфиденциальности, название компании, для которой был выполнен данный проект, не разглашается. Это решение принято с целью минимизации рисков, связанных с возможными кибератаками, утечками данных, а также для сохранения коммерческой тайны, касающейся структуры и особенностей работы сервисов клиента.

Мы придерживаемся строгих стандартов безопасности, гарантируя, что вся информация о наших клиентах остается конфиденциальной и защищенной от внешних угроз и конкурентных воздействий. Наши меры включают использование передовых методов защиты данных, регулярные аудиты безопасности и соблюдение международных норм и стандартов.

Однако, при наличии действующего соглашения о неразглашении (NDA) с потенциальным клиентом и при наличии определенных условий конфиденциальности с текущим клиентом, мы готовы предоставить более детальную информацию в отношении кейса, указанного на этой странице. Такой подход обеспечивает прозрачность в отношениях с будущими партнерами, не нарушая наших обязательств перед текущими клиентами.

Благодаря соблюдению строгих стандартов безопасности, мы не только защищаем данные, но и гарантируем долгосрочную устойчивость и надежность наших решений. Это позволяет нам минимизировать риски и обеспечивает безопасность на всех этапах сотрудничества.

У Вас есть вопрос?

Получите консультацию нашего эксперта!

2025-06-27 00:14 BigData