Заказчик - крупная консалтинговая компания в сфере недвижимости решила автоматизировать процесс по классификации и типизации данных, поскольку ручная классификация активов компании по подгруппам и странам производства отнимала много времени и ресурсов из-за невозможности одновременной работы. Все это существенно увеличивало время ожидания ответа клиентом.
Кроме того, присутствовала высокая вероятность человеческих ошибок при обработке десятков тысяч наименований
Цель:
Автоматизировать процесс классификации наименований активов по подгруппам (75+ категорий) и регионам производства (10+ регионов) с помощью машинного обучения.
Как решали?
Процесс разработки включал несколько этапов:
Кроме того, присутствовала высокая вероятность человеческих ошибок при обработке десятков тысяч наименований
Цель:
Автоматизировать процесс классификации наименований активов по подгруппам (75+ категорий) и регионам производства (10+ регионов) с помощью машинного обучения.
Как решали?
Процесс разработки включал несколько этапов:
➊
ML-СИСТЕМА
➋
ВЕБ-ИНТЕРФЕЙС
➌
МЕХАНИЗМ ДООБУЧЕНИЯ
➍
СИСТЕМА ОБРАБОТКИ КОНФЛИКТОВ КЛАССИФИКАЦИИ И ВЕДЕНИЯ ЛОГОВ
➎
АРХИТЕКТУРА ДЛЯ МОДУЛЯ ПАРСИНГА ЦЕН
Этап I. Разработана ML-система на базе дообучаемой модели BERT (bert-base-multilingual-cased)
Этап II. Создан веб-интерфейс с системой ролей (3 уровня доступа)
Этап III. Реализован механизм дообучения модели на основе пользовательских исправлений
Этап IV. Система обработки конфликтов классификации и ведения логов
Этап V. Заложена архитектура для модуля парсинга цен (в разработке из-за ограничений доступа к сайтам при подборе средней цены)
Срок: 3 месяца
Результат
Этап II. Создан веб-интерфейс с системой ролей (3 уровня доступа)
Этап III. Реализован механизм дообучения модели на основе пользовательских исправлений
Этап IV. Система обработки конфликтов классификации и ведения логов
Этап V. Заложена архитектура для модуля парсинга цен (в разработке из-за ограничений доступа к сайтам при подборе средней цены)
Срок: 3 месяца
Результат
- Сокращение времени обработки документов в 10+ раз
- Освобождение 3-4 сотрудников от рутинной работы классификации
- Обработка 92,000 строк обучающих данных
- Классификация по 75+ подгруппам и 7+ регионам
Отзыв клиента:
"Раньше у нас 3-4 человека постоянно сидели и вручную классифицировали активы при проведении аудитов- это было очень трудозатратно и не всегда точно. К тому же этот процесс занимал слишком много времени. Теперь система делает это автоматически: больше половины наименований классифицируется точно с первого раза, еще четверть - со второго раза после дообучения. Время обработки больших массивов данных сократилось в разы, а наши сотрудники могут заниматься более важными аналитическими задачами. Особенно ценно, что система умеет учиться на наших исправлениях и становится только лучше. Интерфейс программы интуитивно понятный и удобный для дообучения"
Состав команды:
Ведущий разработчик/ML-инженер
Мененджер проекта
Эксперт заказчика для валидации результатов
Инструменты команды:
Софт:
Python, PyTorch, Transformers (Hugging Face)
BERT multilingual для NLP
Pandas, NumPy для обработки данных
PostgreSQL для хранения данных
Железо:
CPU: AMD Ryzen 5 3600
RAM: 16GB
GPU: GTX 1660S, 6GB VRAM для обучения ML-модели
Архитектура:
Веб-приложение с API
Система управления пользователями
База данных для логирования и дообучения