Автоматизация бизнес-процессов. Сервис по классификации и типизации данных
Заказчик - крупная консалтинговая компания в сфере недвижимости решила автоматизировать процесс по классификации и типизации данных, поскольку ручная классификация активов компании по подгруппам и странам производства отнимала много времени и ресурсов из-за невозможности одновременной работы. Все это существенно увеличивало время ожидания ответа клиентом. Кроме того, присутствовала высокая вероятность человеческих ошибок при обработке десятков тысяч наименований
Цель: Автоматизировать процесс классификации наименований активов по подгруппам (75+ категорий) и регионам производства (10+ регионов) с помощью машинного обучения.
Как решали? Процесс разработки включал несколько этапов:
➊
ML-СИСТЕМА
➋
ВЕБ-ИНТЕРФЕЙС
➌
МЕХАНИЗМ ДООБУЧЕНИЯ
➍
СИСТЕМА ОБРАБОТКИ КОНФЛИКТОВ КЛАССИФИКАЦИИ И ВЕДЕНИЯ ЛОГОВ
➎
АРХИТЕКТУРА ДЛЯ МОДУЛЯ ПАРСИНГА ЦЕН
Этап I. Разработана ML-система на базе дообучаемой модели BERT (bert-base-multilingual-cased) Этап II. Создан веб-интерфейс с системой ролей (3 уровня доступа) Этап III. Реализован механизм дообучения модели на основе пользовательских исправлений Этап IV. Система обработки конфликтов классификации и ведения логов Этап V. Заложена архитектура для модуля парсинга цен (в разработке из-за ограничений доступа к сайтам при подборе средней цены)
Срок: 3 месяца
Результат
Общая точность
Попаданий с 1 уровня
Попаданий со 2 уровня
Попаданий с 3 уровня
Нуждается в корректировке и дообучение
89%
57%
26%
6%
11%
Сокращение времени обработки документов в 10+ раз
Освобождение 3-4 сотрудников от рутинной работы классификации
Обработка 92,000 строк обучающих данных
Классификация по 75+ подгруппам и 7+ регионам
Отзыв клиента: "Раньше у нас 3-4 человека постоянно сидели и вручную классифицировали активы при проведении аудитов- это было очень трудозатратно и не всегда точно. К тому же этот процесс занимал слишком много времени. Теперь система делает это автоматически: больше половины наименований классифицируется точно с первого раза, еще четверть - со второго раза после дообучения. Время обработки больших массивов данных сократилось в разы, а наши сотрудники могут заниматься более важными аналитическими задачами. Особенно ценно, что система умеет учиться на наших исправлениях и становится только лучше. Интерфейс программы интуитивно понятный и удобный для дообучения"
Состав команды: Ведущий разработчик/ML-инженер Мененджер проекта Эксперт заказчика для валидации результатов
Инструменты команды:
Софт: Python, PyTorch, Transformers (Hugging Face) BERT multilingual для NLP Pandas, NumPy для обработки данных PostgreSQL для хранения данных
Железо: CPU: AMD Ryzen 5 3600 RAM: 16GB GPU: GTX 1660S, 6GB VRAM для обучения ML-модели
Архитектура: Веб-приложение с API Система управления пользователями База данных для логирования и дообучения