Обзор книги: Process Mining: Data Science in Action

Process Mining: Data Science in Action 2nd ed. by Wil M. P. van der Aalst (Author)

Прочитал тут книгу Process Mining: Data Science in Action. Хорошая вводная книга в процесс-майнинг. Автор - один из разработчиков первого рабочего алгоритма процесс-майнинга и вообще занимается этой проблемой 30 лет.

Процесс-майнинг - это генерация моделей бизнес-процессов на основе логов автоматических систем управления предприятиями: типа CRM и ERM систем. Там в логах накапливаются данные о том, кто что сделал, с кем контактировал, кому что отправил. И задача автоматического процесс майнинга заключается в том, чтобы проанализировать эти логи и построить модель бизнес-процесса.

В книге подробно описан весь процесс с самых основ, вроде разных типов диаграмм процессов (petri nets, bpmn и др.), по подробных описаний алгоритмов.

В изложении автора, процесс-майнинг - связывает между собой науку процессов (process-science - больше похоже на часть менеджмента: BPM и т.п.) и дата-сайнс. Процесс-майнинг как отдельная дисциплина нужен потому, что в дата-сайнс нет методов, которыми можно было бы извлечь процессы из данных (ближе всего подходит sequence mining). А в процесс-сайнс не хватает использования данных - модели процессов там рисуют вручную.

Как видно из подзаголовка (Data Science in action) автор видит процесс-майнинг как прикладную задачу дата-сайнс в менеджменте. И это действительно так: книга будет полезна тем, кто занимается дата-анализом бизнес-процессов и, наверное, бесполезна тем кто от этого далек.

Я начал читать эту книгу, потому что изучал, как можно построить процессы принятия решений о покупке на основе UGC, вроде отзывов (на стартапер-линго - сделать автоматический CJM-майнинг😊). Мне хотелось понять, что уже есть и в какую сторону придется двигаться.

Из-за того, что процесс майнинг в книге делается из достаточно хорошо структурированных логов (хотя там есть глава про сложности с подготовкой данных, но все же это не UGC), применить эти алгоритмы напрямую не получится. Сначала придется научиться структурировать текстовые данные при помощи LLM. Но, к счастью, на arxiv уже есть несколько статей как это делать.

Поэтому самое полезное в этой книге для меня оказались описания различных проблем с моделированием процессов (лазанья-процессы/спагетти-процессы), диаграмм нотаций и их использования, и в целом погружение в язык бизнес-процессов с использованием данных. Благодаря ей будет проще, когда я все же дойду до того, чтобы выделить процессы из неструктурированного текста в формат подходящий для алгоритмов книги (спойлер с arxiv: GPT4 умеет строить модель, но GPT4+алгоритмы процесс-майнинга лучше).