НАВИГАЦИЯ
КОНТАКТЫ
  • LinkedIn - White Circle
  • Facebook - White Circle
  • Twitter - White Circle

info@DDM.center

Телефон: +380 67 341 7101

© 2017 DDM.center

Жизненный путь и аналитика.

Садик-школа-жизнь отдельно от родителей-ВУЗ-работа-семья-дети многие проходят этот путь. И, наверное, это наиболее распространенная последовательность жизненных этапов. Хотя, как говорится, счастливы все одинаково...но ведь разнообразие тоже хорошо. О том, как исследовать "жизненный путь" и анализировать разнообразие вариантов пойдет речь в этой публикации.

 

Если мы посмотрим на эту ситуацию немного более абстракто и назовем "этап жизни" состоянием, а изменение состояний переходом, то мы сможем представить гораздо больше различных примеров в бизнесе, где возможно применять опдход, который называется анализ последовательностей. Перечислим только некоторые из них:

  • Потенциальный клиент проходит различные стадии воронки продаж

  • Посетитель сайта переходит по различным страницам, выбирает товар, формирует корзину, оформляет покупку

  • Клиент взаимодействует с компанией, проходит стадии от потенциального клиента до бывшего

  • Посетитель торгового центра переходит от магазина к магазину

  • Покупатель автомобиля проходит путь из ТО0, ТО1, ремонт,... ТО6, покупка нового автомобиля

  • Сотрудник, приходящий в компанию проходит определенные этапы карьеры от стажировки  до уольнения.

 

С этого случая и начнем изчать, что дает анализ последовательностей.

 

Часть первая. 

 

Для иллюстрации возможностей был создан набор данных о сотрудниках, который включает информацию:

  • Пол

  • Возрастная группа

  • Образование (среднее,, высшее, MBA)

  • Изменение уровня должности (линейный сотрудник - Non, менеджер нижнего - Low, среднего - Mid или высшего звена - Top)

  • Статус (работает или уволился - Res)

Безусловно, реальные наборы данных могут содержать гораздо больше информации о сотруднике и о его движении по карьерной лестнице в компании, что даст гораздо больше возможностей для выявления закономерностей. Но цель этой публикации привлечь внимание к методу и показать, что он может использоваться для управления карьерой и оптимизацией процессов рекрутинга, обучения, формирования кадрового резерва и т.п.

 

Посмотрим, как выглядят наши последовательности. По оси X будем откладывать количество лет, прошедших с момента приема на работу. Цветом обозначим уровень должности.

 

Покажем с какой частотой они встречаются или же какова доля каждой найденной последовательности.

 

Наибольшую долю занимают сотрудники, жизненный путь которых в компании около 8 лет и карьера проходит от менеджера низшего звена (8,1%) или линейного персонала (8%) до ТОП-менеджмента.

 

Построим диаграмму распределения последовательностей.

Из нее мы можем сделать вывод о том, какая часть сотрудников сколько лет работает в компании и как проходило развитие их карьеры. Например, мы видим, что около 5% сотрудников работают в компании 20 лет и начинали они свою карьеру с линейных сотрудников. Также примерно 45% сотрудников начинают свою карьеру с "низов" и еще около 30% с позиций менеджеров низшего звена. Часть сотрудников, пришедших на ТОП-позиции работает не более 3,5 лет, а часть уходит в первый же год (набор данных гипотетический, поэтому такая ситуация тоже может быть. А возможно это были приглашенные антикризисные менеджеры :-))

 

Анализируя эту диаграмму, мы можем сделать вывод о том, что компания предоставляет всем сотрудникам возможности для роста не только на рекламном слогане, но и в реальной жизни. Также мы видим, что сотрудники не слишком долго (год, реже 2 года) задерживаются на позициях среднего звена. Возможно, это политика компании, где вместо повышения ЗП, просто награждают более "престижной" должностью.

 

Однако, это еще не все, что мы можемполучить из наших данных. Учитывая, что у нас есть информация о половой принадлежности и образовании, мы можем построить такие же графики с учетом этих параметров.

Оказывается, что в компании больше мужчин начинают свою карьеру с более высоких менеджерских позиций.

 

А карьера сотрудников с MBA и средним образованием разительно отличается.

Аналогичным образом мы имеем возможность изучать "траекторию" переходов между этапами карьеры.

Как по всем сотрудникам одновременно, так и сгруппировав данные, как например, ниже, где показаны переходы между этапами среди женщин и среди мужчин (акцентируем внимание, что это всего лишь синтетический набор данных, в реальной жизни отличий может не существовать или они будут совсем другими, что зависит от множества факторов, начиная от специфики отрасли и заканчивая корпоративной культурой и руководящим составом компании). Также можно анализировать любые другие группировки, например, возраст+подразделение или создав группы по количеству тренингов и других образовательных инициатив. Мало того, тренинги можно указать, как одно из состояний и дальше анализировать влияние этого состояния на карьеру, длительность работы и прочие параметры.

 Для целей планирования мы можем рассчитать матрицу вероятностей переходов из одного состояния в другое 

 

       [-> N] [-> L] [-> M] [-> T] [-> R]
[N ->] 0.542  0.440  0.000  0.000  0.018
[L ->] 0.000  0.636  0.293  0.000  0.071
[M ->] 0.000  0.000  0.524  0.353  0.123
[T ->] 0.000  0.000  0.000  0.680  0.320
[R ->] 0.000  0.000  0.000  0.000  1.000

 

В т.ч. и с учетом лет работы, чтобы иметь возможность прогнозировать карьерный рост сотрудников. Например, такая матрица для второго, третьего и четвертого года

 

 

2-й год

       [-> N] [-> L] [-> M] [-> T] [-> R]
[N ->]   0.45  0.550  0.000  0.000      0
[L ->]   0.00  0.636  0.364  0.000      0
[M ->]   0.00  0.000  0.377  0.623      0
[T ->]   0.00  0.000  0.000  1.000      0
[R ->]   0.00  0.000  0.000  0.000      1

 

3-й год

       [-> N] [-> L] [-> M] [-> T] [-> R]
[N ->]  0.333  0.667  0.000  0.000  0.000
[L ->]  0.000  0.546  0.419  0.000  0.035
[M ->]  0.000  0.000  0.313  0.276  0.411
[T ->]  0.000  0.000  0.000  0.450  0.550
[R ->]  0.000  0.000  0.000  0.000  1.000

 

4-й год

       [-> N] [-> L] [-> M] [-> T] [-> R]
[N ->]  0.422  0.578  0.000  0.000      0
[L ->]  0.000  0.574  0.426  0.000      0
[M ->]  0.000  0.000  0.466  0.534      0
[T ->]  0.000  0.000  0.000  1.000      0
[R ->]  0.000  0.000  0.000  0.000      1

 

Обратите внимание, что риск увольнения существенно растет для менеджеров среднего (0.411) и высшего (0.550) звена на третий год работы, а на четвертый год вероятность нулевая. Вывод, на 3-й годы работы активность по удержанию должна быть максимальной.

 

Коль мы заговорили о точных цифрах, то расскажем еще об одном параметре, который позволяет проводить анализ полученных данных. Это энтропия.

 

Энтропия:

  • Мера непредсказуемости, неоднородности, неопределенности

  • Чем разнообразнее набор состояний, тем выше энтропия

  • Чем равномернее распределение состояний, тем выше энтропия

  • Энтропия максимальна тогда, когда все состояния (исходы) равновероятны

  • Энтропия может быть индивидуальной (горизонтальной) или кроссекторальной (вертикальной)

  • Для обеспечения сопоставимости переходят к относительной энтропии

  • Индекс энтропии (относительная энтропия) принимает значения от 0 до 1

Построим график со значениями энтропии для нашего набора данных.

Мы видим, что с первого по пятый год энтропия растет, и на 5-й год работы достигает своего максимума. Это означает, что до 5 года работы количество вариантов и вероятность их наступления максимальны, а дальше "возможности для роста" сокращаются. 

 

Построим графики кроссекториальной энтропии для образования и возрастной группы.

 

Исходя из графика, мы видим, что энтропия отличается для имеющих MBA-образование, для сотрудников со средним и высшим образованием сильных различий не наблюдается.

 

На грфике кроссекториальнй энтропии для возрастных групп видны различия в разнообразии для группы "22-25" лет и "51-65" лет. Для двух оставшихся групп различий практически нет.

Еще один вид анализ, который поможет понять различия в последовательностях - кластеризация.  Это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны.

 

Есть много способов решать задачу кластеризации, но прежде необходимо определить в чем же различия и сходство между последовательностями, чтобы потом построить матрицу растояний межуд последовательностями и объединять их в кластеры.

 

Сейчас развиваются два принципиально разных подхода:

  • Оценка, подсчет общих частей:

    • Longest common prefix

    • Longest common suffix

    • Longest common subsequence

    • Simple Hamming (подсчет числа позиций, на которых символы отличаются)

  • Оценка стоимости перехода (правок):

    • Optimal matching

    • Hamming

    • Dynamic Hamming

Найдем матрицу расстояний с помощью метода Optimal matching и покажем для примера первые десять элементов (всего в нашем случае матрица 1000х1000 элементов)

 

       [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
 [1,]    0    8    4    0    4    4   31    8    5     4
 [2,]    8    0    9    8    9    8   35    0    9     8
 [3,]    4    9    0    4    0    6   33    9    4     6
 [4,]    0    8    4    0    4    4   31    8    5     4
 [5,]    4    9    0    4    0    6   33    9    4     6
 [6,]    4    8    6    4    6    0   27    8    6     0
 [7,]   31   35   33   31   33   27    0   35   31    27
 [8,]    8    0    9    8    9    8   35    0    9     8
 [9,]    5    9    4    5    4    6   31    9    0     6
[10,]    4    8    6    4    6    0   27    8    6     0

 

Мы видим, что расстояние от элемента №7 к другим элементам из первой десятки существенно больше. Можем предположить, что они входят в разные кластеры.

 

И построим наши кластеры.

Обозначим их как группы и построим диаграммы распределения и частот последовательностей с учетом этих групп. В зависимости от способа построения кластеров мы можем получить разные результаты. Тем не менее в нашем случае выделяются 4 характерные группы (мы можем сформировать списки сотрудников в этих группах и поискать еще какие-то общие черты между ними, или же просто составить индивидуальные планы по работе с этими сотрудниками, которые будут учитывать характеристики группы), которые мы можем описать:

  • Группа №1- 27 % сотрудников приходят на позиции различного уровня (в большей части на нижний (40%) и средний (35%) уровни. Переходят на следующий уровень каждый год. Работают около 3-х лет и увольняются. Скорее всего не устраивают условия работы (ЗП, мотивация, сложность задач, карьерный рост).

  • Группа №2 - 30% сотрудников, которые "выросли и воспитаны" компанией. Почти все приходили и расли с самых "низов". Через 6-9 лет становились менеджерами среднего звена. 80% работают  7 лет и более, а 25% больше 12 лет.

  • Группа №3 - 27% сотрудников. Очень похожа на группу №2 за исключением того, что 80% сотрудников поступило на работу на должности нижнего управленческого звена и проработали в компании не менее 5 лет.

  • Группа №4 - 15% - ядро менеджмента среднего и высшего звена.

 

Также покажем распределение долей последовательностей в кластерах.

Еще одна задача - найти факторы (предикторы), которые больше всего влияют на различия в наборе последовательностей. Делаем это при помощи регрессионного анализа.

 

Call:
lm(formula = cj.cplx ~ cj$edu + cj$sex + cj$age + cj$fnc, data = cj)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.267156 -0.045427 -0.007809  0.055096  0.200979 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.2104490  0.0181115  11.620  < 2e-16 ***
cj$eduВ.     0.0574530  0.0110809   5.185 2.62e-07 ***
cj$eduСр.    0.0606952  0.0178307   3.404 0.000691 ***
cj$sexМ     -0.0199693  0.0053652  -3.722 0.000209 ***
cj$age26-35  0.0006624  0.0132968   0.050 0.960279    
cj$age36-50 -0.0045025  0.0134708  -0.334 0.738269    
cj$age51-65  0.0085421  0.0179974   0.475 0.635155    
cj$fncManuf  0.0006210  0.0083390   0.074 0.940650    
cj$fncSales -0.0007458  0.0079843  -0.093 0.925603    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.08278 on 991 degrees of freedom
Multiple R-squared:  0.04342,    Adjusted R-squared:  0.0357 
F-statistic: 5.623 on 8 and 991 DF,  p-value: 5.384e-07

 

И визуализируем полученные результаты. Мы видим явные отличия последовательностей в уровне образования и среди мужчин и женщин.

 

 

 Еще одна диаграмма, которая отображает время среднее время пребывания в каждом состоянии. Хорошо заметно, что сотрудники с образованием MBA гораздо дольше находятся на позициях среднего и ТОП-менеджмента, чем остальные. А женщины чуть дольше находятся на позициях нижнего и среднего менеджмента, чем мужчины.

Мы можем анализировать все эти данные не только визуально, но и оперируя точными цифрами.

  Mean  Var Stdev    SE
N  1.0  2.0   1.4 0.045
L  2.1  3.6   1.9 0.060
M  1.6  1.9   1.4 0.044
T  1.9  8.1   2.8 0.090
R 13.5 17.7   4.2 0.133

 

 

Учитывая, что данной статьей мы лишь хотели привлечь внимание к анализу последовательностей, как одному из инструментов для анализа "жизненного пути", подведем короткие итоги и после продемонстрируем как этот же метод можно использовать для анализа воронки продаж.

Как было изложено ранее, с помощью анализа последовательностей мы можем решать некоторые задачи, связанные с управлением карьерой сотрудников, формировать инициативы, связанные с процессами набора и обучения персонала, анализировать влияние программ лояльности и т.п. Как это можно сделать для Вашей компании? Просто напишите нам или назначьте встречу.

 

 

 

Часть вторая. 

 

 

Воронка продаж. Ранее мы уже обращались к вопросу анализа воронки продаж, продолжим эту тему . Будем рассматривать воронку продаж как последовательность состояний от идентификации клиента до закрытия сделки.

 

Приведем ряд диаграмм. При необходимости будем комментировать.

Мы видим, что самые частые последовательности - это (Идентификация-Вализация-Квалификация-Проиграш) и (Идентификация-Вализация-Квалификация-Выиграш). Все стадии длятся по одному дню, что может говорить о некачественном учете этих данных в процессе продаж или о специфике процесса.

 

 

 Построим распределение в зависимости от суммы, потраченной клиентом за последние два года.Явно выделяются два сегмента: от 1 до 50 тыс. и от 50 до 400 тыс. Что еще раз подтверждает наши выводы, сделанные в ранней публикации.

 

 

 

 Здесь тоже не будем много комментировать. Диаграмма проста и понятна. Акцентируем на том, что переходов из первого состоянис "Валидация" сразу в состояние "Проиграш" больше всего (линия самая толстая). Необходимо выделить все такие случаи и провести дополнительный анализ. Возможно, что это признак злоупотреблений конкретного продавца или просто формальное участие в тендере, где заранее определен победитель.

 Каких-то существенных различий в переходах, которые разбиты на группы по каналам продаж, мы не видим.

 

 

Построим 4 кластера. В оном кластере собрались практически все выигранные сделки. Из диаграмм снова же хорошо видно, что длительные сделки приводят к проиграшу. Еще одно подтверждение материалов предыдущей статьи.

 Построим дерево с предикторами: доход от клиента за последние два года, канал продаж, товарная группа, регион. Среди новых клиентов наиболее результативными будут реселлеры со среднего запада, продающие шины и аксесуары. Это легко увидеть на диаграммах.

 

 

 И несколько слов напоследок. 

 

Мы видим, что казалось бы простая идея с обозначением состояний дает очень много возможностей для анализа "жизненного пути" клиента, сотрудника, оборудования и т.п. За рамками этой короткой статьи осталось еще очень много интересных з