НАВИГАЦИЯ
КОНТАКТЫ
  • LinkedIn - White Circle
  • Facebook - White Circle
  • Twitter - White Circle

info@DDM.center

Телефон: +380 67 341 7101

© 2017 DDM.center

Придёт или не придёт?

 

 

Собственно, статья возникла как ответ на проблему, поднятую в одной из групп ФБ, посвященной управлению персоналом. Суть проблемы в том, что часть соискателей без предупреждения не приходят на собеседования. Кроме того, что это неприятно, это еще и влечет дополнительные расходы для компаний (начиная от работы рекрутеров и заканчивая командировки менеджеров в другие города для встречи). И если набирается 3-5 человек в месяц, то это не очень большая проблема, но когда количество закрываемых вакансий возрастает до десятков и сотен, то расходы могут быть существенными.

 

Конечно же, задачу можно решать различнымиспособами и часть из них была указана в более чем сотне комментариев к заметке, но давайте попробуем сформулировать задачу в более общем виде и подумать как ее можно решить с помощью данных и их анализа.

 

Нам дано: список кандидатов с которыми назначено собеседование. По каждому кандидату есть определенная информация (как минимум, пол, возраст, должность на которую он претендует, и т.п.), а также есть информация о процессе подбора (длительность, отметки об отправке писем, напоминаний, готовности кандидата выйти на работу и т.п.). Также есть историческая инфомрация о том какие кандидаты приходили, а какие не приходили на назначенную встречу. Нам необходимо на основании исторической информации построить модель, с помощью которой мы могли бы сделать прогноз придёт кандидат или нет (если укажем вероятность прихода будет еще лучше). Также необходимо определить какие факторы влияют на приход кандидата, чтобы работать в направлении повышения вероятности прихода кандидата.

 

Исходя из постановки, имеем задачу предсказательной или прогностической аналитики (Predictive Analytics). Наверное, одна из самых известных похожих задач - это скоринговая система в банке для оценки платежеспособности клиента. Она тоже использует исторические данные для прогноза класса потенциального клиента - платежеспособен он или нет. И если некоторая часть характеристик вашего запроса на кредит будет совпадать с группами неблагонадежных клиентов, то скоринговая модель, скорее всего, отнесет и вашу заявку в класс неблагонадежных, и кредит вам не выдадут.

 

Так как статья служит только демонстрацией возможностей, то мы не будем приводить много теоретических выкладок и строго сравнивать различные способы решения задачи, а лишь покажем на примере, что решение такой задачи вполне реалистично и может быть реализовано для конкретной компании с большим количеством собеседований или рекрутингового агентства.

 

Набор данных я нашел в интернет. В наборе 1226 записей из 24 полей, которые описывают кандидата и некоторые этапы процесса подбора: 

  • Date of Interview

  • Client name

  • Industry

  • Location

  • Position to be closed

  • Nature of Skillset

  • Interview Type

  • Name(Cand ID)

  • Gender

  • Candidate Current Location

  • Candidate Job Location

  • Interview Venue

  • Candidate Native location

  • Have you obtained the necessary permission to start at the required time

  • Hope there will be no unscheduled meetings

  • Can I Call you three hours before the interview and follow up on your attendance for the interview

  • Can I have an alternative number/ desk number. I assure you that I will not trouble you too much

  • Have you taken a printout of your updated resume

  • Have you read the JD and understood the same

  • Are you clear with the venue details and the landmark

  • Has the call letter been shared

  • Expected Attendance

  • Observed Attendance

  • Marital Status

 

Это все, что удалось найти, но и этого уже достаточно для демонстрации.

 

Начнем с дерева решений (для быстрого ознакомления можно почитать небольшую статью).  Дерево принятия решений (также может называться деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. 

 

Мы уже показывали как этот инструмент может использоваться для анализа воронки продаж. Поэтому не будем здесь повторяться, а лишь покажем две диаграммы, которые были построены с использованием различных алгоритмов.

 

 Посмотрим на результат.

 

 

 

 И в первом и во втором случае во главе угла (в корне дерева, если быть уж совсем точными :-) стоит ответ на вопрос "Have you obtained the necessary permission to start at the required time". Если ответ отрицательный, то больше 60% из 308 человек на собеседование не явятся. Также мы можем наблюдать определенную зависимость от города соискателя. На первой диаграмме видим небольшую зависимость от типа позиции (например, соискатели на финансовые позиции показывают почти 90% явку).

 

Таким образом, имея дерево решений, мы уже можем прогнозировать (пусть и не очень точно) приход кандидата на собеседование. Также мы можем корректировать наш процесс отбора, добавляя в него дополнительные вопросы или действия, для повышения вероятности прихода кандидата.

 

Перейдем к следующему методу, который менее нагляден, но позволяет построить модель классификации на основе исторических данных и уже по ней проводить классификацию новых кандидатов. Таких методов есть достаточно много, мы же воспользуемся одним из методов машинного обучения, который называется случайный лес. Этот алгоритм применяется для задач классификации, регрессии и кластеризации. Основная идея заключается в использовании большого ансамбля  деревьев решений, каждое из которых само по себе даёт очень невысокое качество классификации, но хороший результат получается за счёт больших чисел. 

 

Другими словами, мы построили большое количество деревьев решений(которые описывали выше) с различными параметрами и "усреднили" (на самом деле применяются более сложные алгоритмы для получения итогового решения) результат.

 

Так как случайный лес - это один из методов машинного обучения, то нам надо разделить наши данные на 2 части: для тренировки модели и для тестирования на котором будем проверять точность нашей модели.

 

Запустим процесс построения леса с параметрами "по-умолчанию" и будем наблюдать за ошибками. Получается около 50%, что не очень хороший результат.

 

 

Поменяем некоторые параметры модели и получим следующую картину. 30% уже лучше.

Определим какие же параметры наиболее значимы в нашей модели. Как видим, первые из них совпадают с параметрами в дереве решений.

 

На основе полученной модели построим предсказание с использованием тестовой выборки (другими словами напротив каждого кандидата с помощью модели мы укажем значение предсказания - придёт он на собеседование или нет). Результат представим в виде матрицы. Как видим точность модели около 70%, в т.ч. модель предсказывает присутствие на собеседовании с точностью почти 75%, а отсутствие с точностью 58%

 

 

 

 

Вместо заключения.

Можно было использовать и другие методы для построения модели. В т.ч. и нейронные сети, и пытаться получить более высокую точность модели и вероятности прихода или отсутствия. Но наша цель была показать, что задача может быть решена с приемлемой точностью. По крайней мере, даже полученная точность уже дает возможность значительно улучшить процесс подбора персонала.

 

Еще о прогнозировании в контакт-центре в статье "Время, в ряд!".

 

Подписывайтесь на обновления нашего блога, задавайте вопросы или назначайте встречу для консультации по вашим проектам.

 

Есть необходимость применить описанный метод для улучшения процесса подбора персонала? Напишите нам или назначьте встречу.

 

 

Также для Ваших сотрудников, готовящих презентации будет полезна памятка о правильном применении 24-х различных диаграмм. Ее они могут загрузить по ссылке здесь 

 

 

 

 

Share on Facebook
Share on Twitter
Please reload

Избранные посты

Уйдет или не уйдет?

March 23, 2018

1/4
Please reload

Недавние посты