Download Яруллин Файзрахманов Фоминых Система поддержки принятия кадровых решений на основе векторной модели ИТ-специалиста

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Система поддержки принятия
кадровых решений на основе
векторной модели ИТ-специалиста
Д.В. ЯРУЛЛИН, Р.А. ФАЙЗРАХМАНОВ, П.Ю. ФОМИНЫХ
ПЕРМСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
2
Компетенция как минимальная
единица
- языки программирования (Python, Java, C++)
- языки разметки (XML, HTML)
- библиотеки и фреймворки (.NET, Angular JS)
- протоколы (TCP/IP, UDP)
- операционные системы (Linux, macOS)
- прикладные приложения (КОМПАС-3D, Figma, Adobe Photoshop)
3
Сбор данных
Из вакансий, размещенных на HH.ru и Monster.de,
получены данные по запросу «Программист»
(«Programmierer»).
Извлекались метаданные ключевых слов, регион
вакансии, описание, наименование, уникальный
идентификатор.
Обновление базы происходит ежемесячно. Уже собрано:
◦ 237 324 вакансии в России (февраль 2020–май 2021)
◦ 120 253 вакансии в Германии (март 2020–май 2021)
4
Динамика числа вакансий
20000
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
Россия
Германия
5
Предобработка данных
"REACT", "REactJS",
"React", "React JS",
"React Js", "React js",
"React.JS", "React.Js",
"React.js", "ReactJS",
"ReactJs", "Reactjs",
react
"react", "react JS",
"react.js", "reactJS",
"reactjs"
6
Тематическое моделирование
Рассмотрены методы векторизации и
группировки непосредственно текстов
вакансий.
Выдвинута гипотеза о том, что навыки
могут также являться признаками, по
которым вакансии на схожие
должности могут быть сгруппированы.
Проведены эксперименты с
алгоритмом неотрицательного
матричного разложения (NMF)
7
Бинарное кодирование навыков
Вакансия 1
Вакансия 2
Вакансия 3
…
Вакансия N
react
0
0
1
…
0
java
0
1
0
…
0
c#
1
1
0
…
1
.net
1
1
0
javascript 0
0
1
1
…
0
8
Частотное кодирование навыков
Вакансия 1
Вакансия 2
Вакансия 3
…
Вакансия N
react
0,05
0
0,75
…
0
java
0
0,35
0
…
0,05
c#
0,6
0,8
0,15
…
0,9
.net
0,7
0,9
0,2
0
0,6
javascript 0
0,75
…
0,07
9
Выбор метода кластеризации
Был протестирован ряд популярных алгоритмов
кластеризации:
◦ метод k-средних;
◦ иерархическая кластеризация по методу Уорда;
◦ спектральная кластеризация (spectral clustering);
◦ DBSCAN;
◦ метод распространения близости (affinity propagation)
Для более успешной работы алгоритма полученная ранее
матрица расстояний была аппроксимирована при помощи
Гауссовой функции.
10
Разработка прототипа
В результате сравнительного анализа различных методов
кластерного анализа нами было принято решение использовать в
прототипе системы поддержки принятия решений метод
распространения близости.
Пороговое значение для включения навыка в кластерный анализ
рассчитывалось как 10% от общего числа вакансий в регионе,
чтобы минимизировать число аномалий, связанных с текущими
недостатками системы сбора данных.
11
Кластеры по регионам России
12
Кластеры по землям Германии
13
Прототип системы поддержки
принятия решений
14
Перспективы
15
Спасибо за внимание!
[email protected]
mforv.github.io