Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Система поддержки принятия кадровых решений на основе векторной модели ИТ-специалиста Д.В. ЯРУЛЛИН, Р.А. ФАЙЗРАХМАНОВ, П.Ю. ФОМИНЫХ ПЕРМСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ 2 Компетенция как минимальная единица - языки программирования (Python, Java, C++) - языки разметки (XML, HTML) - библиотеки и фреймворки (.NET, Angular JS) - протоколы (TCP/IP, UDP) - операционные системы (Linux, macOS) - прикладные приложения (КОМПАС-3D, Figma, Adobe Photoshop) 3 Сбор данных Из вакансий, размещенных на HH.ru и Monster.de, получены данные по запросу «Программист» («Programmierer»). Извлекались метаданные ключевых слов, регион вакансии, описание, наименование, уникальный идентификатор. Обновление базы происходит ежемесячно. Уже собрано: ◦ 237 324 вакансии в России (февраль 2020–май 2021) ◦ 120 253 вакансии в Германии (март 2020–май 2021) 4 Динамика числа вакансий 20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 Россия Германия 5 Предобработка данных "REACT", "REactJS", "React", "React JS", "React Js", "React js", "React.JS", "React.Js", "React.js", "ReactJS", "ReactJs", "Reactjs", react "react", "react JS", "react.js", "reactJS", "reactjs" 6 Тематическое моделирование Рассмотрены методы векторизации и группировки непосредственно текстов вакансий. Выдвинута гипотеза о том, что навыки могут также являться признаками, по которым вакансии на схожие должности могут быть сгруппированы. Проведены эксперименты с алгоритмом неотрицательного матричного разложения (NMF) 7 Бинарное кодирование навыков Вакансия 1 Вакансия 2 Вакансия 3 … Вакансия N react 0 0 1 … 0 java 0 1 0 … 0 c# 1 1 0 … 1 .net 1 1 0 javascript 0 0 1 1 … 0 8 Частотное кодирование навыков Вакансия 1 Вакансия 2 Вакансия 3 … Вакансия N react 0,05 0 0,75 … 0 java 0 0,35 0 … 0,05 c# 0,6 0,8 0,15 … 0,9 .net 0,7 0,9 0,2 0 0,6 javascript 0 0,75 … 0,07 9 Выбор метода кластеризации Был протестирован ряд популярных алгоритмов кластеризации: ◦ метод k-средних; ◦ иерархическая кластеризация по методу Уорда; ◦ спектральная кластеризация (spectral clustering); ◦ DBSCAN; ◦ метод распространения близости (affinity propagation) Для более успешной работы алгоритма полученная ранее матрица расстояний была аппроксимирована при помощи Гауссовой функции. 10 Разработка прототипа В результате сравнительного анализа различных методов кластерного анализа нами было принято решение использовать в прототипе системы поддержки принятия решений метод распространения близости. Пороговое значение для включения навыка в кластерный анализ рассчитывалось как 10% от общего числа вакансий в регионе, чтобы минимизировать число аномалий, связанных с текущими недостатками системы сбора данных. 11 Кластеры по регионам России 12 Кластеры по землям Германии 13 Прототип системы поддержки принятия решений 14 Перспективы 15 Спасибо за внимание! [email protected] mforv.github.io