以資料採礦預測員工離職可能性

去年看了一篇期刊論文
內容在談一位大學教授
如何透過資料科學
預測(那些)學生是否會休學、退學

我與資訊部主管討論
覺得這個議題很有趣
同時在企業界
職離管理一直是人力資源的重要議題
偏高的離職率不但讓企業在調配人力上的難度增加
培育主管的機會變少
進而衝擊企業的營運績效

所以
我便請資訊主管將公司的人資資料
扣除個資
並經過變數轉換
讓人完全看不出原始資料的狀態
再請大學的資料科學團隊
發展預測模型
以協助公司了解影響離職率的變數

在發展模型的過程中
相關變數包括基本資料、人資資料、績效表現資料等共41
內容如:部門、職位、性別、學歷、遲到分鐘數、
遲到次數、請假、考績
分析的紀錄約20萬筆

工具方面採用隨機森林(Random Forest)進行分析
而為了衡量模型的預測效能
將資料隨機切分成70%的訓練資料集(Calibration Sample)共13多萬筆
以及30%的驗證資料集(Holdout Sample)約6萬筆
以做模型檢驗

最後
預測模型的準確率為99.976%
並發現前10大重要的變數依序為:
1群:月平均遲到時數;
2 群:年齡及年資;
3 群:月份、職位、業績表現及職等

其中
經分群結果
模型挑選出「月平均遲到分鐘數」、「員工年資」與「年齡」
是公司整體離職的三大重要特徵
(關於此部分的結果,
每家企業可能會有很大的不同。
一位曾經為台灣某家企業做過類似專案的教授
就與我分享過
影響該公司離職率最大的變數是「請假」)

這項發現
在「員工年資」與「年齡」上並沒有太大的驚喜
畢竟各行各業「年資淺」、「年齡低」的員工離職率較高
實屬常態

但「月平均遲到分鐘數」的重要性
高過「年資」與「年齡」
這項研究發現就值得進一步探討

不過
先撇開學術研究不談

這樣的結果
對各單位的主管來說
除了可讓主管發現個別員工可能
離職的前兆(月平均遲到分鐘數高的人)
同時
也可發現哪些員工已經接近自願性離職的邊緣
(月平均遲到分鐘數高、年資淺、年齡低的同仁)

數據分析在商業界的應用
正如火如荼地展開
大數據研究的新方法
是否能為商業界各項熱門的議題
找到新解答
答案已呼之欲出

加油!

Peter

arrow
arrow

    Peter 發表在 痞客邦 留言(0) 人氣()