「盡信Data,則不如無Data

《孟子》第十四卷盡心篇下中有一句話︰
「盡信書,則不如無書」
大意是說
「完全相信《尚書》中所記載的事,
還不如沒有《尚書》這本書」。
這句話源自於孟子認為
《尚書》裡所寫的一些內容過於誇張
史官下筆時可能有所偏差

類比到行銷資料科學
我們也可說
「盡信Data,則不如無Data

201312
哈佛商業評論(HBR)
刊登了一篇由湯瑪斯.雷曼(Thomas C. Redman)所寫的文章
《盡信資料不如…(Data's Credibility Problem)
(中文版由侯秀琴翻譯)
就在探討這個存在已久的議題

在這篇文章裡
作者開宗明義地指出
醫學中心的實驗資料錯誤
可能會害死病人
工廠裡的產品規格資料不清楚
可能會大幅增加成本
公司的財務報告資料不正確
可能會誤導投資大眾
以上的例子
點出資料正確的重要性

超過了半世紀
「垃圾進、垃圾出(Garbage in, garbage out)
這句話背後的問題依舊存在
企業內部可能充斥著許多的錯誤資料
而對於這些錯誤資料
許多人誤認為
是資訊系統的問題

事實上
資料錯誤的成因
常常來自於資料的「輸入」
(與人、流程、制度有關)
而非資料的「處理」(與資訊系統有關)
也由於資料的不可靠

管理者很難建立起以「資料導向」(Data Driven)的方式來做決策
因而退回使用強調經驗的直覺決策方式

在資料的存續期間
有兩個時點很重要:
「建立資料時」
以及「使用資料時」

因為資料品質在建立當下就已決定
但卻要等到使用時才會知道其品質高低
也因此
建立資料的人與使用資料的人應密切溝通
這樣就能夠解決大部分資料正確性的問題

畢竟
建立資料的人
通常不清楚其他人如何使用資料
這就好像設計或建造教室的人
不清楚老師如何使用教室一般

有趣的是
建立資料的人(例如︰現場業務,或是後勤幕僚)
與使用資料的人(例如︰各部門主管)
通常與資訊人員無關

但對於資訊品質的責任
在企業裡確常常會推給資訊人員

事實上
最該負起資訊品質責任的
應該是各階層與各單位的主管
(尤其是最高主管)
因為資訊人員可以幫忙改正錯誤資料

卻無法改變資料採集的方式或是商業流程
而且
資料的正確對使用單位來說意義重大
但對資訊部門卻可能不痛不癢

如何讓全公司的資料乾淨(clean)
是一個需要持續努力的過程
大數據
4V之一的veracity(資料正確性)
遠比我們想像中的重要許多

加油!

Peter

arrow
arrow

    Peter 發表在 痞客邦 留言(0) 人氣()