生活中的資料分析
要在生活中應用資料分析不難,需要一點點資料分析技巧還有心理上的餘裕。
我最近在想對自己的資料職涯到底還有哪些不滿。
發現最大的遺憾好像是,我好像從來不認為自己做的任何東西幫助過商業決策。不管是儀表板,探索式分析,更遑論畢業後從來沒用過的統計、計量或是機器學習等等。
擔任資料分析師的友人跟我說了以上小小的抱怨。
我想了想,總覺得資料分析的一些技巧,其實滿好用的,只是需要刻意地去使用。而我最常用的主要有三招:
尋找模式 (rule of 3)
抽樣調查 (rule of 5)
統計性歧視 (Bayes' Theorem)
尋找模式
特定的事件出現一次,那可能只是運氣好;出現兩次,那也許是巧合;出現到第三次,這就很有可能是一個有意義的模式。而模式的背後,則通常會有造成特定模式的原因。
資料總是無時無刻在產生、在累積,而人腦不像電腦一樣,可以記得住無數的事件、精確的資訊。通常我們只會記住一些有意義的事。比方說,考試考砸了、重大的成功、重大的失敗等等。記憶儘管不精確,不代表不能拿來做資料分析。既然記憶可以記得住的事有限,就先從記得住的事去尋找模式吧。
抽樣調查
給定一個母體,如果我們對它一無所知時,做一些抽樣調查,自然是讓我們可以快速得到重要資訊的方式。那要抽樣調查幾次,可以得到足夠的資訊呢?
沒有做過數學計算的話,可能以為這個數字很大,在 How to measure anything 一書則指出,其實我們透過抽樣調查得到的資訊量,會隨著抽樣次數增多快速地遞減。換言之,其實我們得到的資訊,是在最初的幾次抽樣,就會快速累積。
rule of 5 是指:進行任何隨機的五次抽樣調查,約有 93.75% 的機率,調查母體的中位數會落在調查結果的最大與最小值之間。
關於這個統計學的 rule of 5 ,我的鄰居有個慘痛的經驗。他裝潢房子,找了三家裝潢廠商來報價,後來選了其中一家。很不幸的事情是,最後他發現,他付的裝潢費比行情價整整高了 80% ,看來是他找的三家都狠狠地開了不合常理的高價。三家都不太 ok 。他如果有隨機抽樣,找五家廠商的話,應該相對有機會找到一家不亂開高價的廠商。
統計性歧視
統計性歧視的概念在之前的面試官的考量一文已經探討過。很多我們未審先判,預測卻異常準確的歧視,在它背後運作的就是貝氏定理。
運用資料分析的前提
讀者看到這邊,可能會想,「是啊,真的不困難,就是要慢下來想一想、需要一點餘裕。」但是,好像要慢下來反而是最困難的。
是的,的確如此。
很多人都在生活中追求生產力與效率,應用的工具五花八門:「待辦事項」、「封閉清單」、「蕃茄鐘工作法」、「卡片盒筆記」等等。可惜,上述的這些工具往往還會更加強化了一個人自我感覺產出很高的錯覺。
在生活中的許多事,都有 80/20 法則在支配著,換言之,是 20% 的投入 (input),帶來 80% 的產出 (output)。沒有理解 80/20 法則的人,很容易迷失在『我完成了很多的事情,所以我很有產出』的錯覺裡。
如果說,對於待辦事項、新出現的機會、想學習的新知,原則上,都先花一些時間去評估做這件事的可能成本 (cost)、可能成效 (results),那很可能會發現,多數的待辦事項都是不值得去做的。一旦可以把不值得去做的事項刪除了,人就可以慢下來了。另外,由於要評估成本與成效,就自然而然會開始蒐集與分析資料了。


