數據中台這個詞彙,我認為是一個很不好的翻譯,比較合理的翻譯也許可以叫「企業內資料整合部」。這跟語言的使用習慣有點關系,一般來講,我們不會去查字典來掌握詞彙的精確意思,很多時候,我們靠上下文、推斷與猜測,就認為自己掌握了詞彙的概念。
詞彙定義的百家爭鳴
比方說,像「大數據」,這個詞彙實在太潮了,所以很多人也沒有去了解它確切的定義:『來自各種來源的大量非結構化或結構化資料』。在資料工程的領域,很多時候,大數據一詞等同於 Hadoop, Spark 與 MapReduce ,儘管,以現在的硬體效能,就算只寫 SQL 也可以,未必要用到 Hadoop, Spark 與 MapReduce 。
總之,數據中台這一個詞可能因為好聽,畢竟結尾是一個『台』字,大家可能會覺得,聽起來像是某種『平台』,對應的英文應該是 platform 。既然是平台,就很可能是某種新的標準,加上在中國已經很流行,背後又有阿里巴巴這種大廠在談論,再加上媒體又最喜歡這種會吸引流量的詞彙,於是,賣雲端資料倉儲的廠商也要引用一下、賣商業智慧軟體的廠商也要、賣 ETL 解決方案的廠商也要,之後它的定義就百家爭鳴了。
語源
可惜,數據中台的精確語意並非如此。中台是 middle office 的翻譯,它是先在投資銀行 (investment bank) 出現的組織分工架構,是團隊的名稱,然後,被中國的阿里巴巴集團採用、推廣。以下譯文引用自英文的維基百科。
中台是在金融服務機構工作的員工團隊。金融服務機構可分為前台、中台、後台三個部分。前台由銷售人員等面向客戶的員工組成。中台由風險經理和資訊科技經理組成,負責管理風險和維護資訊資源。後台由人力資源部門、辦公室經理和客戶服務代表組成,提供支援、行政和支付服務。一般來說,後台和中台涉及與風險管理和確保交易正確執行相關的非直接創造收益的業務工作。
數據一詞與中台一詞結合時,它最重要的意涵是:首先,數據中台為企業提供的功能在於:資料基礎建設,目的是要整合所有資料來源、提供統一、精確、即時的資料,讓企業所有想要應用資料的團隊可以輕鬆一致地取用。此外,它服務的對象是企業內部,換言之,如果是客戶要使用的資料報表、圖表,還是會交由業務團隊或是行銷團隊去生成,數據中台團隊只是提供業務與行銷需要的資料而已。
應用資料的混亂與矛盾
『敝公司連 100 人都不到,會需要設置數據中台團隊嗎?那是大企業才做的事吧,叫資料分析師兼任就好了吧。』經營者很有可能會第一時間先採取這樣子的措拖。
想象一間 50 人且會善用數據的中小企業,當財務單位有自己的資料分析人員,業務單位也有自己的資料分析人員時,當總經理在同時聽取財務單位與業務單位的報告的會議,卻發現,同一間公司在同一段時間,居然還有兩個不同的營收數字。這是很自然的,因為業務單位認定的營收常常與財務單位認定的不一樣,兩個都叫做營收的指標,對應的定義卻不相同。
好不容易釐清了財務與業務的不同觀點之後,接著,當總經理請財務與業務設法解釋指標是怎麼生成時,真正的問題浮現了:由於兩個部門是獨立做出自己需要的資料指標,兩組營收的數字從最初的資料採取、資料轉換、套用的公式,全部都不同。那到底哪一個單位的原始資料採集方法才是合理的呢?這些讓總經理感到許多困惑的不一致是必要的嗎?
企業常犯的錯誤:沒有對資料品質做合理的投資
我專門協助企業利用現代資料棧 (modern data stack)改善資料基礎建設,在執業的過程中,常常看到企業犯如下的錯誤:
叫後端工程師 (backend engineer) 去做資料工程師 (data engineer) 的工作
叫資料科學家 (data scientist) 去做資料工程師的工作
叫資料分析師 (data analyst) 去做資料工程師的工作
上述的錯誤會導致,企業沒有儘早為資料品質做合理的投資。於是,明明公司的資料量很大,同時許多單位也都在使用,卻沒有合理的資料基礎建設,症狀可能是:沒有資料倉儲 (data warehouse) 、有資料倉儲卻沒有設計合理的資料表綱要 (table schema)、沒有用正確的方法做資料回填 (backfill)、又或是資料譜系 (data lineage) 極度混亂。
隱而不現卻更加傷害生產力的事情是,由於資料基礎建設的工作沒有人做,都是由後端工程師、資料科學家、資料分析師來兼任,這些員工會有一種說不出的無奈感:「是的,我真的喜歡開發軟體,但是我討厭寫 ETL 。」「是的,我真的對資料分析、尋找洞見很有興趣,但是我討厭寫 ETL。」
為什麼資料品質明明如此重要,卻沒有得到合理的投資呢?因為沒有一個專門組織架構來承擔資料基礎建設這件工作。比方說,企業是叫後端工程師去做資料工程師的工作,那後端工程師本人績效的考核,還是由他的上級,也許是 CTO 來考核。那產出資料報表這部分的貢獻呢?可惜,並不計算在 CTO 的績效裡,資料報表長期的品質自然可想而知不會特別好了。
另一方面,當企業設置了專門的資料基礎建設團隊,(也許只是一個人,又或是數據中台團隊),並且為該團隊定下了明確的目標與考核標準:「要讓資料容易被公司的其它所有團隊使用、並且要確保資料與指標的一致性、精確性、即時性。」資料的品質自然可以大幅改善。
結論
要做好企業的資料品質,投資科技工具的同時,企業更應該思考投資合理的組織架構。