《大數據》巨量資料時代的四大體悟

為何而讀 閱讀經典、掌握趨勢 和前一篇《蘋果橘子經濟學》一樣,清理書櫃塵封書籍,這本八年前(2013)的出版書,被我排定在二月分閱讀清單中。 在了解經濟學以數據思考的邏輯後,緊接著《大數據》一書的洗禮,讓我更深入了解身處於資訊時代中,面對資訊,我們該如何自處。 書籍導覽 全書共分為十個章節。 我將之拆分為三大主軸:大數據特性、面臨問題、解決方法。 各章節的重要概念,盡可能地融合在上述三大主題當中。 量變帶來質變 不知讀者們是否想過,人類一天會產生多少數量的資訊? PB, EB, ZB, YB? 我喜歡作者在第一章節從歷史的角度來帶出資料的進程。 從遠古舊石器時代、洞穴壁畫、1439年古騰堡印刷術,再到網路時代。人類從沒有語言、文字直到現在人人隨手使用社交媒體,來當作心情抒發的管道。我相信已經沒有網站在估算每單位時間全人類產生多少的資訊了,因為這個量大到無法估計,也沒有得到答案的意義。 20年前,可能還會有人好奇去推算這個答案,但是現在絕對不會有,這就又是量變帶來質變的一個體現。 因為數據的爆量,將會帶來許多我們未曾想見看待事物本質上的變化、資料的特性、社會問題,八年過去了,這些事情已然發生,也持續發生,值得我們用心關注。 重要概念 大數據特性 樣本 = 母體 我們終將擁有處理全部資料的能力 在過去,搜集資料的成本(人力、時間),讓統計學應運而生。統計學家透過各種方法,盡可能取得有效樣本、去除資料雜訊,以得到近似於母體的資料組成,進而推導問題結論。 在未來,資訊取得成本大幅降低,迎接而來是「樣本 = 母體」的時代。 人口普查、電話民調、DNA 定序、Covid-19 疫情趨勢、《蘋果橘子經濟學》一書的相撲比賽作假,都是大數據時代「樣本 = 母體」資料特性,根本地改變了遊戲規則。 雜亂性 擁抱不精確 19 世紀的科學時代,追求的是精確、量測、紀錄。各種計量單位、現代科學應運而生。直到 20 世紀量子力學的出現,打破了全面、完整測量的想像,科學家們學會了擁抱不確定。 橋墩的應力讀數、Google 翻譯、社群媒體的按讚/觀看次數、關連式資料庫轉向 NoSQL、退一步看印象派畫作,皆是擁抱不確定性資料的例子。 資訊少的時候,資訊的品質、精確性相對來說重要性較高;然而到了「樣本 = 母體」的大數據時代,掌握數據輪廓、趨勢,將遠比追求精確度來得重要。 精確在某些時刻的確有其必要,但是大數據時代,抬頭仰望,有些時候更容易看見全貌。 相關性 放下對於因果關係的堅持 常言道:「事出必有因」、「種瓜得瓜,種豆得豆」。 世間萬物,有些事就是有因果邏輯;也有些事情,就是沒有或是無須追求因果相關性。 我們能做的,就是透過數據,去了解「正是如此」,而不須花時間追究「為何如此」! Amazon 書評團隊 vs. 電腦推薦、航空公司票價網站、Walmart 顧客喜好分析、Target…