《大數據》巨量資料時代的四大體悟

為何而讀 閱讀經典、掌握趨勢 和前一篇《蘋果橘子經濟學》一樣,清理書櫃塵封書籍,這本八年前(2013)的出版書,被我排定在二月分閱讀清單中。 在了解經濟學以數據思考的邏輯後,緊接著《大數據》一書的洗禮,讓我更深入了解身處於資訊時代中,面對資訊,我們該如何自處。 書籍導覽 全書共分為十個章節。 我將之拆分為三大主軸:大數據特性、面臨問題、解決方法。 各章節的重要概念,盡可能地融合在上述三大主題當中。 量變帶來質變 不知讀者們是否想過,人類一天會產生多少數量的資訊? PB, EB, ZB, YB? 我喜歡作者在第一章節從歷史的角度來帶出資料的進程。 從遠古舊石器時代、洞穴壁畫、1439年古騰堡印刷術,再到網路時代。人類從沒有語言、文字直到現在人人隨手使用社交媒體,來當作心情抒發的管道。我相信已經沒有網站在估算每單位時間全人類產生多少的資訊了,因為這個量大到無法估計,也沒有得到答案的意義。 20年前,可能還會有人好奇去推算這個答案,但是現在絕對不會有,這就又是量變帶來質變的一個體現。 因為數據的爆量,將會帶來許多我們未曾想見看待事物本質上的變化、資料的特性、社會問題,八年過去了,這些事情已然發生,也持續發生,值得我們用心關注。 重要概念 大數據特性 樣本 = 母體 我們終將擁有處理全部資料的能力 在過去,搜集資料的成本(人力、時間),讓統計學應運而生。統計學家透過各種方法,盡可能取得有效樣本、去除資料雜訊,以得到近似於母體的資料組成,進而推導問題結論。 在未來,資訊取得成本大幅降低,迎接而來是「樣本 = 母體」的時代。 人口普查、電話民調、DNA 定序、Covid-19 疫情趨勢、《蘋果橘子經濟學》一書的相撲比賽作假,都是大數據時代「樣本 = 母體」資料特性,根本地改變了遊戲規則。 雜亂性 擁抱不精確 19 世紀的科學時代,追求的是精確、量測、紀錄。各種計量單位、現代科學應運而生。直到 20 世紀量子力學的出現,打破了全面、完整測量的想像,科學家們學會了擁抱不確定。 橋墩的應力讀數、Google 翻譯、社群媒體的按讚/觀看次數、關連式資料庫轉向 NoSQL、退一步看印象派畫作,皆是擁抱不確定性資料的例子。 資訊少的時候,資訊的品質、精確性相對來說重要性較高;然而到了「樣本 = 母體」的大數據時代,掌握數據輪廓、趨勢,將遠比追求精確度來得重要。 精確在某些時刻的確有其必要,但是大數據時代,抬頭仰望,有些時候更容易看見全貌。 相關性 放下對於因果關係的堅持 常言道:「事出必有因」、「種瓜得瓜,種豆得豆」。 世間萬物,有些事就是有因果邏輯;也有些事情,就是沒有或是無須追求因果相關性。 我們能做的,就是透過數據,去了解「正是如此」,而不須花時間追究「為何如此」! Amazon 書評團隊 vs. 電腦推薦、航空公司票價網站、Walmart 顧客喜好分析、Target…

《蘋果橘子經濟學》我們究竟該相信什麼?

《蘋果橘子經濟學》我們究竟該相信什麼?

為何而讀 蘋果橘子經濟學,原文書名為 “Freakonomics”,應該譯為怪胎經濟學,因為書中所探討的問題看似都是怪胎(freak)才想得出來。 在去年閱讀了《窮查理普通常識》、《通往財富自由之路》、《讀懂一本書》之後,漸漸感受到建立各專業領域心智模型的重要性。趁著年假期間整理手邊擁有、尚未品嚐的書,打算先朝「勒緊褲帶」的方向,也就是暫時克制自己一股腦想買新書的衝動,來進行閱讀探索。 這本書,期望能幫助自己用一個經濟學家的角度,來認識這個世界。而看完之後,真是意猶未盡,還請聽我娓娓道來我從書中獲得了什麼! 《蘋果橘子經濟學》全書重點 本書是兩位作者合著。 左:Steven D. Levitt(中譯:李維特),芝加哥大學經濟教授。 右:Stephen J. Dubner(中譯:杜伯納),紐約時報作家兼記者。 主要透過經濟學家李維特以數據的角度來問問題、看世界。 套一句知名主持人常用的綜藝梗「從外太空聊到內子宮」,這本書絕對夠格講這種話。李維特引用扎扎實實的數據給出推論,儘管有一些推論的結果並非能令普羅大眾滿意、甚至充滿爭議性,但不可否認的,就是這都是本著研究精神,用數據推導出的事實。 如果道德代表理想化的世界,經濟學代表著真實的世界。 全書六大篇章,作者使用數據和推論,以十分引人入勝的方式,描述一些我們平常看不到的生活現象。我試著用自己的理解後,重新為各篇章下標題。 原標題 新標題 以結論為導向的標題,讓日後對於書中的論述可以更有印象 ! 小學老師和相撲選手有何共通點? 動機透露你的行為 – 有錢能使鬼推磨 三 K 黨與房地產仲介有何相似之處? 資訊不對稱:善用資訊就是掌握優勢 為何毒販還和母親住一起? 教育翻轉階級 罪犯都跑到哪裡去了? 墮胎合法化對犯罪的影響 怎養才算理想的父母? 身為父母,重要的是 – 你是誰 完美的父母,續篇:換個名字會更好? 取名字也有趨勢 尾聲:到哈佛的兩條路 人定勝天也有時 我眼中的李維特 博學 在閱讀此書的同時,正好在看愛因斯坦的傳記,也看完了好久以前塵封於書架上的《別鬧了費曼先生》。發覺這些勇於提出創新問題、跳脫傳統框架思考的大師們,都有的其中一個共同特色就是博學。 這其實是很多特質結合後的必然結果,比方說:觀察力、好奇心、專注、問問題、跨領域學習…。這段我想表達的是,李維特不僅僅是經濟學領域的專家,也因為他能橫跨政治學、社會學、心理學、犯罪學、教育學… 等領域,方能問出適切於社會的好問題。 信手捻來皆文章 用心生活,日常生活所碰到任何事件皆能提問。 書中絕大多數的文章來源不外乎是論文研究主題,抑或是作者生活實際碰到的困境提問。 這樣隨時提問的習慣,造就了他們網站在推出本書後,仍有持續的文章產出,也有後續的一系列書籍出版(這也是我認為看書其實是最省時有效率的學習方法,因為書籍過濾了多數的垃圾、整理了少數的精華)。 用數據說話 書中每一篇文章都是用數據說話,沒有例外。 這也是身為經濟學家李維特所擅長的事。在看似毫不相干的數據中,找出關聯性,清楚的區分所謂「關聯性」和「因果性」。 即使一些數據上得到的結論,和人腦所期待的結果對不上,可以肯定的是:數據不會說謊,人會。 數據帶出的事實,往往會踩到人類的舒適圈、道德界線,但經濟學家的責任就是用數據來說出人們不願意面對的客觀事實。雖然我沒有看過《真確》一書,但我相信該書作者做的事,應該和李維特是類似的,特別的是李維特勇敢在…

《人類大命運》從智人到神人

為何而讀 延續《人類三部曲》前一系列的文章《人類大歷史》的延伸閱讀,究竟一位當代歷史學家對於人類的發展和命運有什麼樣不一樣的觀點?在《人類三部曲》的第一部曲當中已深深地震撼了我,期望在這本書能夠有更多不同面向的看見。 本書重點 全書分為序曲和三大章節。延續上一部曲圍繞在「智人」的主題上討論。這本書作者先以序曲的方式起頭,延伸討論智人現在、過去、未來的命運。 接著用三個章節,以人文主義為主軸帶出智人的命運和科技快速發展之下,已經產生的變化、未來將面對的問題與挑戰。 簡單用心智圖整理全書的脈絡如下: 重要概念 序曲:人類的三大議題 研究歷史,就是為了掙脫過去的魔掌,讓我們能看向各種不同的方向,並開始注意到前人無法想像、或過去不希望我們想像的可能性。 舊三大議題 → 避免死亡 飢荒:營養不良 vs. 體重過重比例 瘟疫: 瘟疫失控主因將是人為疏失 戰爭:暴力死亡人數比例顯著下降 遠古農業社會:15% 20世紀:5% 21世紀:1% 結論:「飢荒、瘟疫、戰爭」三大死亡課題已有效地控制。 新三大議題 → 追求永恆 治療與演化之間,並沒有明確的界線。 長生不老:持續進展中,爭奪永恆的青春之戰 幸福快樂:生物工程、半機械人、無機生命,永恆愉悅的追求 智人演化神人:取得神性(創造、毀滅) 結論:歷史不會容許真空,總是會發生些什麼,對此我們要謹慎。 第一部:智人征服世界 人類世 這一章描述了人類與其他動物的關係,或許可以做為未來智人和現在智人之間關係想像的借鏡。 生物就是一套演算法:欲望、感覺、情感(人類獨有?) 農業、宗教、科學革命 → 智人進化為神人、催生人文主義 有神論(崇拜神)vs. 人文主義(崇拜人) 結論:我們對待動物的方式是否能成為電腦 (AI) 對待智人的借鏡? 人類獨特處 心靈:主觀經驗(感覺、欲望、情感)的流動 意識:大腦中的電化學反應,以完成重要的資料處理功能。是否為神經訊號傳遞的副產品(垃圾)? 團結:大規模、基於互為主體性事實的合作 現實種類 主觀性:自己感受 客觀性:重力、物理定律、健康檢查報告… 互為主體性(Intersubjective):政治、經濟、文化、信仰… 結論:人類的想像力建構出當代歷史編織的網(想像的網),驅動當代人類的行為。我們必須認知並破解自己存在虛實交織世界的事實。 第二部:智人為世界賦予意義 說書人 虛構故事的歷史貫穿:人類大規模合作,帶來快樂也帶來痛苦 結論:虛實界線趨向模糊,分辨清楚卻變得更加重要。…