《大數據》巨量資料時代的四大體悟

喜歡這篇文章嗎?歡迎分享給您的朋友 👍

為何而讀

https://i0.wp.com/farm3.staticflickr.com/2845/10154036116_4f55ffa314_o.jpg?w=1290&ssl=1

閱讀經典、掌握趨勢

和前一篇《蘋果橘子經濟學》一樣,清理書櫃塵封書籍,這本八年前(2013)的出版書,被我排定在二月分閱讀清單中。

在了解經濟學以數據思考的邏輯後,緊接著《大數據》一書的洗禮,讓我更深入了解身處於資訊時代中,面對資訊,我們該如何自處。

書籍導覽

全書共分為十個章節。

我將之拆分為三大主軸:大數據特性、面臨問題、解決方法。

各章節的重要概念,盡可能地融合在上述三大主題當中。

量變帶來質變

不知讀者們是否想過,人類一天會產生多少數量的資訊? PB, EB, ZB, YB?

我喜歡作者在第一章節從歷史的角度來帶出資料的進程。

從遠古舊石器時代、洞穴壁畫、1439年古騰堡印刷術,再到網路時代。人類從沒有語言、文字直到現在人人隨手使用社交媒體,來當作心情抒發的管道。我相信已經沒有網站在估算每單位時間全人類產生多少的資訊了,因為這個量大到無法估計,也沒有得到答案的意義。

20年前,可能還會有人好奇去推算這個答案,但是現在絕對不會有,這就又是量變帶來質變的一個體現。

因為數據的爆量,將會帶來許多我們未曾想見看待事物本質上的變化、資料的特性、社會問題,八年過去了,這些事情已然發生,也持續發生,值得我們用心關注。

https://upload.wikimedia.org/wikipedia/commons/4/42/Chodowiecki_Basedow_Tafel_21_c_Z.jpg

重要概念

大數據特性

樣本 = 母體

我們終將擁有處理全部資料的能力

在過去,搜集資料的成本(人力、時間),讓統計學應運而生。統計學家透過各種方法,盡可能取得有效樣本、去除資料雜訊,以得到近似於母體的資料組成,進而推導問題結論。

在未來,資訊取得成本大幅降低,迎接而來是「樣本 = 母體」的時代。

人口普查、電話民調、DNA 定序、Covid-19 疫情趨勢、《蘋果橘子經濟學》一書的相撲比賽作假,都是大數據時代「樣本 = 母體」資料特性,根本地改變了遊戲規則。

https://i0.wp.com/www.checkmarket.com/wp-content/uploads/2013/02/sample-size.png?w=1290&ssl=1

雜亂性

擁抱不精確

19 世紀的科學時代,追求的是精確、量測、紀錄。各種計量單位、現代科學應運而生。直到 20 世紀量子力學的出現,打破了全面、完整測量的想像,科學家們學會了擁抱不確定。

橋墩的應力讀數、Google 翻譯、社群媒體的按讚/觀看次數、關連式資料庫轉向 NoSQL、退一步看印象派畫作,皆是擁抱不確定性資料的例子。

資訊少的時候,資訊的品質、精確性相對來說重要性較高;然而到了「樣本 = 母體」的大數據時代,掌握數據輪廓、趨勢,將遠比追求精確度來得重要。

精確在某些時刻的確有其必要,但是大數據時代,抬頭仰望,有些時候更容易看見全貌。

https://i0.wp.com/onlinepr-blog.com/wp-content/uploads/2014/01/Burkhart_Target-Crisis-Comms.jpg?w=1290

相關性

放下對於因果關係的堅持

常言道:「事出必有因」、「種瓜得瓜,種豆得豆」。

世間萬物,有些事就是有因果邏輯;也有些事情,就是沒有或是無須追求因果相關性。

我們能做的,就是透過數據,去了解「正是如此」,而不須花時間追究「為何如此」!

Amazon 書評團隊 vs. 電腦推薦、航空公司票價網站、Walmart 顧客喜好分析、Target 預測婦女懷孕寄送型錄紐約人孔蓋維修…都是運用相關性的絕佳範例。

因果關係,往往需要投入大量成本做實驗,或是經過長時間思辨得到結論,而時間的稀缺性卻是有限的人生無法逃避的事實。

時間的稀缺性加上個人機會成本,造就個人投入一項任務的時間長短不一。若要窮盡一生去找尋每個問題的答案,必為作繭自縛的一條道路。

我認為:放下因果性,不求甚解,是推動世界前進的一種行為模式;觀察資料,擁抱相關性,將會改變我們看待世界的方式。

https://i0.wp.com/miro.medium.com/max/1200/1*8j7U89RK1SgopIGET0mSFA.png?w=1290&ssl=1

資料鍊三環節:資料、技術、思維

不在乎擁有,只在乎充分運用

  1. 資料:只掌握資料的公司
  2. 技術:擁有操作資料的技術
  3. 思維:懂得發揮資料價值的人才

根據我的觀察,在擁有大量資料的公司,通常同時具備了上述黃金三角鏈。掌握資料又同時具有處理資歷技術和思維的人才,與沒有資料,只經手資料處理的公司,競爭等級是不在一個水平上的。

面臨問題

https://images.unsplash.com/photo-1587093336587-eeca6cb17cf2?ixlib=rb-1.2.1&q=85&fm=jpg&crop=entropy&cs=srgb

隱私保護

資料的黑暗面,不在於原始用途,而在於延伸用途

常看到各類型網站,在使用者註冊前,都會附上長長的「個資使用政策」請你勾選同意。

好笑的是,這是一翻兩瞪眼的同意書。

同意,你就可以使用該服務,該公司根據條款有限度地使用你的資料;不同意,謝謝再聯絡。

個資使用政策,可延伸的範圍太廣了,基本上一旦勾選同意,個資就是任人宰割。

簡單地說,個人裝置一旦連上網路,基本上就無所遁形了,政策看似「文字敘述」的嚴謹定義,憑著人類的想像力,可以無限延伸。

即使再小心謹慎,都無法避免你在網路留下的足跡,專家可以利用任何細微資訊拼湊出來你是誰,即使你從頭到尾沒有留下所謂「法定」的個資。

倫理道德

巨量資料是一項資源、工具。它的目的是通知,而非解釋

有了處理大數據的能力後,預測犯罪變的有可能,然而這是否就否定了人類的自由意志?

為了防止犯罪發生,在發生之前以公權力先行介入,假釋罪犯,因為預測了再犯的可能性,而調整了他的假釋期間,更甚者駁回假釋。這些都是逃避不了的道德面問題。

我想,將因果性和相關性分開來思考有些許幫助。

資訊濫用

輸入的是垃圾,輸出的也是垃圾。Garbage in, garbage out

選舉操弄、假新聞、社群暴力是數位時代的特殊產物。

法規跟不上科技進步的速度,當資料擁有者登高疾呼,站出來守護閱聽人的權利的時候,又會有另一派人士認為他憑什麼去阻礙人知的自由。臉書創辦人對於臉書言論的立場改變,就是一個很好的例子。究竟要如何防堵錯誤資訊、篩選力度、定義敏感主題……,這些都不是一時半刻可以釐清的議題。

解決方法

資料化:基礎建設的必然

https://i0.wp.com/specials-images.forbesimg.com/imageserve/5da63b70db40260006202a39/960x0.jpg?w=1290&ssl=1

書中提到的當年 2013-2014 的資料化的例子。

  • 亞馬遜:新書數位化
  • 谷歌圖書:舊書資料化
  • 谷歌地圖:位置資料化
  • 臉書:人際關係資料化
  • 推特:情緒資料化
  • LinkedIn:專業經驗資料化

首先要注意的是,資料化和數位化指的並非同件事情。

Amazon 當年做的事情只是將新書數位化(類比轉數位),當今我相信他們一定某種程度的將這些數位產品的資料,拿去做更進一步的使用,以提供讀者更好的閱讀體驗!

至於我自己想到的一些例子:

  • 比特幣:金融資料化
  • Youtube, 影音串流, 手遊, Clubhouse:娛樂資料化
  • 通訊軟體:溝通資料化
  • 信義房屋:看房資料化
  • Palentir:情蒐資料化
  • VIX:市場恐懼資料化
  • Apple Watch:邁向健康資料化
  • Teledoc:看病資料化

大數據的時代,是由資料組成的「場域」,在人類還未進階到老高常提到使用意識溝通的層級,資料化我認為是邁向意識溝通之前一個必然的進程。

Metadata:重獲資料價值

一般物質性東西一但使用,價值便會降低;資料可一次又一次處理,價值並不會減少。

重複使用、跨領域使用、多功能使用,以上是讓資料重獲價值的方法。

保持開放、創意、彈性,在資訊充斥於生活周遭的年代,善用手邊的資訊,進行適度的重整,結合自己的興趣圈、知識圈,就能讓看似平凡無奇的資料賦予獨一無二的價值。

單位監督 vs. 個人負責

資訊濫用產生的問題,至今沒有一個完美的解法。

審查機制的建立是必然的方向,然而在這個過程當中,我們將看到資料擁有單位(可能也同時身兼審查單位)和個人之間的衝突產生。

自由對上規範,本就是千百年來人類對上權威一直在攪和的戰場,只是今天戰場從真實世界搬上了虛擬世界。

在規範還未完善前,個人是否應該也要秉持著基本的社會道德,在網路世界端正做人。只因為看似匿名,不易追查的環境,就肆無忌憚大放厥詞,造成的只是更多社會成本的浪費。

個人體悟

工匠 vs. 跨領域

工業時代,個人擁有一技之長是存活於世間的基本生存法則。

到了資訊時代,絕大多數專業技能知識,已變得唾手可得。若只有單一技能,很容易被快速變遷的時代淘汰。飛行員一職,我也很難打包票地說在未來 40-50 年一定還會存在。

Elon Musk 曾說 2021 年,自家車廠將推出 Level 5 等級的自動駕駛系統。如果在航空業,也出現了另一個 Elon Musk,誰能肯定大眾對於民航駕駛存在的信任,與科技至上、偶像崇拜的信任孰快孰慢呢?

2020 年,我們看到有人開始在自動駕駛車上高速公路躺平睡覺了,對於人類的想像力和信念,還有什麼不可能呢?

持續跨領域學習、思考、應用,我認為才是生存在這個時代,不被淘汰的解決之道。

肯定人性的存在

讓直覺、常識、偶然都還有容身之處

大數據的時代,透過研究數據就可以得到的解答、或是預測大部分的行為,那麼人還有存在的意義嗎?

人,終究是決策、行動的主人,資料分析的結果,最終也只是輔助角色。

這個世界依舊會因為人的多樣性、本能、情緒產生各樣的意外和驚喜。Covid-19 就是個很好的例子,如果 10 年前的 Google 就能準確預測流感趨勢,今天的 Google 預測能力會更差嗎?為何美國或全球的疫情會導致今天的景況?

投資方向

透過理解大數據思維,可以重新思考投資方向!

大數據時代,哪一類型的公司才是真正能在 10 年、20 年後持續引領風騷、屹立不搖的公司呢?相信每個人心中都會有不同的評斷標準。

創造價值

說了這麼多,在大數據時代,究竟一般小老百姓能夠做些什麼?

和科技巨頭比資料量?這是不可能辦到的事情。

我想到的是:利用手邊的任何資源,創造出有意義的資料,不僅對自己有意義,也對他人有意義。自去年 2020 開始經營的這個網站,正好就是朝著這個目標在經營的!

我期望能夠秉持初衷,分享飛行、學習成長、福音給人們。

不同類型的主題,產生不同的感動。儘管寫了 10 篇,可能只會有 1 篇讓人產生共鳴 ,這也是一種成就感,更是我持續鞭策自己產生好作品的動力 。

堅守道德、心態開放、持續學習,是在這個大數據時代存活的不變道理!

影片推薦

附上在查詢資料時看到的 Amazon CEO Bezos 影片

Cleverness is a gift, kindness is a choice.

大數據 Big Data》 博客來購買連結 推薦指數 4.3/5 ⭐️⭐️⭐️⭐️⭐️

喜歡這篇文章的話,請不吝嗇地 C.L.S. 或是右側欄位訂閱支持我。

Comment:歡迎在下面留言區和我分享你的想法或是行動
Like:或是在下方按個喜歡
Share:也歡迎分享給你的親朋好友 ‍❤️‍


喜歡這篇文章嗎?歡迎分享給您的朋友 👍

Similar Posts

3 Comments

  1. 「不在乎擁有,只在乎充分運用」對這句話很有感!
    現在取得資訊的方式相對容易,也許能更進階的關鍵就變成資料篩選、吸收及轉化能力了~

    1. 這是現代人的煩惱啊!
      更多的資訊,卻是和幾千年前的人擁有差不多長度的壽命。
      需要有智慧的分辨什麼是真正有價值的東西,保持信念行動!

發表迴響