什麼是 PB?抱歉,各位蘋科科的愛好者們,我說的不是 PowerBook;
抱歉,各位化學愛好者們,我說的也不是鉛。這裡想說的是. . . .
....這裡想說的是
PetaByte的紀元來臨時的挑戰。
(也就是 1000 TB,或 1,000,000 GB)1 PB 的紀元?現在就想這個做啥?畢竟現在硬碟主流連 1TB 都還不到不是嗎?從資料儲存的角度來看,這樣說是沒錯,七月號的 Wired 雜誌上舉了幾個很生動的例子告訴我們,其實要用光 1000TB 的容量還蠻困難的:
- 現在出去買一台玩家級的新電腦,容量大約是 1TB(或者,小薑庫存的*嗶*片也大約這個數)。
- 每周上傳到社交網站 Facebook 上的照片總量是 20TB。
- 哈柏太空望遠鏡從發射以來產生的總資料量大約是 120TB
- 大型強子碰撞器每周產生的資料量大約是 330TB。
- 美國國家氣候中心所以收集下來的資料總量約是 460TB。
- Youtube 上所有的影片的總量約是 530TB(比想像中小?)。
- Ancestry.com(一個家族追根資料庫)加上內附的 1790-2000 人口普查資料大約是 600 TB。
看吧!PB 的事還是留給後代子孫去煩惱好了,看起來要一次用掉 1PB 還早呢!是啦,要變出 1PB 的資料看起來是有困難,但從
資料處理的角度來說,1PB 只是
Google 伺服器每 72 分鐘處理的資料量而已。 雖然從資料儲存的角度來看,我們還處在 TB 時代,但已經有很多預兆告訴我們,下一個量級單位帶來的會是完全不同的一組新挑戰。小薑在後面想了五個可能:PB 時代的第一大挑戰是什麼?就是資料的過濾。就算人類已經有產生 PB 級資料量的能力,但事實是我們並沒有把這些資料全部有效地存取的技術。因此選擇哪些資料更有價值,就成為了很重要的課題。之前就有提過的大型強子碰撞器, 事實上因為是在觀測為時非常短的現象,因此每秒大約要拍下十億張的照片,才能確保不漏掉什麼重要的事情。如果全部的資料都要保留的話,每秒鐘就必須儲存 10PB 左右的資料 -- 也就是說每秒鐘會塞滿 10,000 顆 1TB 容量的硬碟。這是一個靠現有技術絕對不可能辦到的事情,所以必須靠硬體和軟體的過濾,找出每秒大約 100 個值得關注的事。即使如此,一年仍將產生約 15TB 的資料,或 15,000 顆 1TB 的硬碟,藏在這些資料裡頭的,有黑洞、異次元、平行宇宙,還有兩三個諾貝爾獎吧?