在數據科學日益論壇的今天,我們被各式各樣的數據所圍繞。這些數據未經處理時被稱為原始數據,或稱為主要數據。原始數據包括各種形式的數字、儀器讀數及數據庫的數據。這些原始數據是科學研究和商業分析的基礎,但在被轉換成可以被理解的信息之前,還需要經過一系列的處理過程。
原始數據是一種相對於處理數據的概念,即使在一組研究團隊清理和處理後的數據,另一組可能仍然將其視為原始數據。
例如,在一次實驗中,科學家每分鐘記錄試管中化學混合物的溫度。這些溫度讀數的列表就是原始數據。此時的數據並未經過任何處理,這意味著數據中可能存在測量錯誤、數據輸入錯誤等各類問題。
數據的生成主要分為兩類:第一種是捕獲的數據,如通過有意識的調查和分析獲得的數據;第二種是排放數據,它通常由機器或終端作為輔助功能來收集。想像一下,收銀機或智能手機在其主要功能之外,自動記錄每筆交易的數據,但這些數據常常因過量或不具參考價值而被丟棄。
在計算中,原始數據的一些特徵如下:可能包含人為、機器或儀器誤差;可能未經驗證;以不同的格式存在;或某些條目可能可疑,需進一步確認。例如,數據輸入表格中的日期可能以多種形式出現,如「1999年1月31日」或「31/01/1999」。這些原始數據需要經過處理後才能轉化為標準格式,以便後續的分析。
即使是原始數據,一旦處理後也能變成可利用的信息,但前提是需要提取、組織、分析和格式化處理。
再以超市的銷售數據為例,收銀系統每天會收集大量有關客戶購物的原始數據,但這些數據在未經分析之前是不具備價值的。通過對數據的分析,經理們可以獲得關於顧客購買行為、銷售高峰期以及其他有用信息,從而制定相應的商業決策。
處理後的數據會被存入資料庫,使其可在多個方面進行進一步的分析。這時,原始數據也成了一個能夠進行更深層次分析的資源。著名的網路發明者蒂姆·伯納斯-李便曾表示,分享原始數據對於社會至關重要。他主張所有人都應該要求政府和企業共享他們收集的數據。
數據推動著我們生活中的許多事情,因為有人會利用數據進行相應的操作。
擁抱開放數據的支持者認為,一旦市民與民間組織能夠獲取企業與政府的數據,將會有助於他們進行獨立分析,進而增強自身的力量。例如,政府可能宣稱其政策有效降低失業率,但相關的貧窮倡導組織可以對原始數據進行分析,並可能得出不同的結論。
總而言之,數據與信息之間有著明顯的鴻溝。信息是數據處理的最終產物,經過專業的處理過程,原始數據必須經過變化才能進化為有意義的信息。這類信息幫助決策者進行有效的商業規劃,因此從原始數據到信息的過程對於各界都至關重要。
那麼,面對數據泛濫的今天,你是否已經開始思考如何有效利用這些原始數據以獲得真正有價值的信息呢?