在数据科学日益论坛的今天,我们被各式各样的数据所围绕。这些数据未经处理时被称为原始数据,或称为主要数据。原始数据包括各种形式的数字、仪器读数及数据库的数据。这些原始数据是科学研究和商业分析的基础,但在被转换成可以被理解的信息之前,还需要经过一系列的处理过程。
原始数据是一种相对于处理数据的概念,即使在一组研究团队清理和处理后的数据,另一组可能仍然将其视为原始数据。
例如,在一次实验中,科学家每分钟记录试管中化学混合物的温度。这些温度读数的列表就是原始数据。此时的数据并未经过任何处理,这意味着数据中可能存在测量错误、数据输入错误等各类问题。
数据的生成主要分为两类:第一种是捕获的数据,如通过有意识的调查和分析获得的数据;第二种是排放数据,它通常由机器或终端作为辅助功能来收集。想像一下,收银机或智能手机在其主要功能之外,自动记录每笔交易的数据,但这些数据常常因过量或不具参考价值而被丢弃。
在计算中,原始数据的一些特征如下:可能包含人为、机器或仪器误差;可能未经验证;以不同的格式存在;或某些条目可能可疑,需进一步确认。例如,数据输入表格中的日期可能以多种形式出现,如「1999年1月31日」或「31/01/1999」。这些原始数据需要经过处理后才能转化为标准格式,以便后续的分析。
即使是原始数据,一旦处理后也能变成可利用的信息,但前提是需要提取、组织、分析和格式化处理。
再以超市的销售数据为例,收银系统每天会收集大量有关客户购物的原始数据,但这些数据在未经分析之前是不具备价值的。通过对数据的分析,经理们可以获得关于顾客购买行为、销售高峰期以及其他有用信息,从而制定相应的商业决策。
处理后的数据会被存入资料库,使其可在多个方面进行进一步的分析。这时,原始数据也成了一个能够进行更深层次分析的资源。著名的网路发明者蒂姆·伯纳斯-李便曾表示,分享原始数据对于社会至关重要。他主张所有人都应该要求政府和企业共享他们收集的数据。
数据推动着我们生活中的许多事情,因为有人会利用数据进行相应的操作。
拥抱开放数据的支持者认为,一旦市民与民间组织能够获取企业与政府的数据,将会有助于他们进行独立分析,进而增强自身的力量。例如,政府可能宣称其政策有效降低失业率,但相关的贫穷倡导组织可以对原始数据进行分析,并可能得出不同的结论。
总而言之,数据与信息之间有着明显的鸿沟。信息是数据处理的最终产物,经过专业的处理过程,原始数据必须经过变化才能进化为有意义的信息。这类信息帮助决策者进行有效的商业规划,因此从原始数据到信息的过程对于各界都至关重要。
那么,面对数据泛滥的今天,你是否已经开始思考如何有效利用这些原始数据以获得真正有价值的信息呢?