(本版图片均为资料图片)
记录了一切
大数据,并不仅仅指数字,理论上讲,一切可以以文件形式储存于计算机硬盘的东西,包括数字、文字、图像、声音、视频等,均可称为数据。
一份调查显示,2013年我国产生的数据总量超过0.8ZB(十万亿亿字节),相当于2009年全球的数据总量;而到2020年,一个普通中国家庭每年产生的数据量,将相当于半个国家图书馆的信息储量。
“大数据时代,记录了很多以往根本不可能或者不需要记录的数据,比如微博、朋友圈的内容,上网产生的cookie(某些网站为了辨别用户身份,进行时域跟踪而储存在用户本地终端上的数据),家庭水电气使用情况,汽车和大型设备上安装的传感器收到的数据等。”社交数据分析公司独到科技的CEO张文浩说,“如果这些信息都是‘孤岛’,影响可能不大。但一旦相互关联,影响力会大得惊人。”
中科院信息工程所所长田静也表示,以往碎片化的数据只是盲人摸象,但现在这些碎片全都被存贮起来,通过相关性分析拼凑,“就知道象到底长什么样了”。
或许很“危险”
任何一项新技术的背后,都可能悬挂着一把达摩克利斯之剑。大数据也是如此,在人们惊叹于它的“神力”之时,“威胁”也正悄悄逼近。
“前两年,国外一家情报搜集机构利用国内某机构人员公开发表的数据和资讯,进行深度挖掘分析,生成了有价值的情报。”中国电子学会秘书长徐晓兰说,“这在以往几乎是不可能的,同时也给我们敲响了警钟。”
著名军事专家尹卓以战时的交通流量信息为例说,如果不重视数据的安全使用,可能给国家安全带来隐患,“在科索沃战争中,南联盟的油料库虽然隐蔽得很好,但美国军方通过对卫星图中的交通流量进行分析,划定了大量油罐车经常出没的区域,再进行精确搜寻,从而将其一举炸毁”。
如果您认为这些“危险因素”离自己很远,那就大错特错。
“现在很多智能手机的应用都要求访问通讯录。”中国工程院院士邬贺铨说,很多人觉得自己没有什么秘密,就同意了,但实际上,这不仅会透露自己的大量信息,也会把很多人置于隐私暴露的危险之下。
张文浩也指出,现在很多年轻人都有用手机发微博或者“签到”的习惯,“这样其实会泄漏自己的很多信息。比如你白天经常签到的位置很可能就是你的单位,傍晚以后签的多半是自己家”。
正经历“成长的烦恼”
徐晓兰指出,海量的信息储存以及对其的挖掘、分析,既是大数据的价值所在,也是它有别于传统互联网、可能对信息安全带来的新隐患,大数据正经历“成长的烦恼”。
“企业掌握的数据毕竟有限,而且是局部的。”百度公司董事长李彦宏提出了数据开放的概念,国家应该把那些不涉及安全的数据公开,让有能力的机构进行更好的分析利用。
张文浩认为,建立一个公开、透明、规范的数据市场,将大大增强数据的利用率。但在这个过程中,需要仔细考量什么样的数据可以进入市场。
这就涉及立法的问题。“界定‘隐私’和为数据进行安全分级,是制定法律法规时要优先考虑的问题。”张文浩指出,“个性化服务和隐私之间是一种博弈。名字、电话、住址……不能什么都说是隐私,因此需要为数据安全分级。简单地说,根据数据分析的经验,我们会知道哪类信息具有更强的指向性和排他性。这类信息的安全级别就应该更高。”
(据《科技日报》)