基于大数据环境的科学数据共享模式研究
2020-09-15
来源:汇智旅游网
第32卷第12期 情报杂志 V01.32 No.12 2013年12月 JOURNAL OF INTELLIGENCE DeC. 2013 ・信息资源与信息服务・ 基于大数据环境的科学数据共享模式研究冰 左建安 陈雅 (南京大学信息管理学院南京210093) 摘要科学数据是科学研究的重要成果,对国家建设、科学研究和民众生活都具有重要的意义。在大数据环境 下,科学数据共享也越来越迫切。本文指出大数据时代科学数据共享的四种模式:国家政策驱动、部门之间交换、企 业发展带动以及国际组织参与模式,四种模式相互交叉和渗透。此外,对我国科学数据共享提出了相应的建议,完 善相关的法律政策,协调科学数据共享与知识产权保护的矛盾。 关键词 大数据科学数据共享模式公众需求数据开放 中图分类号G350 文献标识码A 文章编号1002—1965(2013)12—0151—04 The Analysis on Sharing Mode of Scientific Data in the Environment of Big Data Zuo Jian an Chen Ya (School of Information Management,Nanjing University,Nanjing 210093) Abstract Scientiifc data ale the important achievements of scientiifc msealch and have very important signiifcance for nation—building, scientiifc studies and public life.Especially in the environment of big data,scientiifc data sharing has become increasingly urgent.This pa- per points out four modes of scientiifc data sharing:national policy—driven,exchange between departments,enterprise development—driv— ell and participation of i ̄emational organizations in the environment of big data.Also,it puts forward the corresponding proposals ofr sci— entiifc data sharingin China. t Key words big data scientiifc data sharing mode public S demand open data 0 引 言 出,一个大规模生产、分享和应用数据的时代正在开 启。“大数据”一词由英文“Big Data”翻译过来。麦肯 科学数据是科学研究的重要成果,对科技创新、经 锡全球研究所报告《大数据:创新、竞争和生产力的下 济发展和国家安全具有重要的战略意义。我国已于 一个前沿》对“大数据”的定义为:大数据指的是大小 2002年启动“科学数据共享工程”,力求构建面向全社 超出常规的数据库工具获取、存储、管理和分析能力的 会的共享服务体系,而科学数据共享模式随着时代和 数据集。 环境的变化而发展和改变。本文拟对大数据环境下的 大数据走近人们视野不久,但业界公认的,大数据 科学数据共享模式进行探究,以便为我国科学数据共 有四个“V”字开头的特征:Volume(容量),Variety 享工作的开展提供一定的参考。 (种类),Velocity(速度)和最重要的Value(价值)。 1概述 Volume是指大数据巨大的数据量与数据完整性,数据 量级已从TB发展至PB乃至ZB,可称海量、巨量乃至 1.1大数据环境下的信息特征分析数据无处不 超量。Variety则意味着数据类型繁多,越来越多的表 在,随着社交网络、电子商务以及移动通信的发展,数 现为网页、图片、视频、图像等半结构化和非结构化数 字信息从各种各样的传感器、测试仪器、模拟实验室、 据信息。Velocity是指数据传递速度快时效高,更快 文化娱乐企业和个人使用的数字终端中源源不断地涌 地满足实时性需求。Value则是大数据的终极意 收稿日期:2013~07—12 修回日期:2013—09—11 基金项目:江苏高校哲学社会科学研究重点项目“江苏省‘十二五’时期数字文化产业之数字内容服务模式研究”(编号:2011ZDIXM011)系列 成果之一。 作者简介:左建安(1988一),男,硕士研究生,研究方向:数字图书馆建设与评价相关研究;陈雅(1965一),女,博士,教授,研究方向:图书馆 法、知识管理及数字图书馆建设等相关研究。 ・152・ 情报杂志 第32卷 义——满足人类的需求,在尽可能短的时间内发掘其 价值 。在IBM 2013技术峰会上,牛津大学网络学院 互联网治理与监管专业教授、大数据权威咨询顾问维 克托・迈尔・舍恩伯格博士表示,他理解的大数据有 三个特点,即全体、}昆杂和相关关系:全体意味着要去 研究和现象有关的所有数据点;混杂意味着不去追求 特别的精确性,而会去满足于某种大的方向;相关关系 是指对事实的态度更多地从因果关系转向相关关系。 1.2科学数据的概念分析科学数据是人类社会 从事科技活动所产生的原始观测数据、探测数据、试验 数据、实验数据、调查数据、考察数据、遥感数据、统计 数据、研究数据以及相关的元数据和按照某种需求系 统加工的数据,具有科学价值和使用价值 。科学数 据是信息时代一种特殊的社会资源,具有明显的潜在 价值和可开发价值,并在应用过程中得以增值。很显 然,大数据这一宽泛的概念是包括科学数据,科学数据 也是大数据的内容之一。 2大数据环境下科学数据的信息共享需求 2.1 国家战略需求大数据环境的到来,使得数据 成为一种资产,正成为与物质资产和人力资本相提并 论的重要生产要素。科学数据这一具有战略意义的资 源,更是成为了社会的重要资产。一个国家和企业的 发展在很大程度上取决于其科技创新和技术创新水 平,而对科学数据进行系统的综合分析是实现科技进 步与创新的重要方式。无论是资源、能源的开发,还是 高新技术产业化,无不是在科学数据的积累与支持下, 实现理论与技术创新的结果。特别是在以知识为基础 的经济中,使越来越多的知识产品以各种方式驱动着 经济的快速增长,以知识、信息和数据应用为主要目的 信息管理、加工与发布成为迅速发展的产业,在现代信 息技术引领下正在拉动“数字经济”_3 ,也就是现在正 在发生的“大数据经济”。长期以来,我国已经积累了 较为丰富的科学数据资源,但大多数仍存于资料堆或 档案柜中,没有经过有效的整理和建库,数字化程度较 低,很多数据库往往局限于本部门、本单位使用,甚至 个人使用,造成了科技资源的巨大浪费。所以打破科 学数据壁垒,实施科学数据共享,是国家发展战略的必 然要求。2012年3月29日,奥巴马政府宣布启动《大 数据研究和发展计划》,同时组建“大数据高级指导小 组”,涉及美国国家科学基金、国家卫生研究院、能源 部、国防部等6个联邦政府部门,宣布将启动2亿美元 的投资计划,提高从大量数据中访问、组织、收集发现 信息的工具和技术水平。这使得美国成为全球首个将 大数据从商业行为上升到国家意志和国家战略的国家。 2.2科学研究的要求 当前的科学是多学科交叉 的科学,是围绕数据展开的全球研究,并将越来越依赖 于数据。科学研究的本身就是科学数据的生产过程, 一些科学数据就是及其重要的研究成果。科学数据资 源既是研究的成果与积累,又是支持更为复杂的创新 研究所不可替代的资源存量。尤其在大数据时代,科 学数据量激增,科学研究越来越依赖于系统的、高可信 度的基础科学数据分析。21世纪以来全球科技活动 不断增强,一系列重大科学工程的兴起、复杂科学问题 研究的提出、大型科学研究计划的产生,导致前所未有 的国际合作局面的形成,也导致了全球范围内对科技 信息资源交流、互通的客观需求。因此,实现科学数据 的共享,科学家就可以不需受限于数据的来源、格式以 及国界,也不必质疑科学技术对于数据处理与存储的 能力,可在全球海量的科学数据中发掘创新的潜力。 2.3 科学数据的公众化需求 大数据环境下,科学 数据的需求不仅仅局限于政府、科研单位以及企业,社 会公众也越来越需要科学数据。科学数据对于社会公 众,不仅仅可以提高自身知识水平和科学素养,也是日 常生活中不可或缺的重要信息资源。如今个人电脑、 智能手机及其它掌上智能设备的普及,互联网的应用 和发展,使得公众对这些基本的科学数据获取的需求 更为强烈。例如随着智能手机的普及,许多驾驶员使 用手机装载的定位系统确定行车路线。和传统的定位 系统不同,这些通过智能手机定位的信息都传递和保 存在大数据库中。这些海量数据不仅能像传统的交通 信息一样让人们了解某一个时段一条路上的车流量, 还能明晰的标示出这条路上每个时段的每一辆车从何 处来、往何处去,并记录每辆车的停车情况。同时,现 有技术也能够支撑信息的反馈,即可以向车辆驾驶者 和乘客发布拥堵预警、拥堵状况和停车场分布和占用 情况等信息。同样地,在医疗健康领域,大规模复杂数 据已经变得很普遍,通过对大量病人的各类数据进行 挖掘分析,有助于更有效地找出疾病成因,进而提供有 针对性的预防、诊断和治疗措施。尽管社会公众大多 数是非专业人士,但可见在大数据时代,公众对科学数 据的质量要求是越来越高,对科学数据的发布渠道、发 布频率、表现形式等的要求也会越来越高。 3 基于大数据环境的科学数据共享模式研究 科学数据按基本社会属性分类,可分为战略性科 学数据、公益性科学数据以及商业性科学数据。相应 地,目前科学数据共享模式主要表现为国家制约的公 益性无偿共享模式和市场制约的产业化运行模式。前 者强调数据的公开和公益性共享,后者强调保护数据 产权和商品性质。具体来讲,有以下四种模式。 3.1 国家政策驱动模式借鉴国际科学数据共享 第12期 左建安,等:基于大数据环境的科学数据共享模式研究 .153. 经验,美国就是典型的国家政策驱动模式。早在1991 年6月美国总统事务办公厅就发布了“全球变化研究 数据管理政策”,该政策的核心就是实行“完全与开 放”的科学数据共享。美国政府在科学数据共享方面 根据投资来源的不同,严格区分两种不同的数据共享 机制。政府拥有、生产和政府资助生产的数据纳人到 “完全与开放”的共享机制,即除涉及危害国家安全、 影响政府政务和公务员个人隐私的数据外,其他都必 须公开。私营公司投资生产的数据纳入到“平等竞 争”市场化共享机制。在这两种不同共享机制中,美 国联邦政府均起到主导的作用,所不同的是采取的方 式和管理的环节不同。两种机制互相补充,促进全社 会对科学数据的获取、共享和广泛应用。对于国有科 学数据,由国家统筹规划数据共享机制与体系,提供数 据共享工作预算和保障,以及相关政策法规的制定、完 善和监察。“完全与开放’:的科学数据共享政策,使得 一度曾各自为政的混乱的数据管理走向了有序运作的 轨道,科学家从得不到数据的抱怨走向数据的全面应 用,科学数据的开发水平和开发能力逐步提高,惠及了 地球科学、生命科学、材料科学等各个领域,也极大地 刺激了美国经济的发展。人类社会在大数据环境下, 数据开放也已成为潮流。2009年,Data.gov网络平台 在美国正式上线,按原始、地理数据和数据工具三个门 类开放数据,截至2012年11月,Data.gov共开放388 529项原始数据和地理数据,汇集了1 264个应用程序 和软件工具、103个手机应用插件。欧盟开放数据战 略(Open Data Strategy)于2010年11月由欧盟委员会 首次提出,并于2011年11月底被欧盟数字议程采纳, 基本概念是公共经费支持的信息应该得到最广泛的使 用,其中科学数据的开放是其全面开放数据政策的重 要组成部分 。 3.2部门之间交换模式科学数据的共享首先应 该从生产科学数据的部门共享开始。为避免重复生 产,科研单位内部之间以及各科研单位之间的科学数 据,在不侵犯知识产权的情况下,要努力做到共享的第 一步。以数据和信息为基础的经济、社会和科学发展 中,一般情况下没有哪一个部门能够总是拥有某项科 研活动需要的所有数据产品,尤其对于广大的科学社 区,其研究内容广泛,对开放共享有着强烈的需求,研 究过程中往往需要来自多个数据生产部门的不同区 域、不同时期、不同尺度、不同学科的数据资源 。因 此部门之间的数据交换就显得急需和迫切。例如,地 震工作部门各单位收集并存档的各种地震科学数据, 其他部门或单位为保障重大工程的地震安全而专门建 设和管理的专用地震监测台网和强震动监测设施所收 集并存档的地震科学数据,均属于共享范围 。浙江 省地理空间数据交换公共服务平台项目目前是全国首 家省级地理空间数据交换平台,由浙江省政府和国家 测绘地理信息局合作共建、省测绘与地理信息局承建。 该平台实现了浙江全省地理空间信息资源在各部门之 间的交换与共享,已为近30家省级部门、市县用户和 企事业单位提供相关地理信息服务,支持了40个业务 应用系统 。 3.3 企业发展带动模式 现代企业的发展离不开 信息和数据的支持,同样地,企业的发展也能促进信息 和数据的传播与分享。一个企业的发展需要科学的发 展方案,也需要科学数据来做产品的进一步研发以及 科技成果的转化。大数据环境中数据积累量、数据分 析能力、数据驱动业务而非流程驱动业务的能力将是 决定企业生死存亡的关键。数据的重要性使得企业必 将收集和分析海量的各种类型的数据,并快速获取影 响未来的信息,在这一过程中,企业就会做出益于科学 数据共享的决策与措施,例如由企业出资的科学合作 项目的开发,有企业参与的科学资源共享平台的构建, 以及企业自建商业性的科学数据库。只有学术和产业 价值融合,才能真正发挥科学数据的应用价值。虽然 学术界和产业界关注的价值点并不完全一致,但仍存 在一些共性。发现和利用其中的共性,对解决科学数 据共享中出现的问题很重要。跨界合作是积极且有意 义的尝试,学术界可以致力于基础技术的研究,盈利模 式的分析则由企业去完成。同时,学术界和产业界在 某些交叉领域形成竞争也是一种良性模式。一些大企 业会对前沿技术和数据积累追踪最新的学术成果,甚 至自己做学术研究,学术界也在积极推进产业化思考。 3.4 国际组织参与模式 随着人们对科学数据共 享意识的提高,越来越多的国际组织参与进来,进行国 际间的交流与合作,满足国际社会对科学数据共享的 需求。在国际科学联合会(ICSU)的组织下,1957年 成立了世界数据中心(World Data Center),开展地球 科学、空间科学和环境科学领域数据的收集、整理、系 统化、标准化及交流服务等活动。世界数据中心不仅 在地球科学、空间科学和环境科学领域积极推进了数 据管理和共享,还积极参与许多重大的国际科学计划, 为人类科学事业的发展作出了贡献。国际科技数据委 员会(Committee on Data for Science and Technology) 成立于1966年,其宗旨是提高科学数据的质量,推动 对科学数据的收集、交换、服务和共享。CODATA致 力于提高对整个科技领域有重要变化的数据的质量、 可靠性、管理与可访问性,向科学家和工程师提供对国 际数据活动的访问,促进直接合作,并利用互联网初步 构建了全球范围内的科学数据交换体系。CODATA 通过建立标准格式促进数据交换、共享,并协调各国数 ・154. 情报杂志 第32卷 据项目,定期召开国际数据学术会议,扩大国际对科学 这一方面挫伤了科学数据生产者的积极性,减少了科 数据共享的认识和深入探讨数据共享等方面的问题。 学数据存量的增长;另一方面,出现把科学数据当作本 单位或个人财产的问题,阻碍科学数据共享的有效运 4我国科学数据共享在大数据环境中的思考 以上这四种科学数据共享模式相互交叉和渗透, 在大数据环境下继续存在并向深远发展。应该说我国 行。因此,要对不同投资主体的科学数据进行产权界 定,保护数据投资者、创造者的合法权益,同时规范产 权交易,促进科学数据的广泛传播与使用。 的科学数据资源是十分丰富的,近年来国家各有关部 门相继成立了专门的信息中心,如国家基础地理信息 中心、国家海洋信息中心、国土资源部信息中心、国家 气象信息中心等等,这些信息中心成为政府部门向社 会提供公益性、基础性服务的重要窗口。我国目前需 要的是从政策法规、技术规范、组织管理各个层面保证 科学数据共享工作的顺利进展。 再次,与国外发达国家相比,我国科学数据共享的 实践相对不足,数据共享的技术与设施还比较薄弱,共 享水平和范围都有待加强,特别是参与国际合作项目 还不够广泛和深入。因而,我国科技界应积极参与国 际组织的相关活动和国际合作项目,借鉴国外科学数 据共享的成功经验和好的做法,充分利用国际资源提 升我国科学数据共享水平。只有这样才能提高我国科 学数据共享水平,让科学数据真正走出封闭的实验室, 走向社会,走向世界。 参考文献 首先,科学数据共享离不开完善的科学数据管理 政策法规的保障。对于法规政策的出台相比于欧美发 达国家,我国政府发布的程度还远远不够,应对大数据 的挑战,政府必须出台更多关于科学数据共享和数据 [1]赵国栋.大数据的定义和特征[EB/OL].[2013—05—07].ht一 【p://blog.sina.corn.cn/s/blog_537e497a01019pi3.htm1. 开放的相关法律政策,把科学数据共享上升为国家战 略的高度。科学数据难以共享成为科学研究的一大障 碍,在大数据环境下其带来的负面效应会被继续放大。 我国的政府科研项目一直都没有数据公开和共享的要 求,科学数据零散地掌握在各个科研单位和研究小组 内部,这不仅不利于科研活动的展开,对国家的科研投 入来说也是一种巨大的浪费。因此,必须由国家出面, 建立科研数据共享的机制和环境。目前,我国政府已 [2]江洪,钟永恒.国际科学数据共享研究[J].现代情报,2008, (11):56-58. [3]黄鼎城,郭增艳.科学数据共享管理研究[M].北京:中国科学 技术出版社,2002:36—37. [4] 欧盟委员会副主席Neelie Kroes:希望每个欧洲人都参与数字 化[EB/OL]. ̄2013-05-23].http://www.open-access.net. nJ5100653e83b753d652aR6001/201 25e74/46708/ 6b2776df59d454584fla526f4ejb5e2dneelie — kroes 一 5eoc671b6bcf4e2a6b276d324eba9Ofd53c24eOe一65705b575316. 经编制了“科学数据共享工程建设规划”,制定了《科 学数据共享条例》《国家科技计划项目科学数据汇交 办法》《科学数据共享工程管理办法》《科学数据共享 工程试点遴选和检查评估办法》和《科学数据分类分 级共享及其发布策略》等一系列数据共享的政策法 规。 [5] 刘润达,赵辉,李大玲.科学数据共享平台之数据联盟模式 初探[J].中国基础科学,2010,12(6):27—32. [6]地震科学数据共享管理办法[EB/OL].[2013—05—07].ht— tp://d ̄a.earthquake.cn/policy/gxbf.htm. [7]浙江建成全国首家省级地理空间数据平台[EB/OL].[2013— 06-07].http://kjsb.zjo1.corn.cn/html/2013—02/22/content一 21927.htm. 其次,必须解决科学数据共享工作中产生的知识 产权保护问题。我国在科学数据的产权归属与分享的 层面上,长期存在着权益、利益和责任不清的问题。 [8] 张永强,孙燕,易善桢,李丹.构建数字城市地理空间数据 (责编:贺dx ̄,J) ”共享机制[J].计算机技术与发展,2007,17(3). +”+n+”+”+“+“+”+n+・ (上接第159页) 参考文献 [7] 刘新年,王晓民,任 博.大数据时代下,如何保护隐私权 [N].检察日报,2013—08—23(5). [8] 冯伟.大数据时代信息安全面临的挑战与机遇[N].科技日 [1]Big data[EB/OL].http://zh.wikipedia.org/wiki/big—data. [2]Big data[EB/OL].http://www.gartner.com/it—glossary/big -报,2013—06—24(1). data. [9]齐爱民.个人信息保护法研究[J].河北法学,2008(4):15— 33. [3]涂子沛.大数据[M].桂林:广西师范大学出版社,2012:57. [4]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4):47— 49. [10]王利明.民法(第五版)[M].北京:中国人民大学出版社, 2012:515. [5] 王文超,石海明,曾华锋.刍议大数据时代的国家信息安全 [J].国防科技,2013(2):1—5. [6] (英)维克托・迈尔一舍恩伯格,肯尼斯・库克耶著;盛杨燕, [11]梅绍祖.个人信息保护的基础性问题研究[J].苏州大学学报, 2005(2):25—30. [12]丰家卫.方周大战拷问大数据时代隐私安全[N].中国青年 报,2012—11—02(5). (责编:刘影梅) 周涛译.大数据时代[M].杭州:浙江人民出版社,2013:195— 2o0