大数据研究综述
2024-09-03
来源:汇智旅游网
第1 5卷第12期 2016年12月 软件导刊 Software Guide Vb1.1 5No.12 Dee.2O16 大数据研究综述 卿 勇 (达州职业技术学院,四川达州635000) 摘 要:信息技术的迅速发展,促使物联网、云计算、移动互联网三网融合,并衍生出海量数据,大数据时代已悄然来 临。以几何倍数增长的数据如何高效率地采集、处理、挖掘是大数据领域亟待解决的关键问题。阐述了大数据的定 义、国内外研究现状及特点、大数据的关键技术,提出了大数据的发展趋势。 关键词:大数据;三网融合;关键技术 DOI:10.11907/rjdk.161834 中图分类号:TP301 文献标识码:A 文章编号:1672—7800(2016)012—0175-02 的编程计算项目(PROCEED项目)、视频与图像检索分析 0 引言 在数据量以几何级数方式迅猛增长的今天,随着物联 工具项目(VIRAT项目)等。为实现决策优化,美国还进 行了数据可视化、信息安全与大数据结合等方面的综合研 究,建立大数据中心,对各类大数据进行整合、分析,并向 相关领域提供大数据分析产品。 我国大数据应用还处于起步阶段,但已有国际知名项 网数据感知、云计算数据计算、三网融合以及移动互联网 的迅速发展,数据增长快、数据类型多、价值密度低,大量 的数据信息已不能以传统的计量单位(GB和TB)来衡量, 产生更为巨大的计量单位,如PB、EB、ZB、YB等,使用现 有的数据库管理工具难以进行数据快速获取、存储、检索 等操作。通过对大数据的抓取、管理和处理,挖掘出有价 值的数据或信息,可以极大地提升数据的有效率和利用 率。 目投入使用,如Facebook开发的社交图谱数据、NSA棱 镜计划、IBM Waston等项目。2013年,我国开始进行大 数据专项研究,2014年,国内主要互联网公司已将大数据 应用于相关业务中,取得了巨大的经济和社会效益。同 年,清华大学开设了大数据相关课程,正式开启了培养大 数据领域专业人才的序幕。 大数据作为一个新兴的技术门类,已经渗透到国民经 济各个领域。大数据为人类带来了无限的机遇和挑战,是 一1 国内外研究现状 信息与网络的飞速发展,信息量大量增长;计算机硬 件成本逐渐降低,使得昂贵的数据存储和处理变得经济。 谷歌的MapReduce、GFS和BigTable等核心技术引起了 雅虎、Facebook等互联网公司的注意,为目前应用最广泛 的开源大数据框架Apache Hadoop的诞生奠定了基础。 联合国发布的《大数据促进发展:挑战与机遇》大数据政务 白皮书指出,大数据对人类而言是一个历史性的挑战和机 遇。 场即将改变未来的信息革命。 2大数据特点 大数据无法使用传统数据库工具对其内容进行处理, 具有传统数据所不具备的特点,见表1。 大数据定义的5V特征(Volume,Velocity,Variety, Veracity,Value)涵盖了5个层面。 (1)数据量大(Volume)。此为大数据最明显的特点, 从传统的MB、TP跃升至PB或更高的EB,ZP级别。数 美国政府耗费巨资投人大数据技术研究,颁布了《大 数据研究和发展计划》,目标是通过大数据技术实现感知、 据量的大小决定数据价值和潜在信息,数据表示各种业务 活动,推动社会与企业共同进步。 。 。(2)处理速度快(Velocity)。在数据量飞速增长的同 认知和预测支持的结合,增强信息提取分析、情报获取和 对目标的洞察能力,培养该领域的技术人才。投入155个 项目涉及国家多个重要领域,如国防部、能源部以及国家 安全及未来发展战略等。主要项目包括:多尺度异常检测 时,对数据实时分析和处理要求更高。如果海量数据未能 实时处理,将失去其应有价值。 - -项目(ADAMS)、网络内部威胁计划(CINDER)、加密数据 (3>数据类型多(Variety)。大数据来源复杂,数据类 作者简介:卿勇(1960一),男,由川达州人,硕士,达州职业技术学院副攀授,研 A-向为网锋 划与数据库开发技术 ・ 176・ 软件导刊 2016拄 型多种多样,包括结构化、半结构化和非结构化的等多种 数据类型。传统的数据处理工具已不能对类型多且杂的 大数据进行处理。在如此繁多的数据中获得有价值的潜 在信息,正是大数据多样性的重要体现。 表1大数据与传统数据对比 库以及访问接口和查询语言 。 一 结构化数据 [ [圃[ [ 匿l数据转换I、、 .... . ....... 囵1、 .分布式数据l.... .. ...... 回l、 ....图计算........ l.. 圉1人机交互I、.... ...... . . . 嚣匣 (4)数据真实性(Ver口 acity)。大数据来源于真实世界 发生的各类活动,而高质量的数据是大数据发挥效能的前 提和基础。唯有如此,专业的数据分析工具才能从海量数 据中提取出隐含的、准确的、有用的信息。 (5)价值密度低,商业价值(Value)高。在大量的数据 中只有少数数据具有利用价值。合理运用大数据,提取出 能够解释和预测现实的数据,以低成本创造高价值。 3大数据技术 信息无处不在,海量数据的产生、共享以及交换应用 如何实现是大数据研究领域的核心问题。 大数据技术能够实时、高效、可视化地处理各种类型 数据,使用户按需求获取分析和预测结果。大数据关键技 术是数据的采集与预处理、数据存储与管理、计算模式与 系统和数据分析与挖掘,如图l所示。 (1)大数据采集与预处理。数据来源渠道繁多,导致 数据类型多样化,包括结构化、半结构化和非结构化数据。 非结构化数据价值低、异构且冗余,故首先要对数据进行 清洗,以消除相似、重复或不一致的数据,为后续过程提供 高质量的数据集合。现有的数据采集手段主要有以下4 种_1]:基于物化或ETL引擎方法、基于联邦数据库引擎或 中间件方法、基于数据流引擎方法和基于搜索引擎方法。 (2)数据存储与管理。PB或EB数量级的大数据不 仅需要上层应用高效的数据访问接口,而且对数据实时性 和有效性提出了更高标准。为快速高效可靠地处理大数 据,需建立计算编程模式以及相关的优化方法。大数据环 境下,目前最适用的技术是分布式文件系统、分布式数据 据 :半结构化数据 数据传输、虚拟集群等其他支撑技术 图1大数据技术 (3)计算模式与系统。大数据计算模式是指根据不同 的数据特征和计算特征,从多样性的大数据计算问题和需 求中提炼并建立各种高层次抽象或模型。大数据计算与 计算算法、数据规模、数据分布以及用户访问行为密切相 关,不仅从多维度建立大数据计算程序集合,还分析了计 算系统之间的相互影响,建立复杂条件下大数据运行的行 为模型。典型的大数据计算模式与系统如表2所示。 表2典型数据计算模式与系统 IBM结合自主计算和大数据技术,提出具备自主能 力的“认知计算”,是继制表计算、编程计算之后的第三代 计算模式。 (4)数据分析与挖掘。鉴于大数据价值密度低、商业 价值高的特点,为提高数据质量和可信度,要求从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中,通 过分析数据结构、类型及数据间的关联度,综合运用统计 和机器学习,从数据库管理系统的大数据中提取出隐含其 中的潜在信息和知识,这就是数据分析与挖掘。在庞大的 数据中,数据呈现形式至关重要。可视化借助图形化手 段,通过直观传达大数据关键特征,对数据进行可视化表 第15卷第12期 2016年12月 软件导刊 Software Guide V_01.15NO.12 Dec.20l6 基于“互联网+应用’’的应用型本科网络工程 专业课程体系建设研究 王 辉,刘云翔,荣 祺 、 (上海应用技术大学计算机科学与信息工程学院,上海201418) 摘 要:将“互联网+应用”与网络工程专业人才培养相结合,进行应用型本科网络工程专业课程体系建设研究。首 先以“互联网+应用”为网络工程专业课程体系建设指导思想,分析了互联网平台构建与网络工程专业课程之间的内 在联系,对网络工程专业课程模块进行了划分;然后基于“互联网+应用”进行了网络工程专业能力模块划分;最后对 网络工程专业的理论与实践教学相结合教学方法以及教学手段多样化进行了探讨。 关键词:互联网+应用;网络工程;课程体系建设 DOI:10.1l907/rjdk.162234 中图分类号:G434 文献标识码:A 文章编号:1672—7800(2016)O12—0177一O3 来越重要的作用。社会管理模式创新发展,经济金融工具 0 引言 作为信息共享平台,互联网在现代社会发展中起着越 达,呈现数据中隐含的信息,挖掘数据中所包含的规律。 数据可视化分为科学可视化、信息可视化和可视化分析。 创新升级,教育教学改革等各行业步人“互联网+”创新创 业的新时代 。“互联网+应用”的建设和发展需要大量 专业人才,特别是既具有扎实理论知识、又具有较强动手 sing data cleaning technology for bing servicesEJ].IEEE Data Engi— neering Bulletin,2012,35(2):14—23. [4] GONZALEZ J E,LOW Y,GU H,et a1.Power graph:distributed graph-parallel computation on natural graphsi,C].Proceeding of the 4 结语 大数据概念日益完善、特点日益突出、关键技术日益 10th USENIX Symposium on Operating Systems Design and Im— plementation,2012:17—30. [5] KuMAR R.Two computational paradigm for big data[EB/OL]. ,12014—08—25].http://kdd2012.sigkdd.org/sites/images/sum— merschool/Ravi—Kumar.pdf. 提高。大数据作为近年的新兴产业,像互联网、云计算及 物联网一样,改变了国民经济和生活,已成为新一轮信息 技术革命的发动机,成为社会经济的支柱,带来了全新的 变革和机遇。但大数据核心处理技术尚不成熟,大数据产 业发展应符合国情,科学规划,形成良好的发展环境,国家 要推动大数据领域技术走在世界前列。 参考文献: X,DONG X L,LYONS K,et a1.Truth finding on the deep web: [1] LI[6] KANG U,CHAU D H,FALOUTSOS C.PEGASUS:miningbil— lion—scale graphs in the cloud[C].IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),2012:5341— 5344. [7] VICT0R MAYER SCH0NBERGER,KENNETH CUKIER.大数 据时代I-M].杭州:浙江人民出版社,2013:193—232. [8] 李翠平,王敏峰.大数据的挑战和机遇[J].科研信息化技术与应用,2O13(1):l2—18. [9] 刘军.Hadoop大数据处理[M].北京;人民邮电出版社,2013:45— 6O. is the problem solved[C].Proceedings of the 39th International Conference on Very Large Data Bases(VLDB 2013),2013:97— 1O8. [10] 李纪舟,叶小新,丁云峰.美军大数据技术发展现状及对其信息作 战的影响[J].外军信息战,2013(6):34—38. [2] 中国计算机学会大数据专家委员会.中国大数据技术与产业发展白 皮书ER].2013. [33 ARASU A,CHAUDHURI S,CHEN Z,et a1.Experiences with U一 [11] 陈为,沈则潜,陶煜波,等.大数据丛书:数据可视化[M].北京:电 子工业出版社,2O13:29—37. (责任编辑:杜能钢) 基金项目:上海应用技术大学教学改革研究项目(2013) 作者简介:王辉(1972一),男,河南开封人,博士,上海应用技术大学计算机科学与信息工程学院讲师,研究方向为计算智能、云计算; 刘云翔(1964一),男,吉林长春人,博士,上海应用技术大学计算机科学与信息工程学院教授,研究方向为信息融合、大数 据;荣祺(1972一),男,安徽马鞍山人,硕士,上海应用技术大学计算机科学与信息工程学院讲师,研究方向为计算机网络。