大数据调查论文翻译

2020-03-02 13:35:26 来源:范文大全收藏下载本文

一个大数据的调查

陈敏、毛诗文、刘云浩

摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。

关键字 大数据 云计算 物联网 数据中心 Hadoop 智能电网 大数据分析

1、背景

1.1大数据时代的曙光

在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。

目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据 达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下:

一、持续增长的数据

信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。

云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上 存储和管理如此庞大的异构数据集的问题。

考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地通过在不同层面分析,建模,可视化和预测,进而“开采”数据集,从而揭示其内在的性能以及完善决策。

1.2、大数据的定义和特点

大数据是一个抽象的概念。除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。”目前,虽然大的数据的重要性已经成为共识,人们仍然对它的定义有不同意见。一般情况下,大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。因为不同的关注点,科技企业,研究学者,数据分析,技术从业人员对大数据有不同的定义。以下定义可以帮助我们有一个在更好地理解大数据在社会,经济里的技术内涵。

2010年,Apache Hadoop将大数据定义为“大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。”在这一定义的基础上,在2011年5月,麦肯锡公司,一个全球咨询机构宣布大数据作为下一个前沿创新,竞争和生产力。大数据系也可指可能用经典数据库软件无法获得、存储、管理的数据集,这个定义包括两个含义:一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准 在不同的应用数据彼此不同。在目前,大数据一般为几个TB到几PB [10]。从麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。

事实上,早在2001年,META的分析师(现Gartner公司)道格·莱尼通过3VS模型将大数据定义为挑战和机遇。即,增加的数据数量,速度和品种,在研究报告中[12],尽管这种最初不是用模型来定义大数据,未来十年里,Gartner等多家企业,其中包括IBM [13]和微软的[14]研究部门仍然采用的是“3VS”模型来描述大数据。在“3VS”的模式中,数据卷是指,与人民群众的产生和收集数据,数据规模越来越大;速度意味着大数据的时效性,具体而言,数据采集和分析等必须迅速和及时进行的从而为最大限度地利用大数据的商业价值;各种指示各种类型的数据,其中包括半结构化和非结构化数据,例如音频,视频,网页,和文字,以及传统的结构化数据。

然而,其他人有不同的意见,包括IDC,一个在大数据和研究领域最有影响力的领导人之一。2011年,IDC的报告定义大数据为“大数据技术描述了新一代的技术和架构,旨在在经济上提取捕捉,发现,和/或分析非常大量的各种数据的“[1]根据这个定义,大数据的特点可以概括为4 Vs时,即体积(大体积),

品种(各种形式),速度(快速生成),和价值(巨大的价值,但很低密度)。 如图2,这类4Vs定义被广泛认可它强调大数据,即意义和必要性,探索隐藏的巨大价值。这个定义说明在大数据中最关键的问题,是如何在一个巨大的规模,各类型和快速生成的数据集中发现价值。至于周帕瑞克,Facebook的副总监工程师说,“如果你不利用所收集的数据,你只能拥有的数据不是大数据,“。[11] 此外,NIST的定义大数据“大数据应 其中,平均数据的数据量,采集速度,或数据表示限制使用传统的能力关系的方法来进行有效的分析或数据这可能有重要的水平缩放技术“,其重点是技术得到有效处理大数据方面。它表明,有效的方法或技术需要开发并用于分析和处理大数据,已经有来自大量讨论。工业界和学术界对大数据[16,17]的定义。除了制定一个适当的定义,大数据如何研究还应该着眼于如何提取它的价值,使用数据,以及如何将“一堆数据”变成“大 数据。”

2、大数据的4Vs模型

1.3大数据的价值

麦肯锡公司观察到大数据创造价值观对美国医疗保健的深入研究后,欧盟公共部门管理,美国零售业、全球制造,和全球个人位置数据。通过对代表全球经济的五大核心产业的研究,麦肯锡的报告指出,大数据可以充分发挥经济职能,我证明了企业和公共部门的生产力和竞争力,为消费者创造了巨大的利益。在[ 10 ],麦肯锡总结大数据可以创造的价值:如果大数据C将创造性和有效利用来提高效率和质量,美国的医疗行业通过获得的数据可能会超过300美元亿美元的潜在价值,从而减少花费引言美国医疗8%以上;零售商充分利用大数据可以提高超过60%的利润;也可以利用大数据来提高政府的效率,歌剧在欧洲,这样的发达经济体可以节省超过100欧元亿美元(不包括减少欺诈、错误和税收差异影响)。

麦肯锡的报告被视为前瞻性和预测性,而下面的事实可以验证大数据值。2009流感大流行期间,谷歌获得及时的信息,通过分析化大数据,甚至提供比由疾病预防中心提供更多有价值的信息。几乎所有国家所需的医院通知机构,如疾病预防中心流感病例的新类型。然而,患者通常没有立即看医生的时候,感染。同时也花了一些时间从医院到疾病预防的信息中心和疾病预防中心分析总结等信息。因此,当公众意识到新流感的大流行,这种疾病可能已经一到两周的时间,一个滞后的性质。谷歌发现,在流感的传播,作品经常寻求在其搜索引擎将不同于那些普通的钛MES和参赛作品的使用频率相关的流感传播的时间和地点。谷歌发现45的搜索条目组密切相关的疫情流感和将它们在具体的数学模型来预测流感的传播,甚至预测流感传播的地方。相关研究成果已发表的他在自然[ 18 ]。 2008,微软收购了Farecast,美国科技公司Farecast的机票预测系统,预测趋势和上升/下降的机票价格范围。该系统已被纳入微软的必应搜索引擎。到2012时,该系统已节省近50美元每名乘客的门票,与预测精度高达75%。

目前,数据已成为重要的生产因素,可能是与物质资产和人力资本。多媒体、社交媒体、物联网是发展,企业将收集没有更多的信息,领先

指数增长的数据量。大数据将有一个巨大的和不断增加的潜力,为企业和消费者创造价值。

1.4大数据的发展

在上世纪70年代末,出现“数据库机器”的概念,是一种专门用于存储和分析数据的技术。随着数据量的增加,存储和处理能力单一主机系统的一个不充分。在上世纪80年代,人们提出了“无共享,“并行数据库系统,以满足日益增长的数据量需求[ 19 ]。分享没有系统的架构是基于集群的使用,每个机器都有自己的处理器,存储和磁盘。Teradata系统是第一个成功的商业并行数据库系统。苏最近的数据库变得非常流行。1986年6月2日,一个具有里程碑意义的事件发生时,Teradata交付第一并行数据库系统的存储容量1TB凯马特帮助大通用电气规模在北美国的零售公司,以扩大其数据仓库[ 20 ]。在20世纪90年代末,并行数据库的优势在数据库领域得到了广泛的认可。

然而,许多大数据的挑战出现了。随着互联网服务的发展,索引和查询内容的迅速增长。因此,搜索引擎公司不得不面对的挑战处理这些大数据。谷歌创造了GFS [ 21 ]和[ 22 ]编程模型MapReduce处理所带来的数据管理和分析在互联网规模的挑战。此外,内容由用户生成,传感器,和其他无处不在的数据源也要压倒性的数据流,这需要一个根本性的变化,在计算架构和大型数据库加工机理。在一月2007,吉姆灰色,数据库软件的先驱,这种转变称为“第四范式”[ 23 ]。他还认为,应对这种范式的唯一途径是开发新一代的计算工具来管理,可视化和分析质量我的数据。2011年六月,另一个具有里程碑意义的事件发生;EMC / IDC发表题为从混沌[ 1 ]提取价值的研究报告,其中介绍的概念和对F大数据潜力第一次。本研究报告引发了业界和学术界对大数据的极大兴趣。

在过去的几年中,几乎所有的大公司,包括EMC、Oracle、IBM、微软、谷歌、AMA ZON,和Facebook等已经开始了他们的大数据项目。以IBM为例,自2005,IBM已经投资16美元亿30收购大数据相关。在学术界,大数据也在聚光灯下。在2008,自然发表了一个大数据的特殊问题。20

11、科学性在大数据的“数据处理”的关键技术,推出了一个特殊的问题。20

12、欧洲信息学与数学研究协会(会)新闻出版大型特刊数据。在2012年初,一份题为“大数据”的大冲击在瑞士达沃斯论坛上发表,宣布大数据已经成为一种新的经济资产,就像货币一样或黄金。一个国际研究机构Gartner,发出炒作周期从2012到2013,其中大数据计算、社会分析、存储数据分析等48个新兴技术值得最关注。

许多国家的政府,如美国也非常重视大数据。月2012日,奥巴马政府宣布了2亿美元的投资,推出“大数据研究和去发展计划,“这是一次重大科技发展计划1993“信息高速公路”的倡议后。七月2012,“轰轰烈烈的日本通信技术”项目发出由日本内政部和交通部表示,大数据的发展应该是一个国家战略和应用技术应该是重点。在七月2012,联合国有限的国家发行的大数据的发展报告,总结了各国政府如何利用大数据更好地服务和保护他们的人。 1.5大数据的挑战

急剧增长的海量数据在大数据时代,对数据的采集、存储的巨大挑战,管理和分析。传统的数据管理和分析系统的基础上关系数据库管理系统(RDBMS)。然而,这样的关系数据库管理系统只适用于结构化数据,半结构化或非结构化的数据比其他。此外,越来越多地利用关系数据库管理系统越来越贵的硬件。这是明显地,传统的关系数据库管理系统无法处理大数据量大、异质性大。研究界提出了一些解决方案,从不同的视角。例如,云计算是用来满足对胸骨的要求对于大数据,例如,成本效率,弹性结构,平滑升级/降级。对于大规模无序数据集、分布式文件系统的永久存储和管理解决方案的[ 24 ] [ 25 ]和NoSQL数据库都是不错的选择。这样的程序明框架,在处理集群的任务,特别是对网页排名取得了很大的成功。各种大数据应用可以基于这些创新技术或平台开发。此外,它是不平凡的部署大数据分析系统。

一些文献[ 26,28 ]讨论大数据应用程序开发中的障碍。面临的主要挑战如下: –数据表示:许多数据集具有异质性的类型、结构、语义、组织、粒度一定的水平,和可访问性。数据表示的目的是使数据更有意义计算机分析与用户解释。然而,不适当的数据表示将减少原始数据的价值甚至可能阻碍有效的数据分析。高效数据表示应反映数据结构、类和类型,以及集成技术,以便在不同的数据集上进行高效的操作。

–冗余以及数据压缩:总的来说,有一个高水平的冗余数据。减少冗余和数据压缩是有效的降低企业的间接成本对这些数据的潜在价值不受影响的前提下IRE系统。例如,大多数数据所产生的传感器网络是高度冗余的,可过滤和压缩在奥德震级的。

–数据生命周期管理:与相对缓慢的进步存储系统相比,无处不在的传感和计算在数据速率和规模产生了前所未有的。我们面临有很多紧迫的挑战,其中之一是目前的存储系统不能支持这样的海量数据。一般而言,隐藏在大数据的值依赖于数据的新鲜度。因此,E、数据重要性原理来分析价值相关应决定哪些数据将存储的数据将被丢弃。

——分析机理:大数据分析系统在有限时间内处理大量的数据。然而,传统的关系数据库管理系统,严格的设计与缺乏可扩展性和可扩展性,不能满足性能要求。非关系数据库在非结构化数据处理中显示出其独特的优势。 开始成为主流的大数据分析。即便如此,仍有非关系型数据库的性能问题和一些特定的应用。我们会找到一个妥协的关系型数据库和非关系型数据库之间的解。例如,一些企业利用混合数据库体系结构,集成了数据库类型(例如,Facebook的优势和淘宝。在内存数据库和基于近似分析的样本数据的基础上,需要进行更多的研究。 数据机密性:目前大多数大数据服务供应商或业主不能有效地维护和分析这些庞大的数据集,因为他们的能力有限。他们必须依靠专业onals或工具来分析这些数据,从而增加了潜在的安全风险。例如,事务性数据集一般包括一组完整的操作数据来驱动关键业务流程专家。这些数据包含了最低的粒度和一些敏感信息,如信用卡号码。因此,大数据的分析,可以提供给三分之一方处理采取适当的预防措施来保护这些敏感数据,以确保其安全。 能源管理:主要框架计算系统的能源消耗,从经济和环境角度都受到了很大的关注。随着数据量和分析需求的增长而且,处理,存储,和大数据的传输会消耗更多的电能。因此,系统级的功耗控制和管理机制应该是电子建立大数据的可扩展性和可访问性,保证了。 –的可扩充性和可扩展性:大数据分析系统必须支持当前和未来的数据集。解析算法必须能够处理日益扩大和更为复杂的Datasets。

–合作:大数据分析是一个跨学科的研究,这需要不同领域的专家合作,收获大数据的潜力。一个全面的大数据网络结构结构必须建立有助于各种领域的科学家和工程师访问不同类型的数据,充分利用他们的专业知识,以配合完成分析的目的专家。

2、相关技术

为了深入理解大数据,这一秒,将介绍一些基本的技术,是密切相关的大数据,包括云计算,物联网,数据中心,和Hadoop。

2.1、云计算与大数据的关系

云计算与大数据有着密切的关系。云计算的关键组成部分如图3所示。大数据是计算密集型操作的对象和应力的存储电容“云系统。云计算的主要目的是在集中管理利用巨大的计算和存储资源,从而提供大数据应用的细粒度的计算t-ing能力。云计算的发展为大数据的存储和处理提供了解决方案。另一方面,大数据的出现也加速了云的发展计算。基于云计算的分布式存储技术能够有效的人年龄大的数据;通过云计算的并行计算能力的美德可以提高ACQ效率大数据的采集和分析。

尽管有很多重叠的技术在云计算和大数据,他们在如下两方面的不同。首先,概念在一定程度上是不同的。云计算入门ansforms IT体系结构而影响商业决策的大数据。然而,大数据依赖于云计算作为基础设施的顺利运作。 其次,大数据和云计算有不同的目标客户。云计算是一种技术和产品向首席信息官(CIO)作为一种先进的IT解决方案。大数据是一个产品针对首席执行官(CEO)重点业务。由于决策者可以直接感受到来自市场竞争的压力,他们必须打败商的反对在竞争更加激烈的方式。随着大数据和云计算的发展,这两种技术都是肯定和越来越纠缠对方。云计算,其职能类似于为t计算机和操作系统的软管,提供系统级资源;大数据在云计算支持的上层提供的功能类似于数据库和高效的数据处理能力。电磁兼容的总裁基辛格表示,美联社大数据的应用必须基于云计算。 大数据的演变是由快速增长的应用需求和云计算从虚拟化技术发展。因此,云计算不仅提供了计算对大数据的处理,也是一种服务模式。在一定程度上,云计算的进步也促进了大数据的发展,两者相辅相成。

图3 云计算的关键组成部分

2.2物联网与大数据的关系

在物联网的范例中,大量的网络传感器被嵌入到不同的设备和机器中,在现实世界中。这样的传感器部署在不同的领域可能会收集各种类型的ATA,如环境数据、地理数据、天文数据、物流数据。移动设备、交通设施、公用设施、家用电器都是数据采集在物联网方面的设备,如图4所示。

通过物联网大数据具有不同的特点,与一般的大数据相比,由于数据收集的不同类型,其中最典型的特征包括他均质、品种、非结构化特征,噪声和冗余度高。虽然目前物联网数据不占主导地位的大数据,由2030,数量传感器将达到一兆,然后物联网数据将是大数据的最重要的一部分,根据前投。来自英特尔的一份报告指出,大数据在物联网有三大壮举符合大数据模式的特性:

(一)丰富的终端产生大量的数据;

(二)物联网所产生的数据通常是半结构化或非结构化的;

(三)物联网的数据是有用的,只有当它被分析。 目前,物联网的数据处理能力已经收集到的数据背后,是加速大数据技术的发展推动了我介绍迫在眉睫加班。物联网的许多运营商实现大数据由于物联网的成功是依赖于大数据和云计算的有效整合的重要性。物联网的广泛部署将也带来许多城市进入大数据时代。

有一个令人信服的需要采取大数据的物联网应用,而大数据的发展已经落后于。它已被广泛认可,这两种技术是相互依赖的凹痕应共同开发:一方面,物联网的广泛部署驱动在数量和范畴数据的高增长,从而提供了机会,为应用大数据的发展;另一方面,大数据技术在物联网中的应用也加快了物联网的研究进展和业务模式。

图4物联网数据采集设备的说明

2.3数据中心

在大数据模式,数据中心不仅是一个数据集中存储平台,同时也承担更多的责任,如获取数据、管理数据、组织数据,一利用数据值和函数。数据中心主要关注“数据”而非“中心”。它有大量数据、组织和人的年龄数据根据其核心目的和发展新台币的路径,这比拥有一个好的网站和资源更有价值。大数据的出现带来了良好的发展机遇和巨大挑战的数据中心。大数据是一个新兴数据中心的爆炸式增长,促进了基础设施和相关软件的爆炸性增长。物理数据中心网络是支持大数据的核心,但目前,是最迫切需要的关键基础设施[ 29 ]。 大数据需要数据中心提供强大的后台支持。大数据技术具有非绅士的要求对存储容量和处理能力,以及网络传输容量。企业必须把数据中心的发展纳入考虑,以提高在有限的价格/性能比下快速、有效地处理大数据的能力。这个数据中心应为基础设施提供大量的节点,建立一个高速的内部网络,有效的散热,有效的备份数据。只有当一个高能源效率耳鼻喉、稳定、安全、可扩展,和冗余的数据中心建设,大数据应用的正常运行,可以保证。 大数据应用的增长加速了数据中心的革命和创新。许多大数据应用具有独特的体系结构和直接促进发展数据中心的存储、网络和计算技术的应用。随着结构化和非结构化数据量的持续增长,以及各种来源的分析数据,数据处理和计算能力的数据中心,将大大提高。此外,随着数据中心规模的不断扩大,如何对数据中心进行研究也成为一个重要的课题降低数据中心发展的运营成本。 –大数据赋予更多的功能到数据中心。在大数据模式,数据中心不仅要关注硬件设施也加强软能力,即能力大数据的获取、处理、组织、分析和应用。数据中心可以帮助业务人员分析现有的数据,发现企业经营的问题,和发展从大数据的运算解决方案。

2.4 Hadoop和大数据之间的关系

目前,Hadoop是广泛应用于大数据应用的行业,例如,垃圾邮件过滤、网络搜索、点击流分析、社会推荐。此外,相当学术研究了基于Hadoop的。一些代表性的病例是在下面。在2012六月宣布,雅虎运行Hadoop 42000服务器在四个数据中心,以支持其产品和服务,如例如,搜索和垃圾邮件过滤,等。目前,最大的Hadoop集群有4000个节点,而节点的数量将增加至10000与Hadoop 2版本。在同一个月,英足总cebook宣布他们的Hadoop集群可以处理100 PB的数据,增长了0.5,铅每天2012十一月。一些知名的机构使用Hadoop进行分布式计算的李以[ 30 ]。此外,许多公司提供的Hadoop商业执行和/或支持,包括Cloudera,IBM,MAPR,EMC,Oracle。

现代工业机械系统中,传感器被广泛应用于环境监测、故障预测等收集信息,bahga和别人在[ 31 ]提出了一个框架网络的数据组织和云计算基础设施,称为云景。云观采用混合结构,局部节点,基于Hadoop的远程集群分析机器生成的数据。本地节点用于实时失败的预测;基于Hadoop集群用于复杂的离线分析,例如,案例驱动的数据分析。

基因组数据的指数增长和测序成本的急剧下降,将生物科学和生物医药的数据转换为数据驱动的科学。gunarathne等人。在[ 32 ]利用云计算基础设施

三、亚马逊AWS、微软azune,和数据处理框架基于MapReduce,Hadoop和微软的DryadLINQ跑两平行生物医药应用:(我)基因组片段组装;(ii)在化学结构分析的降维。在随后的应用中,使用166-d数据包括26000000个数据点。作者比较了所有的性能效率,成本和可用性方面的框架。根据这项研究,作者得出结论,松散耦合将越来越多地应用于电子云的研究,和磷并行编程技术(MapReduce)的框架,可以为用户提供更方便的服务界面和减少不必要的成本。

3大数据的生成与获取

我们已经介绍了几种关键技术与大数据、云计算、物联网,即数据中心,和Hadoop。下一步,我们将重点放在价值链的大数据,这一般可以分为四个阶段:数据生成、数据采集、数据存储和数据分析。如果我们把数据作为原材料,数据生成和数据采集是一个开发在处理过程中,数据存储是一个存储过程,数据分析是利用原材料来创造新的价值的生产过程。

3.1数据生成

数据生成是大数据的第一步。以互联网数据为例,在搜索条目、互联网论坛帖子、聊天记录、微博留言等方面的数据量巨大产生。这些数据与人们的日常生活密切相关,具有高价值、低密度的特征。这样的数据可能是毫无价值的个人,但通过开发并积累了大量数据,有用的信息,如习惯和爱好的用户可以被识别,它甚至可以预测用户的行为和情绪。

此外,通过纵向和/或分布式数据源产生的数据集更大规模、高度多样化的,复杂的。这些数据源包括传感器、视频、点击流,和/或将其他可用的数据源。目前,大数据的主要来源是经营和交易信息在企业、物流和传感器在物联网信息,人机交互信息在互联网世界中离子和位置信息,并在科学研究中产生的数据,远超等通过它的架构和基础设施现有EN容量信息企业,而实时的要求也大大强调了现有的计算能力。 3.1.1企业数据

2013,IBM发布分析:大数据在现实世界的应用程序,这表明企业内部数据是大数据的主要来源。企业内部数据主要包括网上交易数据和在线数据分析,其中大部分是历史上的静态数据,通过结构化的方式关系型数据库管理。此外,生产数据,库存达Ta、销售数据、财务数据,等等,也构成了企业内部的数据,其目的是获取企业信息化和数据驱动的活动,以记录所有活动在企业内部数据的形式。

在过去的几十年里,它和数字数据做出贡献的很多改善的盈利业务部门。据估计,世界上所有公司的业务数据量Y每1.2年翻一番[ 10 ],其中,营业额通过互联网,企业对企业,企业对消费者每天将达到450美元亿[ 33 ]。连续提高业务数据量要求更有效的实时分析,以便充分收获它的潜力。例如,亚马逊处理数以百万计的终端操作和超过500000查询从第三方卖家每天[ 12 ]。沃尔玛过程之一万客户交易每小时交易数据导入到一个容量超过2.5PB数据库[ 3 ]。Akamai分析75元每天的事件,其目标广告[ 13 ]。 3.1.2物联网数据

作为讨论,物联网是大数据的重要来源。在智能城市构建了基于物联网、大数据可能来自工业、农业、交通、运输、医疗、公共部门和家庭等根据物联网的数据采集和传输过程,将其网络结构分为传感层、网络层和应用层三层。这个传感层负责数据采集,主要由传感器网络。网络层负责信息的传输和处理,在近距离传输可能R伊利在传感器网络和远程传输必须依赖网络。最后,应用层支持物联网的具体应用。

根据物联网的特点,物联网产生的数据有以下几个特点:

–大规模数据:在物联网、数据采集设备的群众是分布式部署的,可获得简单的数值数据,如位置;或复杂的多媒体数据,如监控视频EO。为了满足分析和处理的需求,不仅是目前所获得的数据,而且在一定时间内的历史数据存储。因此,产生的数据通过物联网的特点是大尺度。

-异质性:由于各种数据采集装置,所获得的数据也不同,这样的数据特征的异质性。在物联网中,每一个数据采集设备都放置在一个特定的地理位置,每一块数据都有时间戳。时间和空间相关性是一个即时通讯数据来自物联网的重要性质。在数据分析和处理过程中,时间和空间也是统计分析的重要维度。

–有效数据只占一小部分的大数据:发生在数据的采集和物联网传输大量的噪音。通过收购获得的数据集设备,只有少量的异常数据是有价值的。例如,交通视频的采集过程中,一些视频帧捕获违反交通运输管理法规和交通事故的价值比那些只捕捉到正常的流量。 3.1.3生物医疗数据

作为一系列高通量生物测量技术在开始的第二十一个世纪的创新发展,在生物医药领域的前沿研究也进入大时代数据。通过构建智能、高效、和生物医药应用准确的分析模型和理论体系,基本治理机制复杂的生物学现象背后的马被揭露。不仅生物医药未来的发展是可以确定的,也是主要的角色可以在一系列重要的战略产业发展方面相关的假设国民经济,人民生活,国家安全,具有重要的应用,如医疗保健,新药研发,粮食生产(例如,转基因作物)。 人类基因组计划的完成(人类基因组计划)和测序技术的不断发展也导致在大数据领域的广泛应用。由基因产生的数据的质量测序经过专门分析根据不同的应用需求,结合临床基因诊断和早期诊断提供有价值的信息和形象化治疗疾病。一个测序人类基因可能产生100个600GB数据。在深圳的中国国家种质库,有1.3百万人样本样本包括115万狮子150000种动物,植物和微生物样本。到2013年底,1000万个可追溯的生物样品将被存储,并由2015年底,这一数字将达到3000万。它是预先确定性,随着生物医药技术的发展,基因测序将变得更加快捷和方便,从而使生物医药大数据不断增长毫无疑问。

此外,临床医疗保健和医疗研发所产生的数据也迅速上升。例如,匹兹堡医学中心大学(UPMC)存储2TB的数据。Explorys,美国人我公司提供的平台配置的临床数据,操作和维护数据和财务数据。目前,大约有13百万人的信息已经被配置,44 arti-cLES数据在约60TB规模,这将在2013达到70TB。实践融合,另一个美国的公司,管理约200000名患者的电子病历。

除了这些中小企业,其他知名IT公司,如谷歌,微软,IBM已经投入广泛的方法和计算分析研究兴高采烈的高通量生物大数据,对股票市场的巨大而

作为“新一代互联网。”IBM预测,在2013战略发布会上,以医学影像和电子病历的急剧增加,医疗专业人员可以利用大数据提取合同有用的临床信息从大量的数据中获取病史和预测治疗效果,从而改善病人护理,降低成本。预计,2015,平均每一个医院的年龄数据量将增加到665tb 167tb。 3.1.4数据生成其他领域

随着科学应用的不断增加,数据集的规模也逐渐扩大,一些学科的发展,很大程度上依赖于对数据的分析。在这里,我们研究分析在这样的应用。虽然在不同的科学领域,应用程序有类似的和不断增加的数据分析的需求。第一个例子涉及到计算生物学。玄叶NK细胞是一种核苷酸序列数据库由美国国家生物技术创新中心保持。数据库中的数据可能每10个月翻一番。2009八月,GenBank已超过250千兆从150000个不同的生物[ 34 ]的基础上。二个例子与天文学有关。Sloan数字巡天(SDSS),最大的天文巡天项目,已经从1 25tb数据记录998至2008。作为望远镜的分辨率大大提高,2004,数据批量生成每晚将超过19。最后一个应用程序涉及到高能量物理。在开始200

8、大型强子对撞机(LHC)的ATLAS实验的欧洲核子研究组织产生的原始数据在2/s和10TB数据处理每年商店。

此外,无处不在的传感和计算之间的自然、商业、互联网、政府、社会环境都产生了前所未有的异构数据的复杂性。这些数据集有自己独特的数据特点,在规模、时间维度和数据类。例如,移动数据的位置,记录运动,近似度,通信、M多媒体、应用程序的使用,和音频环境[ 108 ]。根据应用环境和要求,这样的数据集分成不同的类别,从而选择合适的和可行的大数据的电子解决方案。

3.2大数据采集

作为大数据系统的第二阶段,大数据采集包括数据采集、数据传输和数据预处理。大数据的采集过程中,一旦我们收集的原始数据,我们的厅利用一种高效的传输机制,将其发送到一个适当的存储管理系统,以支持不同的分析应用程序。将收集到的数据可能包含很多冗余剂或无用的数据,不必要地增加存储空间,并影响后续的数据分析。例如,高度冗余的环境监测传感器收集的数据集是很常见的监测。数据压缩技术可以应用于减少冗余度。因此,数据预处理操作是必不可少的,以确保有效的数据存储和开发。

3.2.1数据采集

数据采集是利用特殊的数据采集技术来从一个特定的数据生成的环境中获取原始数据。四种常用的数据采集方法如下。 –日志文件:作为一种广泛使用的数据收集方法,日志文件是由数据源系统自动生成记录文件,以便记录活动,随后交付文件格式耳鼻喉分析。日志文件通常用于几乎所有的数字设备。例如,Web服务器的日志文件记录的点击数、点击率,网站用户的访问,和[其它财产记录35 ]。在网站采集活动的用户,Web服务器主要包括以下三个日志文件格式:公用日志文件格式(NCSA),扩展日志格式(W3C),和IIS日志格式(MIC工作)。在ASCII文本格式的所有三种类型的日志文件。除了文本文件以外,其他的数据库有时也可用于存储日志信息以提高大规模的查询效率商店[ 36,37 ]。也有基于数据收集的一些其他日志文件,包括在网络监控和交通运行状态的金融应用和测定指标股Ffic管理。

感测:传感器在日常生活中是很常见的,用于测量物理量,将物理量转换为可读的数字信号,以供后续处理(和存储)。感觉数据可能被分类为声波,声音,振动,汽车,化学,电流,天气,压力,温度等信息被传送到一个数据采集点通过有线或无线网络。对于应用程序,可以很容易地部署和管理,例如,视频监控系统[ 38 ],有线传感器网络是一个方便的解决方案,以获取相关信息。有时一个特定的现象的精确位置是未知的,有时监测环境没有精力或通信基础设施。然后无线通信必须使用在有限的能量和通信能力的情况下,使传感器节点之间的数据传输。近年来,无线传感器网络已收到相当大的国际间,并已应用于许多应用,这样的;如此的;这么大的;非常的;这样的事物[人];

作为环境研究[ 39,40 ],水质监测[ 41 ],土木工程[ 42,43 ],[ 44 ]习惯和野生动物监测。无线传感器网络通常由大量的地理分布分布式传感器节点,每一个都是一个由电池供电的微型装置。这种传感器被部署在指定的位置所需的应用程序收集遥感数据。一旦传感器被eployed,基站会对网络配置/管理或数据采集传感器节点发送控制信息。基于这样的控制信息,感官数据被组装在地不同的传感器节点和送回基站进行进一步的处理。有兴趣的读者参考[ 45 ]更详细的讨论。 获取网络数据–方法:目前,网络数据采集是使用web爬虫组合完成,分词系统,任务系统,和指标体系等Web爬行是一个用于搜索引擎下载和存储网页的程序[ 46 ]。一般而言,网络爬虫从初始网页的统一资源定位器(网址)开始访问其他链接的网页,在它的存储和序列的所有检索的网址。网络爬虫通过一个网址队列获取一个网址,然后通过一个网址下载网页,并确定一个网址我将在已下载的网页上的网址,并提取新的网址被放在队列中。这个过程是重复的,直到网络爬虫被停止。通过网络爬虫获取数据的广泛应用基于网页的应用,如搜索引擎或网页缓存。传统的网页提取技术具有多个有效的解决方案,并已完成了大量的研究,在他的田地。随着越来越多的先进的网页应用程序正在出现,一些提取策略,提出了在[ 47 ],以应付丰富的互联网应用。

当前的网络数据采集技术主要包括传统的基于Libpcap捕包技术,零拷贝数据包捕获技术,以及一些专门的网络监控G软件如wireshark SmartSniff,和winnetcap。 –Libpcap捕包技术:基于Libpcap(数据包捕获库)是一种广泛使用的网络数据包捕获函数库。这是一个一般的工具,不依赖于任何特定的系统透射电子显微镜主要用于数据链路层中的数据捕获。它具有简单、易用、携带方便,但有一个相对低效率。因此,高速网络环境下彪,大量丢包时可能出现的libpcap的使用。

–零拷贝数据包捕获技术:所谓的零拷贝(ZC)意味着没有副本之间的任何内部的记忆发生在数据包接收和发送在一个节点。在发送数据包直接从用户缓冲区开始,通过网络接口,到达一个外部网络。在接收时,网络接口直接向美国发送数据包SER缓冲。零拷贝的基本思想是减少数据拷贝次数,减少系统调用,并减少CPU的负载,而ddatagrams从网络设备传递到用户程序空间。零拷贝技术首先利用直接存储器存取(DMA)技术的网络数据包直接发送到一个地址空间预分配的系统内核,以避免CPU的参与。同时,它映射的数据报内部存储器在系统内核的检测程序,或建立一个缓冲区在用户空间和内核空间映射到。然后检测程序直接访问内部存储器,从而减少系统内核对用户空间的内存拷贝,减少系统调用的数量。 ——移动设备:目前,移动设备的使用越来越广泛。由于移动设备的功能日益强大,他们的功能更复杂,多手段的数据采集,以及由于数据种类多。移动设备可以通过定位系统获取地理位置信息;通过麦克风采集音频信息;获取图片、视频、streetscap是的,二维条形码,和其他多媒体信息通过摄像头;获取用户手势和其他肢体语言信息通过触摸屏和重力传感器。多年来,我们无线运营商通过获取和分析这些信息提高了移动网络的服务水平。例如,iPhone本身就是一个“手机间谍”。它可能会收集无线数据和地理地形位置信息,然后把这些信息带回苹果加工,其中用户是不知道。除了苹果,智能手机操作系统如Android GOOGLE和Windows手机的微软也以类似的方式,信息的收集。 除了上述三种数据采集方法的主要数据来源外,还有许多其他的数据采集方法或系统。例如,在科学实验中,许多特殊的工具可用于收集实验数据,如磁仪和射电望远镜。我们可以从不同的角度对数据采集方法进行分类。从数据源的角度是的,收集数据的方法可以分为两类:收集方法记录通过数据源收集方法记录通过其他辅助工具。 3.2.2数据传输

原始数据收集完成后,将数据传送到一个数据存储基础设施进行处理和分析。正如2.3节所讨论的,大数据主要存储在一个数据的分中急诊室数据布局应进行调整,提高了计算效率和便于硬件维护。也就是说,内部数据传输可能发生在数据中心。因此,数据传输传输分为两个阶段:DCN DCN传输传输间内。 –DCN DCN间传输:间传输是从数据源到数据中心,它一般是与现有的物理网络基础设施实现。由于快速增长的交通需求,在世界上大多数地区的物理网络基础设施的高容量、高速率和低成本的构成,光纤传输系统。过去20爷ARS,先进的管理设备和技术,如基于IP的波分复用(WDM)网络架构,进行智能控制与管理的选择化学纤维网络[ 48,49 ]。WDM技术是将多个光载波信号耦合到不同的波长和光链路的光纤。在这样的技术,不同波长的激光进行不同的信号。目前,骨干网已经部署的WDM光传输系统单信道速率40Gb/s的公关目前,100Gb/s商业接口可与100Gb/s系统(或TB/S系统)将在不久的将来,[ 50 ]可。然而,传统的光传输技术是有限的Y的电子瓶颈[ 51 ]带宽。最近,正交频分复用(OFDM),最初设计的无线系统,被视为一个主要候选技术未来的高速光传输技术。OFDM是一种多载波并行传输技术。它将一个高速数据流分割成一个高速数据流,将其转化为低速子数据流,以不被传播到多个正交的子载波[ 52 ]。随着WDM固定信道间隔相比,OFDM允许子信道的频谱互相重叠,[ 53 ]。因此,它是一个灵活的稳定高效的光网络技术。

–内DCN传输:传输帧内DCN在数据中心的数据通信流量。内DCN传输取决于沟通在数据中心机构(即物理上的连接板、芯片、数据服务器、数据中心、网络体系结构和通信协议的内部记忆)。数据中心多接口包括磨碎的服务器机柜内部连接网络的互连。目前,大多数数据中心的内部连接网络的胖树,双层或三层基于多商品网络流的结构研究[ 51,54 ]。在两层拓扑结构,可由1Gbps的顶级机架交换机连接(TOR),那么这样的顶级机架交换机连接从10Gbps汇聚交换机的拓扑结构。三层拓扑结构是一种结构增加一层对两层拓扑结构上这些层通过10Gbps或100Gbps的核心交换机构成的连接拓扑结构汇聚交换机。还有其他拓扑结构,其目的是提高数据的并行[ 58 ] 55–中心网络。由于电子数据包交换的不足,很难提高通信带宽,同时保持能耗低。多年来,由于巨大的成功,通过光学技术实现,在数据中心之间的网络互连引起了很大的关注。光学互连是一种高通量、低延时,和低能耗解决方案。目前,光学技术仅用于数据中心的点对点连接。这样的光链路提供使用低成本的多开关连接TI的单模光纤(MMF)10Gbps的数据速率。光互连(在光域内切换)在数据中心网络是一个可行的解决方案,它可以提供Tbps级别的传输带能耗低的宽度。最近,许多光互连计划提出的数据中心网络[ 59 ]。有的计划增加光路,以提升现有的净工作,和其他的和完全取代目前的开关59–[ 64 ]。作为一种强化技术,周等。在[ 65 ]采用60GHz频率频段的无线链路增强有线链路。网络虚拟tualiza还应考虑提高数据中心网络的效率和利用率。 3.2.3数据预处理

由于数据来源广泛,收集到的数据对于噪音、冗余不同,和一致性,等等,这无疑是商店的平均ingle数据浪费。另外一些分析方法对数据质量有严重的要求。因此,为了使有效的数据分析,我们将预处理数据在许多情况下,将数据从不同的源数据中整合,不仅可以降低存储费用,而且可以提高分析精度。一些关系数据预处理技术讨论如下。

–集成:数据集成是现代商业信息学的基石,涉及来自不同来源的数据相结合,为用户提供了数据的统一视图,[ 66 ]。这是传统数据库的一个成熟的研究领域。在历史上,2种方法得到了广泛的认可:数据仓库和数据联合会。数据仓库包含一个过程称为ETL(E提取、转换和加载)。提取涉及的源系统,选择,收集,分析和处理所需的数据。转型是一系列规则,TR的执行换成标准格式数据的提取。加载装置将提取和转换的数据导入到目标存储结构中。加载是三个最复杂的过程,其中包括转换、复制、清除、标准化、筛选、数据组织等操作。可以构建一个虚拟的数据库,以查询和聚合来自不同数据的数据资源,但这样的数据库不包含数据。相反,它包括信息或实际的数据和相关的元数据的位置。这两“存储阅读”方法不满足日数据流或搜索程序和应用程序的高性能要求。与查询相比,在这类方法中的数据更具动态性,在数据传输过程中必须处理。GEn-erally,数据集成方法都伴随着流处理引擎和搜索引擎[ 30,67 ]。

–清洗:数据清洗是一个过程,以确定文协副牧师,不完整,或不合理的数据,然后修改或删除这些数据来提高数据质量。一般情况下,数据清洗包括五个共同mplementary程序[ 68 ]:定义和确定错误类型,搜索和识别错误,修正错误,医生umenting错误实例和错误类型和模式、数据录入程序减少未来的错误。在清洗过程中,数据的格式、完整性、合理性和限制,应检查。数据清洗是保持数据一致性的关键,这是一广泛应用于许多领域,如银行、保险、零售业、电信和交通控制。

在电子商务中,大多数数据是电子收集,这可能会造成严重的数据质量问题。经典的数据质量问题主要来自软件缺陷、定制错误或系统错误—配置。作者在[ 69 ]讨论了数据清理在电子商务中的爬虫和定期重新复制客户和帐户信息在[ 70 ],对射频识别数据的问题进行了检查。RFID技术被广泛用于许多应用,例如,库存管理和目标跟踪。然而,原有的RFID功能的低质量,WH我的资料包括了许多不正常的数据,受环境噪声影响的物理设计和环境噪声的影响。在[ 71 ],概率模型,以应付在移动环境中的数据丢失。khouainova等人。在[ 72 ]提出了一个系统来自动纠正错误的输入数据,通过定义全局完整性约束。

赫伯特[ 73 ]提出了一个框架,称为bio-ajax规范生物数据,以便进行进一步的计算和提高搜索质量。与bio-ajax,一些错误和重复可以ELIM-inated,和常见的数据挖掘技术可以更有效地执行。 -冗余消除:数据冗余是指数据重复或盈余,这通常发生在许多数据集。数据冗余可以增加不必要的数据传输费用和原因E缺陷的存储系统,例如,存储空间的浪费,导致数据不一致、数据可靠性降低,数据损坏。因此,各种冗余的还原方法已被磷提出,如冗余检测,数据过滤,数据压缩。这样的方法可以适用于不同的数据集或应用环境。然而,冗余减少也可能带来抗体出了一定的负面影响。例如,数据压缩和解压缩造成额外的计算负担。因此,减少冗余的和成本效益应仔细B均衡。来自不同领域的数据将越来越多地出现在图像或视频格式。众所周知,图像和视频中含有一定的冗余,包括时间冗余Y,空间冗余、统计冗余,冗余和感知。视频压缩是广泛用于降低视频数据中的冗余,在许多视频编码标准的规定(MPEG-2 MPeg-4,H.263,H.264/AVC)。在[ 74 ],作者考察了与视频传感器网络的视频监控系统中视频压缩问题。作者提出了一种新的基于MPEG-4的方法通过调查背景和前景在一个场景中的背景冗余。被伊娃证明的低复杂度和该方法的低压缩比评价结果。 广义数据传输或存储,重复数据删除是一种特殊的数据压缩技术,其目的是消除重复数据拷贝[ 75 ]。重复数据删除,个人数据块或数据段会被分配相同标识符(例如,使用一个哈希算法)将标识符添加到标识列表中。如重复数据删除继续分析,如果一个新的数据块的标识符是在IDE上市相同识别表,新的数据块将被视为多余的,将由相应的存储数据块替换。重复的数据删除可以大大降低存储要求,这是一个AR的重要的一个大的数据存储系统。除了上述的数据预处理方法,具体的数据对象必须经过一些其他手术如特征提取。这样的操作中起着重要的作用,多媒体搜索和DNA分析[ 76,78 ]–。通常的高维特征向量(或高维特征点)是用来描述数据对象和系统存储未来检索维特征向量。数据传输通常用于处理分布式的异构数据源,特别是业务数据[ 79 ]。作为事实上,在考虑各种数据集,这是不平凡的,或者是不可能的,建立一个统一的数据前处理步骤和技术,是酌收所有类型的数据集的在具体的特征、问题、性能要求等方面对数据集进行分析,从而选择一个合适的数据预处理策略。

4大数据存储

数据的爆炸性增长对存储和管理有更严格的要求。在这一节中,我们把重点放在存储大数据。大数据存储是指大的存储与管理GE规模数据而实现的可靠性和数据可用性。我们将回顾重要的问题,包括大规模的存储系统,分布式存储系统,和大数据存储机制。一方面,存储基础设施需要提供可靠的存储空间的信息存储服务;另一方面,它必须提供一个强大的访问接口进行查询并分析了大量的数据。 传统上,作为服务器的辅助设备,数据存储设备是用来存储、管理、查找、分析数据和结构化的关系数据库管理系统。随着数据的急剧增长,数据存储设备是变得越来越重要,许多互联网公司追求的存储容量大是有竞争力的。因此,对数据存储的研究有着迫切的需要。

4.1海量数据存储系统

各种存储系统的出现,以满足海量数据的需求。现有的海量存储技术可分为直接连接存储(DAS)、网络存储,网络存储可以进一步分为网络附加存储(NAS)和存储区域网络(SAN)。在DAS、各种硬盘直接连接服务器和数据管理是以服务器为中心的,如存储设备的外围设备,都需要一定的I / O R资源,是由一个单独的应用软件管理。因为这个原因,这只适用于小规模的互连服务器。然而,由于其较低的可扩展性,这将显示出你ndesirable效率时,存储容量的增加,即,升级和扩展性受到很大限制。因此,这主要是用于个人电脑和小型服务器。 网络存储是利用网络为用户提供数据访问和共享的联合接口。网络存储设备包括专用数据交换设备、磁盘阵列、带库、和其他存储介质,以及特殊的存储软件。它的特点是具有很强的可扩展性。 NAS实际上是一个网络辅助存储设备。它是直接连接到网络通过集线器或交换机通过TCP / IP协议。在NAS,数据传送文件的形式。与DAS、I/O负担在NAS服务器从服务器访问存储设备,通过网络广泛的减少。

而NAS是面向网络的,三是专为数据存储具有可扩展性和带宽密集型网络,例如,一个与光纤连接的高速网络。在美国,数据存储年龄管理是相对独立的存储区域网内,在基于多路径的任何内部节点间数据交换来实现数据共享,最大程度数据管理。

从一个数据存储系统,组织DAS,NAS和SAN,都可以分为三个部分:

(一)磁盘阵列:它是一个存储系统的基础和数据的基本保证存储;

(二)连接和网络子系统,它提供一个或多个磁盘阵列和服务器之间的连接;

(三)存储管理软件,它处理数据共享,灾难恢复,多服务器的其他存储管理任务。

4.2分布式存储系统

第一个挑战所带来的大数据是如何开发一个大型的分布式存储系统的高效数据处理与分析。使用分布式系统存储海量数据时,应考虑以下因素: –一致性:分布式存储系统需要多台服务器协同存储数据。由于有更多的服务器,服务器故障的概率将更大。通常数据是分在服务器故障的情况下,将存储在不同的服务器上的多个片段以确保可用性。然而,服务器故障和并行存储可能会导致不同的副本不一致相同数据。一致性是指保证相同数据的多个副本相同。

——可用性:在多套服务器上运行的分布式存储系统。随着服务器的使用,服务器故障是不可避免的。如果整个系统都不认真,那将是可取的影响在阅读和写作方面满足客户的要求。此属性称为可用性。

分区容忍:分布式存储系统中的多个服务器通过网络连接。网络可能链路/节点故障或临时拥堵。分布式系统应该有有一定的耐受水平通过网络失败造成的问题。这将是可取的,分布式存储仍然工作时,网络被划分。

Eric Brewer提出第[ 80,81 ]理论在2000,这表明一个分布式系统不能同时示满足一致性,可用性和分区的要求,在宽容;大多数的三个要求可以同时满足。塞思Gilbert和南希林奇来自麻省理工学院的证明理论的正确性2002帽。由于一致性,可用性和分区宽容是不可能实现的同时,我们可以通过忽略分区耐受性有一个CA系统,忽视可用性CP系统,和AP系统,忽略了一致性,根据不同的设计目标。在以下三个系统中进行了讨论。

没有分区的公差,即,他们不能处理网络故障。因此,CA系统一般被认为是一个单一的服务器存储系统,如传统的商城规模关系数据库。这样的系统功能单一的数据副本,这样的一致性是很容易保证。可用性是保证关系数据库的优秀设计。不过由于不能处理网络故障,不能扩展到多个服务器。因此,大多数大型存储系统都是系统和应用系统。

与CA系统相比,CP系统确保部分公差。因此,可以扩展到分布式系统的系统。CP系统一般维持相同的数据的多个副本为了保证容错水平。CP系统也保证了数据的一致性,即同一数据的多个副本的保证是完全相同的。然而,不能保证声音的可用性高成本的原因,一致性保证。因此,CP系统的场景,但在中度负荷数据精度的严格要求是有用的(例如,交易数据)。Bigtable和HBase是两种流行的CP系统。

美联社系统也确保分区容忍。然而,美联社系统不同于在美联社系统中的系统,也保证了可用性。然而,美联社系统只确保最终的一致性,而不是汉强一致性前2个系统。因此,美联社系统只适用于频繁请求的情况下,但不是非常高的要求的准确性。例如,在网上的社会互联网络的组网服务(SNS)的系统中,有许多并行访问的数据,但一定量的数据的误差是可以接受的。此外,因为美联社系统确保最终的一致性,准确数据可以在一定量的延迟后得到。因此,不严格的实时要求的情况下,美联社系统也可以使用。发电机和卡桑德拉的两种群美联社系统。

4.3大数据存储机制

大数据的大量研究促进了大数据存储机制的发展。现有的大数据存储机制可以分为三个层次:(我)上的文件系统,

(二)数据库,和

(三)编程模型。 文件系统是上层应用程序的基础。谷歌的GFS是一个可扩展的分布式文件系统支持大规模、分布式的数据密集型应用程序[ 25 ]。GFS我们廉价的商品服务器,以实现容错能力,并为客户提供高性能服务。GFS支持大型文件应用比读写更频繁。然而R,GFS也有一定的局限性,如单点失效和小文件性能差。这样的局限性已经被巨人[ 82 ]克服,GFS的继任者。

此外,其他公司和研究人员也有他们的解决方案,以满足不同的需求,对存储的大数据。例如,HDFS和kosmosfs是衍生物对GF的开放源代码美国微软开发的宇宙[ 83 ]来支持它的搜索和广告业务。Facebook利用草堆[ 84 ]存储大量小型照片。淘宝还开发了TFS和Fas个TDFs。总之,分布式文件系统已经相对成熟后,业务经营发展年。因此,我们将集中在这段休息的其他两个层次古斯堪的那维亚语(OldNorse); 4.3.1数据库技术

数据库技术已经发展了30多年了。开发用于处理数据在不同尺度和支持各种应用各种数据库系统。传统的关系l数据库不能满足大数据带来的类别和尺度的挑战。NoSQL数据库(即,非传统的关系型数据库)是大数据存储变得越来越受欢迎。NoSQL数据库特征方式灵活,简单和容易复制、简单的API,最终一致性的支持,并支持大数据量。NoSQL数据库成为B的核心技术免疫球蛋白。我们将探讨以下这段三个主要NoSQL数据库:键值数据库,面向列的数据库和面向文档的数据库,每个基于一定的数据模型。 –键值数据库:键值数据库控制措施的一个简单的数据模型和数据存储对应的键值。每一个关键是独特的,客户可以输入查询的值到钥匙。这样的数据库功能的简单结构和现代核心价值的数据库具有高扩展性和查询响应时间小于关系数据库。在过去的几年中,许多关键的价值数据库已经出现的动机由亚马逊的发电机系统[ 85 ]。我们将介绍发电机和其他几个有代表性的主要价值数据库。

–发电机:发电机是一个高度可用和可扩展的分布式key-value数据存储系统。它是用来存储和管理的一些核心服务的状态,可与所实现的关键年代,在亚马逊电子商务平台。关系型数据库的公共模式可能会产生无效的数据和限制数据的规模和可用性,而发电机可以用一个简单的密钥来解决这些问题对象的接口,这是通过简单的构成按读写操作。通过数据分区、数据复制、对象编辑机制,实现弹性和效用。Dy纳摩比肩天信计划依赖于一致性哈希[86] ,其中有一个节点传递荷兰国际集团不仅直接影响到相邻的节点,不影响其他节点,划分负载含多处主要优势电子主要存储设备。将数据复制到服务器的一组数据中,在该服务器中,该数据是一个可配置的参数以实现高可用性和耐久性。发电机系统还提供了最终的一致性,以便在所有副本上进行异步更新。

–伏地魔,伏地魔也是一个关键值存储系统,这是最初开发的,仍用LinkedIn。在伏地魔的关键字和值复合对象由表胚胎和影像。伏地魔的接口包括三个简单的操作:阅读,写作,和删除,所有这一切都是由关键词确认。伏地魔提供异步更新并行有限控制多个版本,但不保证数据的一致性。然而,伏地魔支持乐观锁一致多记录更新。当更新和一个其他歌剧全文,更新操作将退出。对伏地魔的数据复制机制,发电机相同。伏地魔不仅存储在RAM中的数据,允许数据被插入一个存储通用电气发动机。特别是,伏地魔支持两个存储引擎包括伯克利DB和随机存取文件。

关键价值数据库出现了几年前。亚马逊Dynamo DB的深刻影响,其他关键值存储系统包括Redis,东京canbinet和东京的暴君,Memcached和Memcache DB,Riak的一二大蚊,所有这些都提供扩展的关键词为节点分配。伏地魔,Riak,东京柜,和memecached可以利用附加存储设备在内存或磁盘存储数据。其他存储系统存储在内存中的数据,并提供磁盘备份,或依靠复制和恢复,以避免备份。 ——面向列的数据库:面向列的数据库存储和处理数据,根据行。两列和行分割在多个节点实现可扩展性。T他面向列的数据库主要是由谷歌的BigTable。在这一部分中,我们首先讨论了Bigtable然后介绍几种衍生工具。

–Bigtable:Bigtable是一个分布式的、结构化的数据存储系统,它的设计过程的大型(PB级)成千上万的商业服务器[ 87 ]中的数据。基本数据结构F Bigtable是一个多维度的排序映射稀疏,分布,和持久性存储。指数映射行键,列键,时间戳,和映射的每个值是一个unana-l分析的字节数组。在Bigtable中每一行的关键是一个64KB的字符串。通过lexicograph政治秩序,行存储不断分割成片(即单位分布)负载平衡。因此,读取短行的数据可以非常有效,因为它不仅涉及通信与机器的一小部分。列是根据键前缀分组,从而形成列族。这些列的家庭•谎言是访问控制的基本单位。时间戳是64位的整数来区分不同版本的单元格的值。客户可以灵活地确定存储的单元格版本的数量。THESE版本在时间戳降序排序,所以最新的版本都会读。

Bigtable API的创作特征和片剂和列族的缺失以及集群中,表的元数据的修改,和列族。客户端应用程序可以插入或删除Bigtable的E值,从列的查询值,或浏览子数据表中。Bigtable还支持一些其他的特点,如在一行中的事务处理。用户可以利用泽这样的特性来进行更复杂的数据处理。

每一个程序执行的Bigtable包括三个主要组成部分:主服务器,平板电脑,服务器,客户端库。就只允许一组主服务器被分配负责佛R不同片片检测服务器,添加或删除服务器进行负载均衡的平板电脑。此外,它还可以MOD IFY Bigtable架构,例如,创建表和列的发科、垃圾收集以及删除或禁用文件保存在GFS和Bigtable使用它们的具体实例。每一片一片设置服务器管理和负责的原因一个装着的平板电脑。当平板电脑太大,他们将被分割的服务器。应用客户端库是用来沟通Bigtable的实例。

Bigtable是基于谷歌的许多基本组件,包括GFS [ 25 ],集群管理系统,用于垫SSTable文件,和胖乎乎的[ 88 ]。GFS是用来存储数据和日志文件。群马管理系统负责任务调度、资源共享、机器故障处理,和机器状态监测。SSTable文件格式用于内部存储Bigtable数据,它提供了映射之间的持久性,测序,和不变的键和值的任何字节字符串。Bigtable利用小胖在服务器以下任务:1)确保至多有一个活跃的主副本在任何时间;2)存储Bigtable数据引导位置;3)查片服务器;4)在台服务器的情况下进行错误恢复失败的原因;5)存储Bigtable架构信息信息;6)存储访问控制表。

–卡桑德拉:Caandra是一个分布式的存储系统来管理构造了数据分布的多个商业服务器[ 89 ]之间的巨大。该系统是由Facebook成为发达一个开源工具,在2008。它所采用的思路和亚马逊Dynamo和谷歌的BigTable的概念,发电机分布式系统技术与数据集成模型Bigtable特别厄尔尼诺。表在Caandra是在分布式四维结构图的形式,其中的四个维度包括行、列、列族,和超柱。一排被区分一个任意长度的字符串键。无论是读写的列的量,行的操作是自动的。列可能构成一个簇,这是所谓的列家庭,和类似于Bigtable的数据模型。Caandra提供两种列家庭:家庭和超柱柱。超级栏包括与相同名称相关的任意数量的列。一列家族包括列和超级栏,可在运行时连续地插入到列族中。分区和复制机制卡桑德拉非常相似,对发电机,以实现一致性。

–衍生工具就从Bigtable代码不能通过开放源码许可证获得的,一些开源项目竞争实现Bigtable概念开发类似的系统女士,如HBase和Hypertable。 HBase是BigTable的克隆版的程序,用java是Apache的Hadoop MapReduce框架[ 90 ]的一部分。HBase GFS和HDFS替换。它将最新的内容写入内存,并定期更新在磁盘上的文件。行操作是原子操作,配有行级锁和事务处理,这是大尺度的可选择。分区和分布的透明操作,有客户端散列或固定密钥空间。

Hypertable是开发类似于Bigtable获得一套高性能、可扩展性、分布式存储和处理结构化和非结构化的数据[ 91 ]系统。Hypertable是On分布式文件系统HDFS和分布式锁管理器,例如。数据表示、处理、分配机制类似于Bigtable。Hypertable有自己的查询语言,CAlled Hypertable的查询语言(HQL),并允许用户创建、修改和查询基础表。

由于列存储数据库主要模仿BigTable,他们的设计都是相似的,除了并发机制等几个特点。例如,卡桑德拉强调弱一致性的多版本并发控制而HBase和Hypertable重点强一致性通过锁和日志记录。

–文档数据库:关键值存储相比,文件存储可以支持更复杂的数据形式。由于文件不遵循严格的模式,没有必要进行模式迁移。在此外,键-值对仍然可以保存。我们将检查文件储存系统,即,MongoDB,SimpleDB的三重要的代表,与CouchDB。 –MongoDB:MongoDB是开源的、面向文档的数据库[ 92 ]。MongoDB文档存储为二进制JSON对象(BSON)[ 93 ],这是类似的对象。每个文件都有一个标识字段作为公共关系关键的关键。在MongoDB查询与综合税类似于JSON表示。一个数据库驱动程序发送查询为BSON对象MongoDB。该系统可以查询所有文件,包括嵌入式对象阵列和阵列。为了使快速查询,索引可以在查询字段创建文件。在MongoDB的复制操作可以执行,支持所有H的主要节点的日志文件高水平的数据库进行操作。在复制过程中,奴隶贩子查询所有写操作自上次同步的掌握和执行操作日志文件的地方数据库。MongoDB支持横向扩展自动共享分发了数千个节点之间数据的自动负载平衡和故障转移。

–SimpleDB:SimpleDB是一个分布式数据库和亚马逊Web服务[ 94 ]。数据被组织成各种SimpleDB的领域中,数据可以存储、获取和查询。域包括不同的正确联系和名称/值对套的项目。数据复制到不同的机器上以不同的数据中心,保证数据的安全性和提高性能。这个系统不支持自动分区,因此不能扩展数据量的变化。SimpleDB允许用户查询与SQL。值得注意的是,云计算可以保证最终一致性但不支持穆蒂版本的并发控制(MVCC)。因此,无法从客户端检测到冲突。 功能,即地图和减少,这两者都是由用户编程。图函数处理输入键-值对,并生成中间键-值对。然后,MapReduce将结合所有的T他中间值相同的密钥相关的传输给reduce函数,从而进一步压缩到一个较小的值设置。MapReduce的优点是,它避免了并发症复杂的开发过程的并行应用程序,例如,数据调度、容错性和节点间通信。用户只需要程序的两个功能开发并行应用-和灰。最初的MapReduce框架不支持多个数据集的一个任务,这已经被最近的一些增强功能[ 96 ]减轻,97。在过去的几十年中,程序员都熟悉SQL的高级陈述性语言,通常用在关系数据库中,对任务的描述和 –CouchDB:Apache CouchDB是一个文件的数据集分析。然而,简洁的MapReduce 面向对象数据库在Erlang编写的[ 95 ]。数据在CouchDB组织成文件即场的钥匙/名称和值命名,这为JSON对象的存储和访问。每一个文件没有提供一个唯一的标识符。CouchDB允许访问数据库文件通过RESTful HTTP API。如果一个文件需要修改,客户端必须下载整个文件里去修改它,然后将它发送回数据库。在一个文档重写一次之后,该标识符将被更新。CouchDB采用最优复制获得scalabil性没有共享机制机制。由于各种couchdbs会随着其他交易同时执行,任何一种复制拓扑可建。对CouchDB的一致性依赖于复制机制。CouchDB支持MVCC散列记录历史。

大数据通常存储在数百甚至你的商业服务器的沙子。因此,传统的并行模型,如消息传递接口(MPI)和开放式多处理(OpenMP),可能不足以支持大规模并行程序。最近,一些提出的并行编程模型有效提高NoSQL性能、降低绩效差距R关系数据库。因此,这些模型已成为分析海量数据的基石。

–MapReduce:MapReduce [ 22 ]是一个简单但功能强大的编程模型,用于大规模计算中使用了大量的商业PC集群实现自动并行处理和分布不。MapReduce计算模型中,只有两个框架只提供了两个不透明的功能,并不能涵盖所有的常用操作。因此,程序员必须花时间在编程的基本功能,这是典型的一是保持和重复使用。为了提高编程效率,一些高级语言系统被提出,例如,Sawzall [ 98 ]谷歌,猪拉丁语[ 99 ] [ 100 ]雅虎,蜂巢O脸谱,和范围[ 87 ]微软。

–树精:树精[ 101 ]是一个通用的粗粒度数据处理的并行应用程序的分布式执行引擎。森林经营结构是一个有向无环图,W它的顶点表示程序边表示数据通道。树妖执行作业对集群的顶点和发送数据通过数据通道,包括文件、TCP连接,一个FIFO和共享内存。在操作过程中,逻辑操作图中的资源自动映射到物理资源。 森林经营结构是由一个中央项目经理协调工作,可执行顺序在集群或工作站通过网络。一个职位经理由两个部分组成:1)应用程序程序代码,用于建立一个工作的通信图,和2)程序库代码被用来安排可用资源。各种数据直接传输之间的vertexe因此,工作经理只负责决策,不妨碍任何数据传输。 在树妖,应用程序开发人员可以灵活地选择任何的有向无环图来描述应用程序的通信方式和表达数据传输机制。此外,树妖铝低点顶点使用任意数量的输入和输出数据,而MapReduce仅支持一个输入和输出设置。

DryadLINQ [ 102 ]是树妖的高级语言,是用来整合上述类似SQL的语言执行环境。 –所有对:所有对[ 103 ]是一个专门设计的生物识别技术,系统的生物信息学,以及数据挖掘的应用。它侧重于通过一个给定的函数在2个数据集的元素对比较。一我对可以表示为三元组(A组,B组,和f),其中f是用来比较的所有元素集合A和B组比较结果输出矩阵M,这也被称为笛卡尔积或交叉连接设置和设置B。所有对正在实施的四个阶段:系统建模、输入数据的分布、批作业管理,和结果收集。在第一阶段,系统性能的近似模型将不ILT的评估多少CPU资源是必要的,如何进行工作分配。在第二阶段,生成树进行数据传输,这使得每一个分区的工作量检索InP但数据有效。在III期后的数据流传送到适当的节点,对所有引擎会建立一个批处理承认锡安工作分区,而排序在批处理系统,并制定一个节点运行宁命令获取数据。在最后一个阶段,在完成批量处理系统后,提取引擎将收集结果在一个适当的结构中,它通常是一个单一的文件列表,其中所有的结果都是为了。

–Pregel:预凝胶[ 104 ]的谷歌系统有利于大型图的处理,例如,网络图和社会网络服务分析。一个计算任务由D表示有向图的顶点和边控制措施。每个顶点是一个可变的和用户定义的值有关,与每一个有向边一个源点相关的欺诈的措施的使用r-defined价值和目标节点的标识符。当图是建立的,程序进行迭代计算,这是所谓的超级步骤之间的全球同步点等算法完成和输出完成。在每一个超级步,顶点计算是平行的,每个顶点执行相同的用户自定义函数来表达一个给定的算法逻辑。每个顶点可能对其输出的边缘地位,收到消息,从以前的superstep发送,发送消息到其他顶点,甚至修改过程的拓扑结构再图。边缘没有提供相应的计算。每一个顶点的函数可以被暂停。当所有的城市都在非活动状态的版本没有任何消息传递,完成整个程序的执行。

Pregel程序的输出是一套包含所有顶点的值输出。一般来说,输入和输出的Pregel程序是同构的有向图。受此启发的编程模型,其他的研究也主要集中在更为复杂的计算任务,如编程模式,迭代计算[ 105,106 ],容错存储器计算[ 107 ],增量计算[ 108 ],和流量控制决策与数据[ 109] 5大数据分析

大数据分析的主要分析方法包括传统数据和大数据,大数据分析的架构,和软件用于大数据挖掘与分析。数据分析在大数据的价值链中,是最后的和最重要的阶段,目的是提取有用的价值,提供建议或决定。不同层次的潜在价值可以通过在不同领域的数据集的分析产生[ 10 ]。然而,数据分析是一个广泛的领域,它经常变化,是非常复杂的。在这一节中,我们介绍了相遇的方法,为大数据分析的架构和工具。

5.1传统数据分析

传统的数据分析方法是使用适当的统计方法来分析大量的数据,集中,提取,并细化有用的数据隐藏在一批混乱的数据集,并确定在标的物的内在规律,从而为数据价值的最大化。数据分析对一个国家制定发展规划,了解客户对商业的需求具有巨大的指导作用,和预测市场趋势的企业。大数据分析可以被认为是一种特殊的数据分析技术。因此,许多传统的数据分析方法仍然可以利用化大数据分析。几种有代表性的传统数据分析方法进行以下检查,其中有许多是从统计学和计算机科学。

——聚类分析:是一种分组对象的统计方法,具体而言,是根据某些特征对对象进行分类。聚类分析是用来区分对象与特定的F吃特征分为几类(簇)根据这些特点,这样的对象在同一类别将有同质性高而不同类别将有高的eneity。聚类分析是一种无监督学习方法,无需训练数据。

–因素分析:基本上是针对只有几个因素,即许多元素之间的关系描述,分组密切相关的几个变量为因子,和几个因素AR然后过去——相关分析:是一种分析方法,以阻止采矿法的关系,如相关性,相对依赖性,和相互制约,观察到的现象,并相应地nducting预测与控制。这样的关系可以分为两类:(i)功能,反映现象之间严格的依存关系,即一个明确的关联CE的关系;(ii)相关,存在不确定的或不精确的依赖关系,和一个变量的值可能对应其他几个变量的数值,如N数值价值呈规律性波动围绕其平均值。

-回归分析:是一个数学工具,揭示了一个变量和几个其他变量之间的相关性。基于一组实验或观测数据,回归模型分析外商投资企业的依赖关系被随机变量之间。回归分析可以使复杂的变量之间的相关性是简单规则待定。 ——一种测试:也称为桶测试。这是一个技术用于确定如何通过比较试验组提高目标变量。大数据将需要大量的测试被执行教育和分析。

–统计分析:统计分析是统计理论的基础上,应用数学的一个分支。在统计理论中,随机性和不确定性是以概率论为基础的。统计分析可以提供一个描述和大数据的推理。描述性统计分析可以总结和描述数据集,而推断性统计分析可以得出从数据的随机变化的结论。统计分析在经济和医疗保健领域中有广泛的应用[ 110 ]。

——数据挖掘算法:数据挖掘是一种提取隐藏的、未知的、但具有潜在有用信息和知识的过程,是从海量、不完整、有噪声、模糊、随机的数据中提取的。200

6、日E IEEE国际数据挖掘系列会议(ICDM)确定了十个最有影响力的数据挖掘算法,通过严格的选拔程序[ 111 ],包括C4.5,K-means聚类算法,SVM,Apriori算法,他们,朴素贝叶斯,和购物车等。这十种算法包括分类、聚类、回归、统计学习、关联分析和关联挖掘,所有这些都是最重要的。数据挖掘研究中的问题。

5.2大数据分析方法

在大数据时代的曙光中,人们对如何快速从海量数据中提取关键信息,为企业和个人带来价值。目前,主要处理我大数据的方法如下。 花过滤器:盛开过滤器由一系列的散列函数。开滤波器的原理是利用位数组来存储数据本身的哈希值,这在本质上是使用哈希函数来进行有损压缩存储的位图索引。它具有空间效率高,查询速度快等优点,但也有一些缺点misrecognItion和删除。

–散列:它是一种方法,是把数据转换成较短的固定长度的数值或指标值。散列法具有快速阅读、书写和查询速度快等优点,但也有很难找到一个声音哈希函数。 ——索引:索引始终是一种有效的方法,以减少磁盘读写的费用,提高插入、删除、修改和查询速度,在传统的关系数据库中它的数据结构,管理,和其他技术处理半结构化和非结构化数据。然而,指数有一个缺点,它具有存储索引文件,这额外的成本当数据更新时,应保持动态维护。

–专用:也叫Trie树,哈希树的一个变种。它主要应用于快速检索和词频统计。该研究的主要思想是利用字符串的公共前缀在最大程度上减少字符串的比较,提高查询效率。 –并行计算:相比传统的串行计算,并行计算是指同时使用多个计算资源完成计算任务。它的基本思想是分解一个问题并将它们分配给独立完成的几个单独的进程,从而实现协同处理。目前,一些经典的并行计算模型,包括MPI(消息传递接口)、MapReduce和树妖(见表1的比较)。

虽然并行计算系统或工具,如MapReduce或树精,用于大数据分析,它们是低水平的工具,是很难学习和使用。因此,一些高层次的标准并行编程工具或语言是基于这些系统的开发。这样的高级语言包括Sawzall,猪,和蜂巢用于MapReduce,以及使用范围和DryadLINQ博士YAD。

5.3大数据分析架构

由于大数据的不同分析架构4Vs,应视不同的应用要求。

Table 1 Comparison of MPI, MapReduce and Dryad

MPI

MapReduce

Dryad

Computing and data storage arranged at the same node (Computing should be close to data) Not clear Deployment

Resource management/ scheduling Low level programming High level programming Data storage

Computing node and data storage arranged separately (Data should be moved computing node) –

Computing and data storage arranged at the same node (Computing should be close to data) Workqueue(google) HOD(Yahoo) MapReduce API Pig, Hive, Jaql, · · · GFS(google) HDFS(Hadoop), KFS Amazon S3, · · · Automation

MPI API

The local file system, NFS, · · ·

Dryad API Scope, DryadLINQ

NTFS, Cosmos DFS

Task partitioning

User manually partition the tasks

Meaging, Remote memory acce Checkpoint

Automation

Communication

Files(Local FS, DFS)

Files, TCP Pipes, Shared-memory FIFOs Task re-execute

Fault-tolerant

Task re-execute

5.3.1实时与离线分析

根据实时性要求,大数据分析可分为实时分析和离线分析。

——实时分析:主要用于电子商务和金融。由于数据的不断变化,快速的数据分析是必要的,分析的结果将返回在很短的延迟。主要实时分析现有的体系结构包括(i)并行处理集群使用传统的关系型数据库,及(ii)基于内存的计算平台。例如,Greenplum从EMC和SAP HANA的都是实时分析架构。

–离线分析:通常用于应用程序在响应时间,要求高,如机器学习、统计分析和推荐算法。离线分析通过数据采集工具,将日志导入到一个特殊的平台中进行分析。大数据背景下,很多互联网企业利用离线分析体系结构的基础上Hadoop为了减少数据格式转换成本,提高数据采集的效率。例子包括Facebook的开源工具,划线,LinkedIn的开源工具,卡夫卡,TA欧宝的开源工具timetunnel,和Chukwa Hadoop,这些工具可以满足数据采集和每秒数百兆位传输的要求。 5.3.2分析不同层次

大数据分析还可以分为记忆水平分析,商业智能(BI)水平分析,和大规模的水平分析,这是在下面的检查。

-内存层次分析:对于总数据量小于集群的最大内存量的情况。如今,服务器集群苏尔存储器通过数百GB甚至TB水平是普遍的。因此,一个内部数据库技术可以使用,热数据应驻留在内存中,以提高分析效率。记忆水平分析是非常合适的用于实时分析。MongoDB是一个具有代表性的内存层次分析结构。随着SSD(固态硬盘),发展能力和记忆水平的数据分析性能得到了进一步的改进和广泛应用。

–BI分析:是当数据规模苏尔通过记忆水平但可以导入BI分析环境。目前,主流的BI产品提供数据分析计划支持结核病的水平。

-大规模分析:数据规模已完全超过了双产品和传统关系数据库的能力。目前,最大量的分析利用HDFS的Hadoop存储数据,使用MapReduce的数据分析。最庞大的分析属于离线分析范畴。 5.3.3不同复杂度分析

数据分析算法的时间和空间复杂度,根据不同的数据和应用需求的不同而不同。例如,对于应用是适合的为了并行处理,可以设计一个分布式算法和一个并行处理模型,可用于数据分析。 大数据挖掘与分析的5.4大工具

大数据的挖掘和分析许多工具可用,包括专业和业余软件,昂贵的商业软件和开源软件。在这一节中,我们简要回顾一下最广泛使用的五个软件,根据一项调查,“什么分析,数据挖掘,大数据软件,你用在过去12个月为一个真正的项目?“798个专业的基2012 uggets [ 112 ]。

(30.7%):一个开源的编程语言和软件环境,是专为数据挖掘/分析和可视化设计的。虽然计算密集型任务执行,代码编程的智慧H C、C++和Fortran可以在R环境称为。此外,熟练的用户可以直接调用C语言中的对象,其实,是一种语言的实现,这是一种解释语言种由AT&T贝尔实验室和用于数据挖掘,统计分析,并绘制曲线。与之相比,更为流行,因为它是开源的。R在kdnuggets 2012调查排名前1。此外,在“设计语言,你在过去的一年中“2012数据挖掘/分析调查,R也被放在首位,击败SQL和Java。由于研究的普及,数据基地的生产厂家,如Teradata和Oracle,已经发布的产品配套R.–Excel(29.8%):Excel,一个微软Office的核心组件,提供了强大的数据处理和统计分析能力。当Excel安装,一些先进的插件,如分析是工具库和求解器的加入,为数据分析的强大功能集成开始,但这样的插件可以使他们使用只有用户。最擅长的也是唯一的商业软件王前五。

–rapid-i RapidMiner(26.7%):RapidMiner是一个用于数据挖掘开源软件,机器学习,和预测分析。在kdnuggets 2011调查,这是更频繁用比(排名前1)。数据挖掘和机器学习程序提供RapidMiner包括提取,转换和加载(ETL),数据预处理和可视化,建模,评估,一三维部署。通过图形用户界面(图形用户界面)对数据挖掘流程进行描述。快速矿工被写在爪哇。它把学习者和weka的评价方法,并与R函数RapidMiner与过程包括各种运营商实现连接。整个流程可以被视为一个工厂的生产线,与原始数据的输入和模式结果输出。运营商可以被认为是一些特定的功能,具有不同的输入和输出特性。

(21.8%):–knmine KNIME(康斯坦茨信息挖掘)是一个用户友好的、智能的、开放源码的丰富的数据集成、数据处理、数据分析和数据挖掘平台[ 113 ]。它允许用户在可视化的方式创建数据流或数据通道,选择性地执行部分或全部分析程序,并提供分析结果,模型,和互动的观点。KNIME是世界资源研究所记在Java和基于Eclipse的插件,提供了更多的功能。通过插件的文件,用户可以插入图片文件处理模块,和时间序列,并将它们集成到各种的开源项目,例如,R和Weka。KNIME控件数据集成、清洗、转换、滤波、统计、挖掘,最后数据可视化。整个开发过程是条件指示一个可视化的环境下。KNIME设计为模块化和可扩展的框架。有它的处理单元和数据容器之间没有依赖性,使其适应分布式环境下的自主发展。此外,它很容易扩展KNIME。开发人员可以轻松地扩展各种节点和看法KNIME。

–WEKA / Pentaho(14.8%):WEKA,从怀卡托环境知识分析的简称,是一个免费开源的机器学习和数据挖掘软件用Java写的。Weka提供这样的乐趣具有数据处理、特征选择、分类、回归、聚类、关联规则等,和可视化,Pentaho是一个最流行的开源BI软件。它包括一个网络服务器平台和几个工具,以支持报告,分析,图表,数据集成,数据挖掘等,所有方面的双向。Weka的数据处理算法进行集成的我n Pentaho可直接调用。

6大数据应用

在前一节中,我们研究了大数据分析,这是大数据价值链的最后和最重要的阶段。大数据分析可以通过判断提供有用的价值,建议纳秒,支持或决定。然而,数据分析涉及范围广泛的应用,它经常改变,是非常复杂的。在这一节中,我们首先回顾了数据来源的演变。然后,我们研究六最重要的数据分析领域,包括结构化数据分析,文本分析,网站分析,多媒体分析,网络分析,和移动分析。最后,我们介绍几种l关键应用领域的大数据。

6.1应用程序演化

最近,大数据分析已经被提出作为一种先进的分析技术,通常包括在特定的分析方法下的大型和复杂的程序。事实上,大在过去的几十年中,钽驱动的应用已经出现了。例如,早在20世纪90年代,BI已成为一个普遍的技术为企业应用,基于大规模网络搜索引擎数据挖掘处理出现在第二十一世纪初。一些潜在的和有影响力的应用程序从不同的领域,其数据和分析的特点进行了讨论如下。

商业应用–演变:最早的业务数据是结构化的数据,这是由公司从传统的系统,然后存储在RDBMS收集。分析技术在这样的系统中使用的是在上世纪90年代盛行,是直观和简单的,例如,在报告的形式,仪表板,查询条件,基于商业智能搜索、在线交易处理,交互式可视化,得分卡,预测模型,数据挖掘[ 114 ]。自第二十一世纪开始,网络和万维网(WWW)提供了一个独特的UE的机会,组织有在线显示和直接与客户。丰富的产品和客户的信息,如点击流数据日志和用户行为,可以获得红从www.daodoc.com/(儿子厄里斯IM:5Mayıs2013)

152.李承晚Y,李J(下2009年)在模拟移动社区的典范:设计用户界面,支持小组互动。

相互作用16(6):46-51 153.汉Ĵ,李JG,冈萨雷斯H,李X(2008)挖掘海量RFID, 轨迹,和交通数据集。在:第14届ACM论文集

中国大数据调查报告

题三据调查

论文翻译

论文翻译

翻译论文

论文翻译

论文翻译

论文翻译

翻译论文

翻译论文

《大数据调查论文翻译.doc》
大数据调查论文翻译
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
下载全文