何为大数据？一起来学习下

sxadmin · 发表于 2021-3-7 13:04:04

大数据(big data,mega data)或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的大数据(big data,mega data)或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值密度）、Veracity（真实性）。《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）大“大数据”是指以多元形式，许多来源搜集而来的庞大数据组，往往具有实时性。在企业对企业销售的情况下，这些数据可能得自社交网络、电子商务网站、顾客来访纪录，还有许多其他来源。这些数据，并非公司顾客关系管理数据库的常态数据组。
从技术上看，大数据[1]与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代[4]》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法）大数据的4大特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。
早在1980年，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过，大约从2009年开始，“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出，互联网上的数据每年将增长50%，每两年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。此外，数据又并非单纯指人们在互联网上发布的信息，全世界的工业设备、汽车、电表上有着无数的数码传感器，随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，也产生了海量的数据信息。
大数据的意义是由人类日益普及的网络行为所伴生的，受到相关部门、企业采集的，蕴含数据生产者真实意图、喜好的，非传统结构和意义的数据。2013年5月10日，阿里巴巴集团董事局主席马云在淘宝十周年晚会上，卸任阿里集团CEO的职位，并在晚会上做卸任前的演讲，马云说，大家还没搞清PC时代的时候，移动互联网来了，还没搞清移动互联网的时候，大数据时代来了。
借着大数据时代的热潮，微软公司生产了一款数据驱动的软件，主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看，从微软团队致力于研究开始，可以看他们的目标不仅是为了节约了能源，更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据，捕捉如何杜绝能源浪费。“给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。
从海量数据中“提纯”出有用的信息，这对网络架构和数据处理能力而言也是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后，大数据终于迎来了属于它的时代。2012年3月22日，奥巴马政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。
大数据时代已经来临，它将在众多领域掀起变革的巨浪。但我们要冷静的看到，大数据的核心在于为客户挖掘数据中蕴藏的价值，而不是软硬件的堆砌。因此，针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信，在国家的统筹规划与支持下，通过各地方政府因地制宜制定大数据产业发展策略，通过国内外IT龙头企业以及众多创新企业的积极参与，大数据产业未来发展前景十分广阔。[2]
大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神化它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。[1]
折叠编辑本段意义
现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到，未来的时代将不是IT时代，而是DT的时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。
大数据的价值体现在以下几个方面：
1)对大量消费者提**品或服务的企业可以利用大数据进行精准营销
2) 做小而美模式的中长尾企业可以利用大数据做服务转型[15]
3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
不过，“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考，科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过：“就今日言，有很多人忙碌于资料之无益累积，以致对问题之说明与解决，丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
在这个快速发展的智能硬件时代，困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如，通过结合大数据和高性能的分析，下面这些对企业有益的情况都可能会发生:
1）及时解析故障、问题和缺陷的根源，每年可能为企业节省数十亿美元。
2）为成千上万的快递车辆规划实时交通路线，躲避拥堵。
3）分析所有SKU，以利润最大化为目标来定价和清理库存。
4）根据客户的购买习惯，为其推送他可能感兴趣的优惠信息。
5）从大量客户中快速识别出金牌客户。
6）使用点击流分析和数据挖掘来规避欺诈行为。

折叠编辑本段介绍
大数据时代的中国涂料行
大数据时代的中国涂料行
随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。《著云台》的分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。
大数据的4个“V”，或者说特点有四层面：
第一，数据体量巨大
从TB级别，跃升到PB级别。
第二，数据类型繁多
前文提到的网络日志、视频、图片、地理位置信息等等。
第三，价值密度低
以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。
第四，处理速度快
1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。
折叠编辑本段领域的应用
在时下商界的流行语中，很难找出一个比“大数据”更吸引眼球的术语了。大数据的颠覆和创新作用几乎在每个行业都有体现，风电行业也不例外。
上世纪90年代末，美国航空航天局的研究人员创造了大数据一词，自诞生以来，它一直是一个模糊而诱人的概念，直到最近几年，才跃升为一个主流词汇。但是，人们对它的态度却仍占据了光谱的两端，一些人对它抱有近乎宗教崇拜的热情，认为大数据时代将释放出巨大的价值，是通往未来的必然之途。在一些观察者眼中，大数据已成为劳动力和资本之外的第三生产力。而怀疑者称，大数据会威胁到知识产权，威胁到隐私保护，无法形成气候。[10]
产业洞察研究院表示无论如何，大数据在风电领域已有所建树。
首先，结合了大数据分析和天气建模技术的能源电力系统能够提高风电的可靠性。以往对风资源的预测不够精准，在风能无法贡献预期功力时，火电就要作为后备电力。这样，电网对风电的依赖程度越高，需要建设后备电站的成本就越高。另外，启用火电站的就等于向环境中释放碳排。然而，在大数据分析的帮助下，温度、气压、湿度、降雨量、风向和风力等变量都得到充分考虑，对风电的预测更加精准。电网调度人员可以提前做好调度安排，也有助于电网消纳更多风电。
除了做到更精准的预测，检测和采集风机的运转数据、风场的运营数据还有利于风机制造商更好地改善风机的性能，风电场业主在追求风场效益最大化时也离不开大数据。
大数据在风电领域的应用前景看起来很美，但当前存在的问题是，将风机、风场的数据汇集起来并非易事。这些数据分散在风机制造商、风场业主、系统运营商和运维服务商等多个环节手中，他们能从这些数据中得到利益却无法做到合理分配，所以，有些利益相关方宁愿不分享这些数据。
知识产权问题也是大数据影响风电进程的一个拦路虎。试想，如果多家风机制造商都公开风机的设计数据，那将是整个行业的幸事，通过交流和分享，风机的设计会有所改善性，性能会提高。但出于商业竞争考虑，风机制造商往往将这些数据视为商业机密、竞争利器，不愿公开。同理，风场业主收集和保存的风电运行数据不但有助于他们做出更好的业务决策，也有利于第三方运维企业提供更好的服务，但在实际情况下，运维商却很难得到这些数据。
风电行业的意义在于向终端消费者提供更稳定、更清洁、更廉价的电力，这是行业存在合理性的根据，也是业界努力的方向。共建并分享运营数据，进而激发这些数据的全部潜力才是风电行业迎接大数据时代的应有姿态。
折叠编辑本段说明
例子包括网络日志，RFID，传感器网络，社会网络，社会数据（由于数据革命的社会），互联网文本和文件;互联网搜索索引;呼叫详细记录，天文学，大气科学，基因组学，生物地球化学，生物，和其他复杂和/或跨学科的科研，军事侦察，医疗记录;摄影档案馆视频档案;和大规模的电子商务。篮球比赛当中利用大数据对球员的个人在比赛场上的数据分析，可以帮助比赛变得更加精彩。[7]
折叠编辑本段价值
大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。[9]
折叠编辑本段优势
在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。
一、Hadoop
[5]Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对
Hadoop
Hadoop
失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

二、HPCC
HPCC，High Performance Computing and Communications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目：高性能计算与通信”的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。
该项目主要由五部分组成：
1、高性能计算机系统(HPCS)，内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
2、先进软件技术与算法(ASTA)，内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
3、国家科研与教育网格(NREN)，内容有中接站及10亿位级传输的研究与开发;
4、基本研究与人类资源(BRHR)，内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动;
5、信息基础结构技术和应用(IITA )，目的在于保证美国在先进信息技术开发方面的领先地位。
三、Storm
Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。 Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。
四、Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。
该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。
五、RapidMiner
RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。
功能和特点
免费提供数据挖掘技术和库
100%用Java代码(可运行在操作系统)
数据挖掘过程简单，强大和直观
内部XML保证了标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图，确保有效和透明的数据
图形用户界面的互动原型
命令行(批处理模式)自动大规模应用
Java API(应用编程接口)
简单的插件和推广机制
强大的可视化擎，许多尖端的高维数据的可视化建模
400多个数据挖掘运营商支持
耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。

六、 Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行，主要以Pentaho SDK的形式进行。

Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体

entaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行

entaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。

折叠编辑本段特殊技术
大的数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统

一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载，监控，备份和优化大型数据表的使用在RDBMS的。

折叠编辑本段管理大数据
我们需要的是以数据为中心的SOA还是以SOA为中心的数据？答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中，将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。

SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后，架构模型描述了数据、数据管理服务和SOA组件之间的关系。

折叠SOA和数据企业的例子
也许以极限情况为开始是理解SOA数据问题的最好方式：一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件（查询即服务，或QaaS）上。这种设计理念五年前或者更早之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上；而是通过一个单一的架构—— RDBMS（关系型数据库管理系统）。数据去重和完整性便于管理单一的架构。

通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事，由于数据有多个来源和形式因此很少按序存储，并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时，关键是要定义三种模型中的最后一种模型，SOA数据关系中的架构模型。有两种选择：水平方向和垂直方向。

折叠SOA和各类数据模型
在水平集成数据模型中，数据收集隐蔽于一套抽象的数据服务器，该服务器有一个或多个接口连接到应用程序上，也提供所有的完整性和数据管理功能。组件虽不能直接访问数据，但作为一种即服务形式，就像他们在简单情况下的企业，其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型，但是它至少复制了我们上面提到的简单的RDBMS模型。

垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上，该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离，这种分离直接涉及到数据基础设施。在某些情况下，这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理，管理服务器可以作为SOA组件来操作各种数据库系统，以数据库特定的方式执行常见的任务，如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则，也可能产生数据管理的一致性问题。

折叠SOA和水平数据模型
毫无疑问水平模型更符合SOA原则，因为它更彻底地从SOA组件中抽象出了数据服务。不过，为了使其有效，有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce，可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据，然后集中查询这一分布式信息的相关结果。实际上，SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

折叠效率问题
效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的，一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销，但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件，很容易被忽略与延迟和数据传输量相关的问题，特别地，如果数据库是云分布的，那么使用他们就会产生可变的网络延迟。

上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘，而是一组相互连接的高速缓存点，其存储于本地内存中，也可能转向固态硬盘，然后到本地磁盘，最后到云存储。缓存算法处理这些缓存点之间的活动，从而来平衡存储成本（同时也是平衡同步地更新成本）和性能。

对于大数据，它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据，但是如果汇总数据最后一分钟还存储在内存中，最后一小时存储在闪存中，最后一天存在磁盘上，那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

SOA都是抽象的，但当抽象隐藏了底层影响性能和响应时间的复杂性时，这种抽象的危险程度会提高。数据访问也是这样的，因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系，并为其特定的业务需求优化它。

折叠编辑本段特点
第一，数据体量巨大。从TB级别，跃升到PB级别。

第二，数据类型繁多，如前文提到的网络日志、视频、图片、地理位置信息，等等。

第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

折叠编辑本段最新动态
十多位院士建议进行顶层设计，两部委启动示范工程

中国报告网调查员最新获悉，最近，十多位院士向高层建议，我国应制定大数据国家战略，并在发展目标、发展原则、关键技术等方面作出顶层设计。与此同时，国家发改委与中科院正在启动“基础研究大数据服务平台应用示范项目”。权威人士透露，有关部门正在积极研究，大数据国家战略或将提上议程。

多位中国科学院院士和中国工程院院士表示，在我国国家战略层面的文件中，对大数据提得不多，希望国家制定大数据国家战略。

多位院士的建议方案认为，所要制定的大数据国家战略是国家层面的顶层规划。其主要内容包括：构建大数据研究平台，整合创新资源，实施“专项计划”，突破关键技术；构建大数据良性生态环境，制定支持政策，形成行业联盟，制定行业标准；构建大数据产业链，促进创新链与产业链有效嫁接。

一位中国工程院院士在一份《关于实施大数据国家战略研究》的报告中表示：“虽然我们意识到大数据的重要性，却并未在真正意义上将其提升到国家战略高度来考量，我们迫切需要从国家层面上制定大数据发展规划，将大数据上升为国家战略。”

这份研究报告指出，要“通过国家层面的战略规划明确大数据产业的发展重点、空间布局和保障措施，推动和改善与大数据相关的收集、储存和分析工具及技术，并在公共服务领域如安防、医疗、卫生、教育等开展大数据应用示范，提高应急处置能力和安全防范能力，提升服务能力和运作效率。”

调查员从国家发改委了解到，最近，国家发改委和中科院正在推进国家高技术服务业研发与产业化专项“基础研究大数据服务平台应用示范”项目。

国家发改委高技术产业司有关人士表示：“我们将依靠新的方式、新的理念、新的技术对大数据进行挖掘应用，帮助科技、经济、社会发展；希望结合有关国家研究机构的优势与特色，能够探索大数据的潜在发展前景与效益，支持相关领域内的融合创新与思想碰撞。”

中国科学院科学数据中心主任黎建辉研究员则表示“目前我们正在对基础研究的大数据获取方式、组织与管理、关联与发现、分析与可视化等方面进行研究，下阶段将研究大数据的协同创新、科研模式变革、服务模式、产业化探索、人才培养等方面问题。”

科技部高新司副司长杨咸武表示：“当前全球已经全面进入信息时代，数据的深度分析和利用将对推动经济持续增长、提升企业的竞争力起到重要的作用。”

根据观研天下监测统计，2011年全球数据总量已经达到1.8ZB1ZB等于1万亿GB，1.8ZB也就相当于18亿个1TB移动硬盘的存储量，而这个数值还在以每两年翻一番的速度增长，预计到2020年全球将总共拥有35ZB的数据量，增长近20倍。开源分析机构Wikibon预计，2012年全球大数据企业营收为50亿美元，未来5年的市场复合年增长率将达到58%，2017年将达到500亿美元。

据权威专家透露，在有关部门协商的基础上，经国务院同意，将来或推出一个国家科技和产业专项来引导和支持大数据的研究和产业发展。

这个专项包括大数据的发展目标、发展原则和重点任务。有关院士建议，我国大数据的发展目标是，“十二五”时期以及未来十年，实现大数据产业技术创新，产业的整体质量效益得到提升，应用水平明显提高，推动经济社会发展。发展原则是，市场主导、创新发展；应用牵引、融合发展。

重点任务主要有布局关键技术、推进示范应用、完善支持政策等三方面。首先，布局关键技术研发创新。一是以数据分析技术为核心，加强人工智能、商业智能、机器学习等领域的理论研究和技术研发，夯实发展基础。二是加快非结构化数据处理技术、非关系型数据库管理技术、可视化技术等基础技术研发，并推动与云计算、物联网、移动互联网等技术的融合，形成较为成熟、可行的解决方案。三是面向大数据应用，加强网页搜索技术、知识计算搜索技术、知识库技术等核心技术的研发，开发出高质量的单项技术产品，并与数据处理技术相结合，为实现商业智能服务提供技术体系支撑。

其二，加速推进示范应用。一是面向能源、金融、电信等行业，引导企业参与，发展数据监测、商业决策、数据分析等软硬件一体化的行业应用解决方案；二是面向城镇化建设与民生需求，加快推动大数据在城市建设生活服务领域的应用，不断提升数字内容加工处理软件等服务发展水平。三是推动行业数据深加工服务。大力开发深度加工的行业数据库，对高科技领域数据进行深度加工，建立基于不同行业领域的专题数据库，提供内容增值服务。四是推进政府及大型公共信息服务平台建设。发展和利用跨部门的政府信息大平台，提高行政工作效率，降低政府运行成本。利用政府信息大平台，提高政府决策的科学性和精准性，提高政府预测预警能力以及应急响应能力。

最后，完善支持政策，鼓励民间投资。一是加大财政投入。加大中央预算内投资和中央财政信息技术专项资金对大数据产业的投入，安排国有资本经营预算支出支持重点企业实施大数据项目。二是拓展投融资渠道。积极创新金融产品和服务，支持大数据成果转化和产业化。鼓励和引导民间投资和外资进入大数据领域。

相关市场调研报告：《中国IDC市场运营格局与竞争策略分析报告（2013-2017）》

折叠编辑本段发展影响
大数据意味什么?企业与厂商
大数据意味什么?企业与厂商
斯隆数字巡天收集在其最初的几个星期，比在天文学的历史，早在2000年的整个数据收集更多的数据。自那时以来，它已经积累了140兆兆字节的信息。这个望远镜的继任者，大天气巡天望远镜，将于2016年在网上和将获得的数据，每5天沃尔玛处理超过100万客户的交易每隔一小时，反过来进口量数据库估计超过2.5 PB的是相当于167次，在美国国会图书馆的书籍。FACEBOOK处理400亿张照片，从它的用户群。解码最初的人类基因组花了10年来处理时，现在可以在一个星期内实现。

“大数据”的影响，增加了对信息管理专家的需求，甲骨文，IBM，微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元，增长近10%，每年两次，这大概是作为一个整体的软件业务的快速。

大数据已经出现，因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上，人们比以往任何时候都与数据或信息交互。 1990年至2005年，全球超过1亿人进入中产阶级，这意味着越来越多的人，谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计，到2013年，在互联网上流动的交通量将达到每年667艾字节。

折叠市场
中国人口众多，互联网用户数在2013年已经超过5亿人，全球第一。海量的互联网用户创造了大规模的数据量。据预测，到2015年全球有超过85%的财富500强企业将在大数据竞争中失去优势。我们认为这种发展趋势在国内同样不可避免，在未来的市场竞争中，能在第一时间从大量互联网数据中获取最有价值信息的企业才最具有优势。

当前，大部分中国企业在数据基础系统架构和数据分析方面都面临着诸多挑战。根据产业信息网调查，目前国内大部分企业的系统架构在应对大量数据时均有扩展性差、资源利用率低、应用部署复杂、运营成本高和高能耗等问题。国内企业为适应大数据时代而做出大规模调整是一种必然，这为国内从事大数据相关业务的IT企业带来了极大市场需求。
中国业数据系统架构存在的问题

2011年是中国大数据市场的元年，部分IT厂商已经推出了相关产品，部分企业已经开始实施了一些大数据解决方案。据预测，中国大数据技术和服务市场将在未来几年快速增长。预计相关市场规模在2012年将达到4.7亿元，增长率高达80.8%，并且将在2016年接近100亿元。我们认为未来两年将是中国大数据市场的发展的初期培育阶段，2015年之后中国大数据市场将进入成熟阶段。目前国内的大数据厂商有永洪科技，GBase等，但所占市场份额还很少。

折叠趋势
国内企业，不论是国企还是民企，真正在业务决策中以数据分析结果为依据的，主要集中在银行，保险，电信和电商等几个行业。以IT预算最充沛，人员能力最强的银行为例，目前主要是大型银行在导入数据分析。中小银行尚在观望与学习阶段，人员与能力建设正在起步阶段。数据分析的应用范围主要集中在信用风险、流程优化、市场营销、成本与预算等几个方面，深度尚可，但广度一般，尚未扩充到运营管理的所有领域。

根据前瞻产业研究院发布的《2014-2018年中国大数据产业发展前景与投资战略规划分析报告》分析，目前，在对数据的价值的态度上，除了6.9%的企业认为数据没有价值以外，绝大多数企业都认为数据具有或可能具有很高的价值，可见大数据的价值已经在企业中获得了广泛的认可。未来随着越来越多的大数据分析平台和工具的开始广泛应用，大数据的价值将会被进一步释放并获得企业认可。[11]

折叠编辑本段相关信息
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素；而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

“麦肯锡的报告发布后，大数据迅速成为了计算机行业争相传诵的热门概念，也引起了金融界的高度关注。”随着互联网技术的不断发展，数据本身是资产，这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道，那么如何盘活数据资产，使其为国家治理、企业决策乃至个人生活服务，则是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。”

事实上，全球互联网巨头都已意识到了“大数据”时代，数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合，亦可见其对“大数据”的重视。

“大数据”作为一个较新的概念，目前尚未直接以专有名词被我国政府提出来给予政策支持。不过，在12月8日工信部发布的物联网“十二五”规划上，把信息处理技术作为4项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析，这都是大数据的重要组成部分。而另外3项关键技术创新工程，包括信息感知技术、信息传输技术、信息安全技术，也都与“大数据”密切相关。

折叠没有云的话，大数据就是个作坊
[6] 其实大数据很早以前就有，只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有，欧洲对撞实验室做一次碰撞的数据，可能一辈子都做不完，最大的数据估计在那里。

今天的数据不是大，真正有意思的是数据变得在线了，这个恰恰是互联网的特点。所有东西在线这个事情，远远比“大”更反映本质。

像快的打车要用一个交通的数据，如果这些东西不在线，是没有用的。

为什么今天的淘宝数据值钱，因为他在线了。写在磁带、写在纸上的数据，根本没有用。

反过来讲，在线让数据搜集变得非常容易。过去美国谁要做总统，需要做盖勒普调查，去街上拦2000个人，在纸上打个勾，预测就很准了。现在不用做这个事情，只要在twitter上分析每个人发的东西，就可以知道总统会是谁了。

而且盖勒普调查做完之后很难快速影响社会，现在数据可以反过来快速影响社会。就像打车软件，如果要影响出租车司机，可能比出租车公司更大，原因就是数据在线了。

有时候，一些石油、地质之类的公司来跟我讲大数据，我就想不通这算不算大数据。他们的数据多是肯定的，但是他们的数据不在线，没有意义。[6]

折叠编辑本段Hadoop
Hadoop旨在通过一个高度可扩展的分布式批量处理系统，对大型数据集进行扫描，以产生其结果。Hadoop项目包括三部分，分别是Hadoop Distributed File System（HDFS）、HadoopMapReduce编程模型，以及Hadoop Common。

Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性，已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外，您还能够以其他语言编写map和reduce函数，并使用称为Hadoop Streaming（简写为Streaming）的API调用它们。与流数据分析

折叠什么是流
从技术角度而言，流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”，均能够在某种程度上处理流内的数据。节点可以不包含输入和输出，也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起，表示在运算符之间移动的数据流。

右图一个简单的流图，它可以从文件中读取数据，将数据发送到名为Functor的运算符（此运算符能够以某种编程方式转换所传入的数据），然后将这些数据传入另一个运算符。在此图片中，流数据被传送至Split运算符，而后又将数据传入文件接收器或数据库（具体情况视Split运算符的内部状况而定）。

折叠Streams
即，IBM InfoSphere Streams。在IBMInfoSphere Streams（简称Streams）中，数据将会流过有能力操控数据流（每秒钟可能包含数百万个事件）的运算符，然后对这些数据执行动态分析。这项分析可触发大量事件，使企业利用即时的智能实时采取行动，最终改善业务成果。

当数据流过这些分析组件后，Streams将提供运算符将数据存储至各个位置，或者如果经过动态分析某些数据被视为毫无价值，则会丢弃这些数据。你可能会认为Streams与复杂事件处理（CEP）系统非相似，不过Streams的设计可扩展性更高，并且支持的数据流量也比其他系统多得多。此外，Streams还具备更高的企业级特性，包括高可用性、丰富的应用程序开发工具包和高级调度。

折叠编辑本段多重挑战
伴随着各种随身设备、物联网和云计算云存储等技术的发展，人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人，不再是网页。数据大爆炸下，怎样挖掘这些数据，也面临着技术与商业的双重挑战。

首先，如何将数据信息与产品和人相结合，达到产品或服务优化是大数据商业模式延展上的挑战之一。张夏天认为，大数据对算法和计算平台的挑战加大，计算开销大增。总量上升，质量下降，这是大数据带来的重大挑战。

其次，巧妇难为无米之炊，大数据的关键还是在于谁先拥有数据。多盟联合创始人兼COO张鹤表示，智能手机是根据用户营销而不是根据媒体营销。移动互联网提供了新的数据来源，数据分析能够针对每一位用户的手机信息做精准匹配，但目前大数据时代还没有真正来临。多盟虽然每天可覆盖1800万用户，但对用户行为的描述，还需要更大的数据量。

从市场角度来看，大数据还面临其他因素的挑战。架势无线CEO叶忻直言，大数据很有前景，但是市场中数据噪音太多，会导致数据价值大大降低。以无线营销为例，大量的刷量以及水军好评差评等数据已经严重干扰了数据的准确性，这实际上大大降低了数据的价值。

折叠编辑本段投资热点
大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道，而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息，互联网世界中的人与人交互信息、位置信息等，其数量将远远超越现有企业IT架构和基础设施的承载能力，实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产，使其为国家治理、企业决策乃至个人生活服务，是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。

大数据时代网民和消费者的界限正在消弭，企业的疆界变得模糊，数据成为核心的资产，并将深刻影响企业的业务模式，甚至重构其文化和组织。因此，大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判，所有传统的产品公司都只能沦为新型用户平台级公司的附庸，其衰落不是管理能扭转的。

因此，大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测，到2020年全球将总共拥有35ZB的数据量，而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场，未来中国大数据产品的潜在市场规模有望达到1.57万亿元，给IT行业开拓了一个新的黄金时代。数据处理技术和设备提供商、IT系统咨询和ERP/CRM/BI改造服务商、智能化和人机交互应用以及信息安全提供商将获巨大需求，相应公司将获得机会。

当前我们还处在大数据时代的前夜，预计今明两年将是大数据市场的培育期，2014年以后大数据产品将会形成业绩。由于国际巨头在硬件层和基础软件层垄断优势明显，本土企业将主要依靠对客户需求的了解和客户资源优势，以及本地化服务的优势，在应用软件层分得蛋糕，拥有大数据处理、挖掘技术、数据分析人才以及数据资产的公司值得看好。

折叠编辑本段开创新世界
大数据
大数据
大数据正在以不可阻拦的磅礴气势，与当代同样具有革命意义的最新科技进步 (如纳米技术、生物工程、全球化等)一起，揭开人类新世纪的序幕。可以简单地说，以往人类社会基本处于蒙昧状态中的不发展阶段，即自然发展阶段。现在，这一不发展阶段随着2012年的所谓“世界末日”之说而永远成为了过去。大数据宣告了21世纪是人类自主发展的时代，是不以所谓“上帝”的意志为转移的时代，是“上帝”失业的时代。

对于地球上每一个普通居民而言，大数据有什么应用价值呢?只要看看周围正在变化的一切，你就可以知道，大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源;大数据通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业，与每个人产生密切的联系。

大数据技术离你我都并不遥远，它已经来到我们身边，渗透进入我们每个人的日常生活消费之中，时时刻刻，事事处处，我们无法逃遁，因为它无微不至：它提供了光怪陆离的全媒体，难以琢磨的云计算，无法抵御的仿真环境。大数据依仗于无处不在的传感器，比如手机、发带，甚至是能够收集司机身体数据的汽车，或是能够监控老人下床和行走速度与压力的“魔毯”(由GE与Intel联合开发)，洞察了一切。通过大数据技术，人们能够在**之外得悉自己的健康情况;而通过收集普通家庭的能耗数据，大数据技术给出人们切实可用的节能提醒;通过对城市交通的数据收集处理，大数据技术能够实现城市交通的优化。

随着科学技术的发展，人类必将实现数千年的机器人梦想。早在古希腊、古罗马的神话中就有冶炼之神用黄金制造机械仆人的故事。《论衡》中也记载有鲁班曾为其母巧公制作一台木马车，“机关具备，一驱不还”。而到现代，人类对于机器人的向往，从机器人频繁出现在科幻小说和电影中已不难看出。公元2035年，智能型机器人已被人类广泛利用，送快递、遛狗、打扫卫生……这是电影《我，机器人》里描绘的场景。事实上，今天人们已经享受到了部分家用智能机器人给生活带来的便利。比如，智能吸尘器以及广泛应用于汽车工业领域的机器手等等。有意思的是，2010年松下公司专门为老年人开发了“洗发机器人”，它可以自动完成从涂抹洗发水、按摩到用清水洗净头发的全过程。未来的智能机器人不会是电影《变形金刚》中的庞然大物，而会越来越小。目前，科学家研发出的智能微型计算机只和雪花一样大，却能够执行复杂的计算任务，将来可以把这些微型计算机安装在任何物件上用以监测环境和发号施令。随着大数据时代的到来和技术的发展，科技最终会将我们带进神奇的智能机器人时代。

在大数据时代，人脑信息转换为电脑信息成为可能。科学家们通过各种途径模拟人脑，试图解密人脑活动，最终用电脑代替人脑发出指令。正如今天人们可以从电脑上下载所需的知识和技能一样，将来也可以实现人脑中的信息直接转换为电脑中的图片和文字，用电脑施展读心术。2011年，美国军方启动了“读心头盔”计划，凭借读心头盔，士兵无需语言和手势就可以互相“阅读”彼此的脑部活动，在战场上依靠“心灵感应”，用意念与战友互通讯息。目前，“读心头盔”已经能正确“解读”45%的命令。随着这项“读心术”的发展，人们不仅可以用意念写微博、打电话，甚至连梦中所见都可以转化为电脑图像。据美国《纽约时报》报道，奥巴马政府将绘制完整的人脑活动地图，全面解开人类大脑如何思考、如何储存和检索记忆等思维密码作为美国科技发展的重点，美国科学家已经成功绘出鼠脑的三维图谱。2012年，美国IBM计算机专家用运算速度最快的96台计算机，制造了世界上第一个“人造大脑”，电脑精确模拟大脑不再是痴人说梦。试想一下，如果人类大脑实现了数据模拟，或许你的下一个BOSS是机器人也不一定。[8]

总而言之，大数据技术的发展有可能解开宇宙起源的奥秘。因为，计算机技术将一切信息无论是有与无、正与负，都归结为0与1，原来一切存在都在于数的排列组合，在于大数据。[12]

折叠编辑本段北京城
折叠这里是北京
2013年底，在这占地仅仅1.6万平方公里的地方，北京常住人口2114.8万人，其中，常住外来人口为802.7万人，占比38%。在人口分布上，朝阳区和海淀区常住人口最多，均在300万人以上;门头沟区人最少，只有30.3万人。

与日俱增的人口压力下，人们的衣，食，住，行，让这座城市慢慢的变得厚重起来。

微软亚洲研究院主管研究员郑宇博士在做客2014WGDC地理信息开发者大会时提到，在城市中，从社交媒体到道路结构，到气象条件，产生了各种各样的大数据，如果使用得当的话可以利用这些数据发现这个城市的问题，并且自动解决这些问题。基于这样的愿景微软提出了城市计算的框槛，包括城市感知、城市服务提供和数据挖掘，形成一个环路不断的自动的改进这各城市。“简单来说就是用大数据解决大城市大挑战。最后做到人、城市运转效率和自然环境三赢的系统。”

折叠关于人们的“衣食”
人们的生活以及消费方式已经发生了惊天的转变。不光是北京，自淘宝创立以来，大众的消费方式越发多元化，O2O、B2B等方式越来越丰富人们的日常生活。

大数据以及地图的基础应用，已经对人们的生活产生了很大的影响。现今类似的网站应用有很多都与数据以及地理信息相关，作为其代表之一，大众点评正是数据与地理信息的相互结合的优质结晶。

折叠关于人们的“住”
对于住来说，有几个决定因素：区位、人口、环境。人口数据对于城市的商业数据来说是至关重要的。

超精细格网化人口数据根据国家统计局2010年人口普查数据，结合遥感、地理信息等数十种背景信息数据，通过定量空间模型制作而成的超精细(160米左右)格网化人口分布数据，涵盖全国328个城市(包括其所辖的所有县、县级市、区和街道)格网总数约3亿个，数据项包括总人口数、不同性别人口数、儿童人口数、成人人口数、老年人人口数、网格的经纬度等数据项。人口格网化是目前人口空间分布研究的热点，超精细格网化人口数据根据国家统计局2010年人口普查数据，结合遥感、地理信息等数十种背景信息数据产成。

折叠关于人们的“行”
对于人们出行来说，人们的出行组成了大数据，同时大数据可以实时反应交通状况，因此大数据与交通的辩证关系一直为社会所重视;近年来交通所带来的能耗问题被逐渐重视起来，这不光是对个人资金的节省，更是对自己所在这个环境的一种责任。

郑宇认为通过导航软件所用的传感器来感知每个路段的流量和速度，利用环境学经典公式即可算出该汽车的排放量，具体做法是：利用已有GPS数据算出有限道路上的速度，按照单位时间通过车的流量的速度，最终得出某一行车路段的污染指数。可以算出这个城市里每一个区域，每一个时间、每一种污染物的成分和比例。随着时间的变化，各个地方污染程度。

折叠大数据情怀
大数据北京，我们可以看到几个焦点，文化底蕴，科技创新，还有为了梦想前进的现代化人们。有个词叫物是人非，时代变了，主角变了，但是古迹还在，我们正在创造历史，书写历史，这亦是一个城市的延续。故宫的历史对于现如今的我们来说已经永远沉睡在北京的正中心，对于故宫我们只是过客，对于历史，我们也是一个过客。

折叠编辑本段变革之路
国务院发布的《促进大数据发展行动纲要》（以下简称“纲要”）将大数据发展确立为国家战略。党的十八届五中全会明确提出，实施“互联网+”行动计划，发展分享经济，实施国家大数据战略。大力发展工业大数据和新兴产业大数据，利用大数据推动信息化和工业化深度融合，从而推动制造业网络化和智能化，正成为工业领域的发展热点。明确工业是大数据的主体，工业大数据的价值正是在于其为产业链提供了有价值的服务，提升了工业生产的附加值。工业大数据的最终作用是为工业的发展、为工业企业的转型升级提供有价值的服务。要顺利实现中国制造2025的目标，中国工业企业必须做好两件事：“顶天”，掌握高端装备行业的工业数据，在高端制造领域完全实现中国智造；“立地”，掌握中国制造行业的工业大数据，通过运用工业大数据，提升中国制造企业的效益，实现节能降耗，进一步提升中国制造产品质量。为了确保“顶天立地”目标的实现，必须狠抓人才、知识、工具三方面工作。目前，美国在信息物理系统方面尚缺乏大约19万名工程师，而中国的人才缺口更大；此外，大数据知识开放和工具升级也很迫切。[14]

折叠编辑本段预测
折叠物联网将成为主流
如今市场上已经出现了大量可穿戴设备和带来数据功能的设备。有些设备设计的非常棒，有些设备虽然风靡一时，但是缺乏实际应用。随着需要24小时随时在线的人员数量持续增长，2015年将是这类设备和早期部署者市场爆发的一年。我们可能很快就会在大街上看到戴着智能眼镜的人。[16]

折叠机器将在重大决策中发挥更大作用
尽管做出决策的主体还是人，但是目前大数据已经在决策过程中发挥着指导作用。随着机器学习的不断发展，能够分析海量数据的机器将会做出比人类更为精准，更为可靠的决策。在不久的将来这将成为现实。

折叠文本分析将被更为广泛使用
如今，我们所存储用于分析的大部分数据已经逐渐变成了非结构型数据。在过去几年里，文本分析已经变得越来越复杂，这一趋势还将会继续发展下去。计算机将能够更为熟练地“阅读”一篇文章(或是将声音转化为文字)，并能够理解文章的主题和情感。这意味着这些文章能够像结构型数据那样被分类和分析。

折叠数据可视化工具将统治市场
市场已经出现了让数据实现可视化的专业软件，它们可以让我们更容易地发现其中的规律，找到因果联系。这些软件将变得越来越复杂并被广泛使用。这类软件市场的增长速度将是其它商务智能软件产品市场增长速度的2.5倍。

折叠公众将会对隐私产生巨大恐慌
像苹果、索尼和Snapchat等用户在近年来所遭遇的漏洞一样，重大安全漏洞一直以来并没有影响到大众在社交媒体和网络中分享隐私生活细节的行为。实际上，从未有过如此多的人认为，向公司提供个人信息只是享受新技术的便利所付出的小代价。我们能不能承受“完全风暴”。如今，黑客已经能够威胁到最安全的系统，而政府和执行部门防止数据泄漏，将不法之徒绳之以法的进程却非常缓慢。灾难性的黑客攻击或信息泄漏可能将会足以改变人们的态度，让人们恢复保护个人数据的意识。

折叠公司和机构将竞相寻找数据人才
直接涉足大数据分析的岗位的从业人员明年可能会达到440万人，但是这一数量还不够。据市场观察显示，到2015年(+本站微信networkworldweixin)，70%的美国公司将会执行适当的数据策略，或是为不远的将来制订相关数据策略。虽然设置与大数据分析有关课程的大学数量正在持续增加，但是具备未来所须技能的员工数量还是在持续短缺。

折叠大数据将提供解开宇宙中众多谜团的钥匙
大型强子对撞机目前正在升级改造中，预计在明年初将重新投入使用。在该设备中，每秒高速质子碰撞将发生6亿次，每年采取的信息达到30拍。这些信息被由分散在36个国家中的170个计算设施所组成的网络进行分析，是迄今为止最大的科研性大数据实验项目。它们目前已经成功找到了与希格斯玻色子理论相匹配的粒子。许多人认为，这一发现意味着在理解宇宙的起源和运转之谜方面，我们正在朝着正确的方向前进。升级后的大型强子对撞机的性能是升级前的两倍，在重新投入使用后，谁又知道我们又将会发现什么呢?

数据(big data,mega data)或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值密度）、Veracity（真实性）。、Value（价值密度）、Veracity（真实性）。

sxadmin · 发表于 2021-7-12 14:45:33

学习到了~

已有账号？

注册后更精彩

客服电话

电子邮件

sxadmin 管理员

优康服务中心

优康礼品定制

智能光纤在线监测系统——无人值守光纤台站

业智能化时代已经到来

何为大数据？一起来学习下

精彩评论1

关于我们

帮助中心

服务范围