搜索热词： 大数据 Datahoop 事务所数据分析师数据分析员大数据分析平台

数据委概述
中国商业联合会数据分析专业委员会（以下称“中国商联数据委”），成立于2008年4月，是经国务院国有资产监督管理委员会审核同意、中华人民共和国民政部正式批准和登记的中国数据分析行业组织。中国商联数据委是中国商业联合会下属分支机构。中国商联数据委以数据分析师及数据分析师事务所等从事与数据分析行业相关的团体与个人自愿组成的全国性数据分析行业组织，是中国较早坚持发展专业型、靠专业推动市场的行业组织。
- 会长： 邹东生
- 秘书长： 王芳
- 组织部门：秘书处、会员处、市场处、客服处、科研处、技术处、培训处、人事行政处、财务处
大事回顾
数据委动态
中国数据分析行业现状
一、国务院印发《促进大数据发展行动纲要》2015年9月5日，经李克强总理签批，国务院日前印发《促进大数据发展行动纲要》（以下简称《纲要》），系统部署大数据发展工作。信息技术与经济社会的交汇融合引发了数据迅猛增长，数据已成为国家基础性战略资源。坚持创新驱动发展，加快大数据部署，深化大数据应用，已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选《纲要》提出，要加强顶层设计和统筹协调，大力推动政府信息系统和公共数据互联开放共享，加快政府信息平台整合，消除信息孤岛，推进数据资源向社会开放，增强政府公信力...
行业介绍
应用实例
技术热点
Datahoop大数据分析平台

Datahoop，新一代企业数据分析平台。是中国商业联合会数据分析专业委员会主导下，集合了业内数据分析专家，建立的多功能分析平台。
解决方案
会员活动
会员服务
数据分析需求登记窗口
入会申请快速指南
1.请您先阅读入会须知[入会须知]

2.下载入会申请表 [团体申请] [个人申请]

3.通过协会邮箱提交申请表

Email : xiehui@chinacpda.org

4.如果您还有其它疑问，请联系

电话: 010-59000056转652

5.查看更多会员入会相关信息:

了解入会详情
协会证书查询查询
行业协会特邀专家
注意：CPDA数据分析师全国各地人才培养合作，请咨询13001995337王女士
联系我们

中国商业联合会数据分析专业委员会
- 地址：北京市朝阳区朝外大街乙6号朝外SOHO-C座-931室
- 邮编：100020
- 电话：(010)59000056转652
- 邮箱：xiehui@chinacpda.org

当前位置 > 首页 > 技术热点 > Hadoop&Spark扫盲

Hadoop&Spark扫盲

来源：中国数据分析行业网 | 时间：2016-11-21 | 作者：数据委

Hadoop&Spark扫盲

最近在工作中使用Spark ,突然发现Hadoop ,HDFS,Hive ,Mapreduce等很多大家讨论火热的东西基本只听过名词。今天查了相关资料，总结在此。

525 Hadoop

Apache Hadoop 是受Google 的两篇Paper( Mapreduce , Google File System )启发诞生的。最早在Nutch项目里，2006年移入Hadoop,命名也有传播很广的故事。

Hadoop 主要包括两步分，Hadoop Distributed File System (HDFS) 和 Hadoop MapReduce。很明显了HDFS解决了存储，MapReduce 更多情况下是一个编程框架。入门者最开始使用MapReduce 的例子基本都是进行词频统计。使用Map进行分词，然后Reduce得到词频，从这个例子也大概可以理解下MapReduce 干的事情。

那经常听到的Hive,Hbase 又是什么鬼? Hive 是建立在Hadoop 之上的数据仓库，可以通过Sql查询和实现一些MapReduce 操作。 Hbase 是建立在Hadoop之上的一种分布式非关系型数据库。模型也是产生于Google的一篇research Bigtable: A Distributed Storage System for Structured Data 。用过的Cassandra也是一种Bigtable的实现。

你可能会听到 Hadoop YARN ,YARN 是作业管理框架，我理解MapReduce 是建立在YARN上的。

526 Spark

在Spark 出来之后看到有人说Spark会代替Hadoop 。但是今天研究了一番完全不是那么回事。 Spark 的重点在于数据的处理和计算能力，它并没有解决数据存储问题。换句话说它相当于Hadoop Mapreduce的升级版。通常Spark都是和Hadoop 一起使用的。因为Spark需要HDFS这样的存储系统，Spark又比Hadoop Mapreduce 更快，个人感觉Api更丰富，对于机器学习算法来说更友好。当然Spark 可以不需要Hadoop ,Hadoop 也可以不需要Spark. Spark 还提供了Spark Sql, Spark Stream,Spark Mlib, Spark GraphX 一些丰富的功能，而且支持Java, Scala, Python,R等多种语言。

来源：中国大数据

上一篇：如何利用数据仓库优化数据分析？

下一篇： ApacheKudu1.1.0 发布，Hadoop 存储系统

Copyright 2008 Chinacpda.org Inc. All rights reserved. 中国数据分析版权所有

主办单位：中国商业联合会数据分析专业委员会邮箱：xiehui@chinacpda.org 地址：北京市朝阳区朝外大街乙6号朝外SOHO-C座-931室

中国数据分析京ICP备10215243号-1

资质查询快速通道