搜索热词： 大数据 Datahoop 事务所数据分析师数据分析员大数据分析平台

数据委概述
中国商业联合会数据分析专业委员会（以下称“中国商联数据委”），成立于2008年4月，是经国务院国有资产监督管理委员会审核同意、中华人民共和国民政部正式批准和登记的中国数据分析行业组织。中国商联数据委是中国商业联合会下属分支机构。中国商联数据委以数据分析师及数据分析师事务所等从事与数据分析行业相关的团体与个人自愿组成的全国性数据分析行业组织，是中国较早坚持发展专业型、靠专业推动市场的行业组织。
- 会长： 邹东生
- 秘书长： 王芳
- 组织部门：秘书处、会员处、市场处、客服处、科研处、技术处、培训处、人事行政处、财务处
大事回顾
数据委动态
中国数据分析行业现状
一、国务院印发《促进大数据发展行动纲要》2015年9月5日，经李克强总理签批，国务院日前印发《促进大数据发展行动纲要》（以下简称《纲要》），系统部署大数据发展工作。信息技术与经济社会的交汇融合引发了数据迅猛增长，数据已成为国家基础性战略资源。坚持创新驱动发展，加快大数据部署，深化大数据应用，已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选《纲要》提出，要加强顶层设计和统筹协调，大力推动政府信息系统和公共数据互联开放共享，加快政府信息平台整合，消除信息孤岛，推进数据资源向社会开放，增强政府公信力...
行业介绍
应用实例
技术热点
Datahoop大数据分析平台

Datahoop，新一代企业数据分析平台。是中国商业联合会数据分析专业委员会主导下，集合了业内数据分析专家，建立的多功能分析平台。
解决方案
会员活动
会员服务
数据分析需求登记窗口
入会申请快速指南
1.请您先阅读入会须知[入会须知]

2.下载入会申请表 [团体申请] [个人申请]

3.通过协会邮箱提交申请表

Email : xiehui@chinacpda.org

4.如果您还有其它疑问，请联系

电话: 010-59000056转652

5.查看更多会员入会相关信息:

了解入会详情
协会证书查询查询
行业协会特邀专家
注意：CPDA数据分析师全国各地人才培养合作，请咨询13001995337王女士
联系我们

中国商业联合会数据分析专业委员会
- 地址：北京市朝阳区朝外大街乙6号朝外SOHO-C座-931室
- 邮编：100020
- 电话：(010)59000056转652
- 邮箱：xiehui@chinacpda.org

当前位置 > 首页 > 案例分析 > 大数据案例：Last.fm

大数据案例：Last.fm

来源：中国数据分析行业网 | 时间：2015-11-18 | 作者：数据委

背景

创建于2002年，提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm，产生大量数据。现在有了中文版http://cn.last.fm/，界面很不错!

2006年初，Last.fm开始使用Hadoop，几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件，有2个Hadoop集群，50台计算机，300个内核，100TB的硬盘空间。在集群上，运行数百种各种日常作业，包括日志文件分析，A/B测试评测，即时处理和图表生成。

图表生成

图表生成是Hadoop在Last.fm的第一个应用。

数据从哪里来

Last.fm有两种收听信息：用户播放自己的音乐，如pc或者其他设备mp3，这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm，这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目，以及听节目时候的喜爱，跳过，禁止等操作信息，这一类叫radio listen电台收听数据。

数据存储

收听数据被发送到Last.fm，经历验证和转换，形成一系列有空格分隔的文本文件，包含用户id-userid，音乐id-trackid，这首音乐被收藏的次数scrobble，这首音乐在电台中收听的次数radio，被跳过的次数skip。真实数据达到GB级别，有更多属性字段。

数据处理

Unique Listeners作业：统计收听某一首歌的不同用户数，也就说说，有多少个用户听过某个歌，如果用户重复收听，只算一次。

Sum作业：每首歌的收听总数，收藏总数，电台收听总数，被跳过的总数。

合作作业：每首歌的被多少不同用户收听总数，收听总数，收藏总数，电台收听总数，被跳过的总数。

这些数据会被作为周排行榜等在Last.fm主站上显示出来。

下一篇：长时间内离散事件的可视化

Copyright 2008 Chinacpda.org Inc. All rights reserved. 中国数据分析版权所有

主办单位：中国商业联合会数据分析专业委员会邮箱：xiehui@chinacpda.org 地址：北京市朝阳区朝外大街乙6号朝外SOHO-C座-931室

中国数据分析京ICP备10215243号-1

资质查询快速通道