协会证书查询 查询
来源:中国数据分析行业网 | 时间:2015-11-18 | 作者:数据委
创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版http://cn.last.fm/,界面很不错!
2006年初,Last.fm开始使用Hadoop,几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件,有2个Hadoop集群,50台计算机,300个内核,100TB的硬盘空间。在集群上,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理和图表生成。
图表生成是Hadoop在Last.fm的第一个应用。
Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫radio listen电台收听数据。
收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid,这首音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。
Unique Listeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。
Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。
合作作业:每首歌的被多少不同用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数。
这些数据会被作为周排行榜等在Last.fm主站上显示出来。
Copyright 2008 Chinacpda.org Inc. All rights reserved. 中国数据分析 版权所有
主办单位:中国商业联合会数据分析专业委员会 邮箱:xiehui@chinacpda.org 地址:北京市朝阳区朝外大街乙6号朝外SOHO-C座-931室
中国数据分析 京ICP备10215243号-1