可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些...
之前一直不是非常理解Spark的缓存应该如何使用。今天在使用的时候,为了提高性能,尝试使用了一下Cache,并收到了明显的效果。关于Cache的一些理论介绍,网上...
SQL和NoSQL之争只不过是关系数据库和非关系数据库的比较。区别在于它们是如何构建的、存储信息的种类以及如何存储信息。关系数据库是结构化的,非关系数据库...
当谈到云迁移时,你是哪种人?是早早地跳上“云的火车”,还是没有试图虚拟化任何东西的落后者?也或者你仍处于主流之中,在本地上采用混合的云和一些系统呢? 在...
在 QCon 旧金山会议上,Neha Narkhede 做了“ETL 已死,而实时流长存”的演讲,并讨论了企业级数据处理领域所面临的挑战。该演讲的核心前提是开源的 Apache Kaf...
第一种情况:将a数据库.dbo.a表的数据追加到b数据库.dbo.b表中 (条件:此时b数据库中已创建好了b表) inert into b数据库.dbo.b表 select * from a数据库.db...
本篇总结一下自己对大数据算法认知的过程。正文包含两部分:自己对算法的认知过程和对大数据算法的理解。写这篇博客的原因有很多,总的来讲有下面几点:自己...
大数据 ≠BI商业智能,大数据也不是传统商业智能的简单升级。 1、大数据和BI两者的区别 BI(BusinessIntelligence)即商业智能,它是企业数据化管理的一整套的方...
数据泄露事故是给企业带来持续影响的商业危机。当发现有数据泄露事故发生时,企业应该调查发生了什么事情、修复安全漏洞、配合执法部门工作以及遵守通知法规...
Spark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处...