来源:中国数据分析行业网 | 时间:2016-11-04 | 作者:数据委
内容主要是函数和公式,数据透视表,格式转换等放到之后的技巧篇讲解;我并不希望只讲解Excel公式,所以会结合Python和SQL的函数一并讲解,希望有志数据分析师的人能提前了解内容;部分内容的图片均引自百度经验。先列一个大纲,主要是Excel最近处理的不多,需要慢慢把常用的函数补全完。大家也可以补充,或者提出遇到了什么问题但不知道用什么函数。
Excel函数
主要是文本、格式以及脏数据的清洗。很多数据并不是直接拿来就能用的,需要经过数据分析人员的清理。数据越多,这个步骤花费的时间越长。
Trim
清除掉单元格两边的内容,mysql和python都有同名的内置函数,以及ltrim和rtrim的引申用法。
Concatenate
合并单元格,concatenate(“我”,”很”,”帅”) = 我很帅,还有另一种合并方式是 &,”我”&”很”&”帅” = 我很帅。当需要合并的内容过多时,concatenate的效率比较快也比较优雅
Replace
替换掉单元格的字妇产,清洗使用较多。可以指定替换字符的起始位置。
Substitute
和replace接近,区别是替换为全局替换,没有起始位置的概念
Left/Right/Mid
截取字符串中的字符,Left(字符串,截取第几位)。left为从左截取,right为从右截取,mid为从指定位置截取指定长度。
Len/Lenb
返回字符串的长度,在len中,中文计算为一个,在lenb中,中文计算为两个。
Find
查找某字符串出现的位置,可以指定为第几次出现,与Left/Right/Mid结合能完成简单的文本提取
Search
和find类似,区别是Search大小写不敏感,但支持*通配符
Text
讲数值转化为指定的文本格式,可以和时间序列函数一起看
关联匹配类
在进行多表关联或者行列比对时用到的函数,越复杂的表用得越多。多说一句,良好的表习惯可以减少这类函数的使用。
逻辑运算类
数据分析中不得不用到逻辑运算,后期也会遇到布尔类型,True和False。当然,逻辑运营很考验逻辑。
计算统计类
常用的基础分析统计函数,以描述性统计为准。
时间序列类
专门用户处理时间格式以及转换
来源:36大数据