来源:中国数据分析行业网 | 时间:2016-06-14 | 作者:数据委
建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。下面浅谈关于数据建模:
一、建模并不神秘:让数据产生新的数据
一些建模的观点已在前面的道与法两篇体现,归纳如下:
建模的本质就是让数据产生新的数据。人类、智能体的认知、行动需要用到不同的数据(Know->行动),如果这个数据没有被直接掌握,那就要基于已知的事实数据推测,这个过程就是“建模”,得到的结果就是一个新的“数据”。
建模就是在做侦探,都是利用已掌握的大量的、不完整的、不一定可信的事实数据推导还原事实的全部。几乎所有的领域都涉及建模。
模型分三大类,但万变不离其宗。
第一类,利用已知的事实数据计算推测相关联的其它事实数据,譬如应用人的属性、行为数据推测它的消费需求;
第二类,利用已知的事实数据计算推测规律性的数据,譬如基于历史的购买记录分析商品的销售趋势、细分比较等;
第三类,利用已知的细节事实数据组合建立对事实全局的认识(数据),譬如从生效时间、适用区域及客户群、定价等维度建立产品模型,其实就是综合这些细节数据形成了一个“产品”的“数据”。
对“新”的数据的认识不要拘泥于一定要和以前的数据不一样,多个数据组合形成新的含义也是一种新的数据。
数据是人类对世界的观测,把客观世界抽样、采集到数字世界里面,建模就是要在数字世界里面把客观事实还原回来、预测它的发展。有趣的是,在数字世界里面,可以打破客观物质的当前认知局限,任意交叉组合,从而有无限创新的可能。
总结一下,建模本质就是对已知数据的组合、简单或者复杂的计算处理,最终转换成一个新的数据,从而影响行动。
不同类型建模差别很大,接下来我们将聚焦到数据营销领域来探讨,部分观点不具备普适性。
二、建模的六大误区
误区一:会用工具等于会建模?数据挖掘大多遵循CRISP-DM流程,弄来很多的数据维度(有甚者上百种),选取某一种算法,找来训练集训练出一堆莫名其妙的规则,输出的目标用户特征谁也说不清楚,只能告诉你支持度、置信度多少。这个过程本来是没有问题的,前提条件是有明确的挖掘方向。但是很多人都错把业务目标当挖掘方向了。
真正的建模应该从业务目标开始,先基于业务目标理解客户分解挖掘方向(特征明显的群体),再找数据用算法关联推导。懂工具能很好的完成挖掘方向到目标结果的过程,但业务目标到挖掘方向这个过程就不是只掌握工具就能够胜任的了。
敏锐的洞察挖掘方向、正确的数据选取是建摸的核心能力,比掌握工具更加重要!
误区二:建模不与实际销售场景相结合!某央企(莫乱猜)各省公司大数据成功案例满天飞,模型成功率动辄30-40%。笔者看到的时候自惭形愧,也一直很纳闷,做了这么多年精准营销,大部分模型的营销成功率都是几个百分点,两位数以上的凤毛麟角,怎么别人的水平都已经赶超美帝了!后来终于搞明白,原来他们的目标客户在各种渠道成功下单都算,不管是否施加了营销动作,而我们只统计针对目标用户采取营销动作的直接转化下单。他们得意于挖出目标用户的精准,其实,这些模型的高成功率只能说明这批用户自然转化率高,找出这些用户并无实质意义,因为不施加任何动作用户就已经购买了,挖它出来干嘛?
建模必须与实际销售场景结合,要么找出自然转化率高的用户采取更低成本的接触方式转化,要么找出一批用户施加营销动作后较自然转化大大提升!
误区三:盲目使用、过度依赖训练集!训练集是个双刃剑,正确使用能充分发挥技术算法的价值,而滥用则陷入误区。前面说的某央企案例,其实训练那些模型并不困难,不就把各渠道成功下单用户作为训练集嘛,掌握工具的新手都能做出来。训练集要与准备施加的营销动作一致的才有意义。
训练集还要有代表性,譬如历史的数据是和大客户谈妥对其所有员工批量转化的,以这些数据为训练集就没有任何意义。
营销场景初始往往没有训练集,必须跳出“训练集”局限。
误区四:要相关不要因果!《大数据时代》作者提出这个观点的时候,其实并不是要放弃追求因果,而是找出相关关系后,更迫切的是接下来怎么做,因果关系可以慢慢研究。这一点被很多人误读,世间没有无缘无故的爱,也没有无缘无故的恨,两个事物相关度很高,背后必定有一串的因果链条,如果找不到,那可能是因为训练集的问题导致伪相关,我们就要警惕了。
误区五:过于迷信算法!大道至简,有效的东西一定是简单的。非要复杂,那一定是因为没找到或者没掌握关联度更高的原始数据。算法并不能解决所有问题,没有好的数据基础,它无能为力。建模涉及到很多关键要素,比拼的是综合实力,在同等条件下,努力提升算法才是有意义的。
误区六:盲目追求数据精度!高的精度意味着更高的成本,对应更少的数据规模,如何取舍就要运用“法”篇说的ROI原则了。
三、建模七术
1、场景驱动
建模的第一件事情是搞清楚应用场景,提炼卖点、利益点,哪些是能打动用户的关键要素。从“命中目标”和“命中营销特性”这两个方面去思考我们要找什么样的用户,匹配什么样的关键特征。
2、迭代建模
建模要用互联网思维“小步快跑,快速迭代”,快速对消费者需求做出反应,否则数据会失去时效。因此我们应从简单开始入手,采用简单算法快速输出数据,后续在实战中不断检验、修正、迭代优化,不断提升数据的精准性。
3、场景还原
确定业务目标后,还原用户的生活场景,设想用户的需求场景,再考察数据能否关联。
理解生活,数据挖掘会很简单。商业最终解决的是人们的物质文化需求,你想挖掘什么样的群体,先从生活中去理解它,它在什么场景下需要这些产品,有什么行为习惯,在我们的数据中留下了哪些蛛丝马迹?譬如“外围女”这个群体,你too simple对她们一无所知,就很难把她们找出来。为了挖掘“工业区人群”,我们特地组织前往厂区调研他们购买手机、上网、生活习惯等情况,为了挖掘“出租车司机”,我们打车的时候对他们进行了访谈。
五个方面理解还原。
- 身份属性:譬如商务精英消费能力高使用Iphone手机比例高
- 状态变化:譬如夜间位置变换,推测用户搬家了有宽带需求
- 行为表达:譬如在社交网络、搜索引擎等互联网上表达了对目标商品的关注
- 习惯偏好:譬如喜欢日本料理、西餐厅的人群超60%使用Iphone手机
- 关系推测:譬如和快递员交互的用户,我们推测它是一个电商消费者
对于任何一个业务目标,都可以从上述五个方面还原与业务目标相关联的场景,还原足够多的场景,就可以挖掘出足够规模的用户数据。
4、找数据关联
还原出场景后,就要找数据进行关联。有些我们可以基于直接数据进行输出,没有直接的数据,则找间接数据选取算法进行推导,而间接数据的选取,可继续应用上述五个方面场景还原的方法。
至于具体如何清洗数据、缺省异常值处理、算法选取、误差分析等等那些实操细节,文章很多。
5、快速收敛
建模是人与机器协作的结果,核心参与者是人,建模方向由人来确定,数据维度的选取主要是人(机器辅助验证),算法也是人设计的,机器所起的所用是训练迭代,而机器储存的数据相对人脑太单一,人对数据结果、应用结果进行解读,及时输入一些理解能加快收敛的速度。
6、少即是多
挖掘的目标不仅仅是“有需求”,而是“能转化”,因为好的营销场景、文案,能激发那些原来看起来没有需求的用户的购买欲望,而即使是有需求的用户,如果不能直击它的痛点、愉悦点,也难以转化。
好的模型应尽量简单,很多复杂规则的模型有可能命中率高,但实际营销应用的时候,往往难以与营销特性相匹配,效果不一定好;而简单模型特征明显,全力聚焦用户特性策划营销动作,更能引起用户共鸣,产生兴趣进而购买。
7、高质量的数据才是硬道理
正是因为我们没有直接数据,所以我们只能找其它数据间接推导,如果我们掌握的数据与目标关联度很高,那么算法可以很简单,否则无论算法多么的先进,效果也是有一个瓶颈的。
与其花大力气建模,笔者更愿意前瞻性的解决数据源问题,收集更多更有效的数据。
建模其实并不神秘,本质上是让数据产生新的数据。而建模关键是要还原用户的生活场景,找准方向,找到合适的数据关联推导,快速校验迭代收敛。