作者:中联科创特约嘉宾尹智
现在数据方面普遍最大的痛点或者需求是什么? 我说,是数据关联性不够,数据视图维度不够全面。
早几年说大数据,说特征有4个V,数据种类,数据量,数据处理速度,和价值密度。其实还应该有个特征,就是维度要全面,数据量代表了数据描述的现实的深度,数据维度则代表了广度。没有广度,就可能变成瞎子摸象,没有深度,描述就会模糊不清。摸象的瞎子里为什么有的描述大象是墙?有的描述大象是蛇,有的描述是扇子?就他们所掌握的数据来看,都是真实的,详细的,采样量在各自的方面都是够的,但是不够全面,也就是缺乏了维度。再打个比方,一个公司推出了一项新产品,出货量,行业,地域,客户群销量,市场份额,渗透率各个方面看都不错,从这些维度看,这总是个市场喜欢的实力产品吧,但如果加入一个维度,看摊在这个产品上的渠道营销费用,也许就会有一个不同的结论:这款产品其实没那么有竞争力,就是靠补贴堆出来的。数理统计里有一个有名的辛普森悖论,简单说就是把分组数据统计简单相加相加得到的汇总统计,逻辑上得到的结论,却与真实情况不符,也可以用增加数据维度来避免。
这样带来的的后果,就不仅只是数据推论不准确的问题,甚至会被别有用心的人去误导思维了。由于打着数据说话的旗号,这种误导反而更可怕。数据本身是客观的,如何解释数据,却可以是非常主观的。由于故意隐藏一些数据维度,而把因果颠倒的例子,比比皆是,比如我们完全可以用数据佐证"吸大麻的人神经衰弱比例高",从而自然推导出"吸入大麻容易造成神经衰弱",但我们也完全可以从另一个维度用数据支持 "有神经衰弱的人,倾向于抽点大麻缓解失眠之类的问题",这么一看,大麻就不是神经衰弱的因,而是果了。
这给营销人带来的困扰,就是数据营销的不精准性,甚至是错误性。很多人喜欢讲,我的营销是有数据支持的,至少比没有数据支持的营销,更精确吧。如果你的数据缺乏维度,那可不一定哦。比如用数据看,一个人经常去健身房,经常浏览一些有机食物,也会买一些家庭健身器具,如果依靠这些数据,就想推一些健身私教的课程给他,如果这个人的职业就是健身教练呢?他会觉得这个营销根本不专业,甚至会有反感。
早期的大数据理念,提倡通过大规模全采样的方式避免采样点特征过于单一从而造成以偏盖全。但在某些情形下,如果维度考虑的不够,数据量采集再大,也还是会有犯井底之蛙之错的可能性,不过是看到的天有多清楚的区别。那在数用数据的时候,多少维度算是足够了呢, 总不能把所有相关的维度都凑齐了填实了再用吧?如何选择维度?维度和维度之间应该是什么关系? 下一篇里接着再讨论 —— 仅代表尹智个人观点 Ken's personal view only