在生活中有经验

 知乎负面     |      2022-01-18 09:09

       一份优秀的分析报告,最终的统计方法必须简单明了(make it simple),不要喧宾夺主。如果报告的读者需要花80%的精力去理解统计方法,而不是理解分析结论,报告就会失败。

       做好数据分析就像写诗一样,在于思想而不是技术。

       数据分析在于思想而不是技术

       从以上分析可以看出,做好数据分析比较复杂,那么,请总结一下,做好数据分析最基本的过程是什么呢?

       我认为做好数据分析就像写诗一样,在于思想而不是技术。以下是业务研究、创新思维、逻辑推理和可行建议四个关键点。

       业务研究和创新思维决定了分析主题的水平和方案思维的质量;逻辑推理决定了从统计数据中获得的分析报告是否可信;可行的建议决定了分析报告的业务着陆效果。只有做好这四个关键点,我们才能确保数据分析项目的每一步都是有效的,并最终产生业务改进(见图2-10-8和图2-10-9)。

       图2-10-8 典型数据分析项目的5个执行步骤

       图2-10-9 数据分析过程和关键点的作用位置

       要理解大数据的价值,首先要明确大在大数据中意味着什么?数据统计、数据分析和数据挖掘是20世纪存在的学科。为什么这些学科在本世纪戴上大帽,焕发出新的活力?大数据中的大有三个突出的经济价值(见图2)-10-10)。

       图2-10-10 大数据中的三个突出经济价值

       1.价值1:大数据使精细描述成为可能

       精细描述是指用许多特征来描述一种关系。如果收集到的样本数量很少,则不能使用更多的特征来细分样本。由于每个细分网格中的样本数量太少,统计结论令人难以置信,如海淀区西二旗6~10岁0岁的女孩喜欢男性旅游鞋的结论很荒谬,但这种详细描述的方法仍然很有价值。市场细分意味着差异化的需求,其中隐藏着巨大的商机。如果你能得到足够多的样本,你可以支持更详细的结论,而不用担心信心。

       这是大数据的第一个价值:有了大数据,所有的统计模型都变得非常个性化。例如,在医学领域,当医生遇到新病人时,一方面,他们会根据自己的理论知识进行分析,另一方面,他们也会与以前接触过的病例进行比较。如果你以前遇到过与新病人非常相似的病例,治疗计划已经得到证实,医生会给出类似的诊断和治疗计划。但每个医生看到的病例都是有限的。如果找不到完全相同的病例,只能参考一些类似的病例,诊断和治疗计划的效果很可能会降低。这也是为什么老中医比年轻中医更受欢迎,一线城市的知名医院比小城市的医院更受欢迎的原因之一,因为前者经历了更多的病例。大数据的价值类似于收集足够多的病例。对于每个患者来说,可以找到大量的类似病例,因此新患者的病例分析和治疗将更加准确和有效。

       许多互联网企业在业务中使用如此详细的描述模型,如搜索引擎广告点击率估计、电力网站推荐系统等,这些模型将查询或推荐场景描述非常详细,甚至使用成千上万维度的特征来描述规则(如购买书籍和团体购买电影票的年轻女性可能会购买商品)。没有大数据的支持,这种精细的描述几乎是不可能的。没有大数据,我们只能得到女性喜欢A,男性喜好B这样粗略的统计规则。

       大样本使大特征成为可能,大特征使大样本发挥其价值

       大数据改变了统计科学的重点。经典统计学更多地讨论了如何从抽样的个人样本中推断整体数据的统计结论;在大数据时代,讨论的主题是如何找到合适的维度来划分整体数据,以便更好地推断个人行为。

       2.价值2:大数据使智能学习成为可能

       人类基于观测数据探索世界规律,经历了四个阶段(见图2-10-11)。

       图2-10-11 基于观测数据探索法的四个阶段

       (注:阶段3中的图像来自AndrewNg的报告《MachineLearningandAIviaBrainsimulations》第39页)

       (1)阶段1=所有领域的知识(用数学公式表示)用于启发思想和验证假设:科学家根据观察到的现象提出假设(表达规则的数学公式),然后收集实验数据来验证假设。

       典型如牛顿第二定律F=ma,物体的加速度与外力成正比,与物体的质量成正比。在生活中有经验,推动物体,使用力越大,加速越快;物体越重(消除摩擦干扰),加速越慢。我相信你仍然记得中学的物理实验,包括汽车、重量和滑轮。在这个阶段,数据在人类学习过程中主要起着启发科学家设计假设的想法和验证假设的有效性的作用。

       (2)阶段2=大部分领域的知识 统计学习的一小部分:人类清楚地梳理了某一领域的知识,留下一小部分内容给机器基于数据学习。

       典型的自然语言处理(NLP)中的语法解析,首先由人类总结出语法规则,根据语法规则解析某句话,如“he drive down the street in the car这句话可以分析为他开车穿过街道或他穿过车里的街道。这两种方法都符合语法规则。但前者是人类在这种背景下习惯的表达方式,而后者不是。哪个分析结果更符合上下文,可以由机器解决。它通过语料库(大量数据、文献和对话的文本记录)来判断前者的出现(使用