今天,从网上整理了11道数据分析面试真题,供大家参考学习~
01 统计学部分
1、一副扑克牌一共54张,平均分成2份,求这2份都有2张A的概率。
参考答案
先求分母:
54张牌,分成2份,每份应该27张。
第一步:我们从54张牌取27张,作为第一份,就是第二步:剩下的27张牌取27张,作为第二份,就是
这样分母就有了:把第一步和第二步相乘,就是54张牌,随机平均分成2份的组合数量,因此分母=
再求分子:
一副牌有4张A,50张非A的牌。
为了保证两份都要有2张A,在挑第一份的时候,应该先在4张A里面挑2个A,50张非A的牌里挑25个非A。然后第二份就是在剩下的2个A里挑选2个,25个非A里面挑25张。
第一步:从4张A里挑2张A,50张非A里挑25张,第二步:从2张A里挑2张A,25张非A里挑25张,
分子:
所以概率是:
2、男生录取率增加,女生录取率增加,总体为何减少?
参考答案
此题考查的是辛普森悖论,因为男女的录取率可能有较大差异,同时低录取率群体的占比增大。
如原来男性20人,录取1人;女性100人,录取99人,总录取率100/120。
现在男性100人,录取6人;女性20人,录取20人,总录取率26/120。
即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。”
3、置信度与置信区间是什么意思?
参考答案
置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里。
那么在这里,95%是置信水平,而计算出的范围,就是置信区间。
如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。
4、p值的含义?
参考答案
假设检验的基本原理只有3个:
一个命题只能证伪,不能证明为真
在一次观测中,小概率事件不可能发生
在一次观测中,如果小概率事件发生了,那就是假设命题为假
证明逻辑就是:
我要证明命题为真——证明该命题的否命题为假——在否命题的假设下,观察到小概率事件发生了——否命题被推翻——原命题为真
比如:要证明A是合格的投手——证明“A不是合格投手”这个命题为假——观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05——小概率事件发生,否命题被推翻。
可以看到p越小——这个事件越是小概率事件——否命题越可能被推翻——原命题越可信
5、怎么向小孩子解释正态分布?
参考答案
先拿出小朋友班级的成绩表,每隔2分统计一下人数(因为小学一年级大家成绩很接近),画出钟形。然后说这就是正态分布,大多数的人都集中在中间,只有少数特别好和不够好。
拿出隔壁班的成绩表,让小朋友自己画画看,发现也是这样的现象;然后拿出班级的身高表,发现也是这个样子的。
大部分人之间是没有太大差别的,只有少数人特别好和不够好,这是生活里普遍看到的现象,这就是正态分布。
02 业务思维部分
1、卖玉米如何提高收益?价格提高多少才能获取最大收益?
参考答案
收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销售规模。
提高单位溢价的方法:
品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;
加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉;重定位商品,如礼品化等;
价格歧视,根据价格敏感度对不同用户采用不同定价。
销售量=流量x转化率,上述提高单位溢价的方法可能对流量产生影响,也可能对转化率产生影响。
收益 = 单价x流量x转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等。
2、店铺销售额降低如何分析?
参考答案
先定位问题:运用多维度分析法和七何分析模型定位到异常现象。
拆分维度有:
who:用户(新用户/老用户、渠道、画像等)
when:访问时段
where:产品(产品类型)
然后拆分问题:运用多维度分析法从指标构成拆分。
销售额=浏览量转化率客单价
销售额=GMV-取消订单金额-退货订单金额
假设检验:确定问题源头,分析原因,提出假设再验证,再假设再验证
可以从以下角度提出假设:
内部原因:产品、价格、渠道、促销(4P营销理论)
外部原因:政治、经济、社会、技术(PEST分析)
3、若用户留存率下降如何分析?
参考答案
先定位问题:运用多维度分析法定位到异常现象发生的具体位置和程度。
拆分维度有:新用户/老用户、渠道、画像(用户特征)等,分析不同维度下的用户留存情况、定位到问题人群。
然后假设检验:提出假设再验证,再假设再验证
内部:用户获取及激活(AARRR模型)、产品
外部:PEST,主要考虑竞品影响
4、我们有一款游戏收入下降了,你怎么分析?
参考答案
两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了
指标拆解:收入 = 玩家数量 * 活跃占比 * 付费转化率 * 付费次数 * 客单价进一步细分,如玩家数量 = 老玩家数量 * 活跃度 + 新玩家数量 * 留存率等。然后对各个指标与以往的数据进行对比,发现哪些环节导致收入下降
原因分析:a. 内部:产品变化、促活活动、拉新活动、定价策略、运营策略、服务器故障等b. 外部:用户偏好变化、市场环境变化、舆论环境变化、竞争对手行为、外部渠道变化等
如何提高:基于乘法模型,可以采用上限分析,从前往后依次将指标提升到投入足够精力(假设优先分配人力、经费与渠道)后的上限,然后分析“收入”指标的数值提升。找到数值提升最快的那个阶段,就是我们提高收入的关键任务。
03 数据挖掘部分
1、数据库与数据仓库的区别
参考答案
简单理解下数据仓库是多个数据库以一种方式组织起来,数据库强调范式,尽可能减少冗余;而数据仓库强调查询分析的速度,优化读取操作,主要目的是快速做大量数据的查询。
数据仓库定期写入新数据,但不覆盖原有数据,而是给数据加上时间戳标签;数据库采用行存储,数据仓库一般采用列存储。
数据仓库的特征是面向主题、集成、相对稳定、反映历史变化,存储数历史数据;数据库是面向事务的,存储在线交易数据。
2、什么是聚类分析?
参考答案
聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总。
聚类方法主要有:a. 层次聚类 b. 划分聚类:kmeans c. 密度聚类 d. 网格聚类 e. 模型聚类:高斯混合模型
来 源:成都数据分析
NO.1
往期推荐
Historical articles
Python 数据可视化全方位讲解,建议收藏
整理了10个经典的Pandas数据查询案例
用Python绘制了几张有趣的可视化图表
20个数据分析师必知必会的SQL查询语句
长按👇关注- 关于数据分析与可视化 -设为星标,干货速递
分享、收藏、点赞、在看安排一下?