大家好,我叫Peter,一名爱好美食的数据分析师,公众号【尤而小屋】的主人,一直在等你的到来喔😊
18年毕业后自学Python和数据相关的很多内容,转行了数据分析,算是踏入了互联网这个大环境。当然现在也还在继续学习的路上。
如果你想转行数据分析师,你该学习什么,又该怎么学?一张思维导图告诉你:
下面我将自己使用过或者正在使用的资料以及一丢丢经验分享给大家,希望对大家有所帮助,也欢迎一起交流:
技能方面:Python、SQL、Excel、Hive
机器学习算法:常见的机器学习算法,比如:K-近邻、决策树、随机森林、K-means聚类、PCA、支持向量机等
数据可视化:数据的表现形式优先级:图形 > 表格 > 文字,可视化图形尤其是动态的可视化图形能够更好的展现数据结果
数据模型与分析方法:RFM模型、海盗模型、漏斗模型、杜邦分析模型等
统计知识:数据分析是避不开统计的,比如各种数据分布、假设检验、中心极限定理等,重点需要掌握的一个点:A/B test
数据运营工具:学习流行的数据分析开源工具,例如:神策、百度统计、Growing IO等
软技能:PPT制作、文档输出、思维导图工具,比如:xmind、draw.io、百度脑图、mindmaster等,甚至Axure等产品工具也需要掌握
首先,作为一名数据分析师需要掌握的技能:Python、SQL、Excel、Hive。
MySQL/SQL
工作中正常的公司都有自己的数据库,必须掌握从业务库中快速获取数据的能力。目前大部分的公司是MySQL和Hive,需要重点掌握它们二者的语法。
资料1:自己在网易云看过的MySQL入门视频:《MySQL入门到精通系列》,真的非常适合小白入门,从MySQL安装,到4种语言,到查询语句等,老师讲解的非常详细。
推荐指数:✨✨✨✨✨
视频地址:https://study.163.com/course/courseMain.htm?courseId=1005092013
资料2:视频入门还是挺快的,但经典书籍你也不能错过:《SQL必知必会》,这绝对是你入门SQL不能错过的书籍。
Peter自己看过2遍,写过一篇总结,欢迎阅读:SQL必知必会,万字精华总结
推荐指数:✨✨✨✨✨
资料3:入门了SQL,想提升一下,网上也有很多的资料,但是强烈推荐Peter整理的一份练习题:《MySQL经典50题》。主要是通过4张表来关联练习的。Believe Me,如果坚持做完50题,你的SQL能力会有质的飞跃。
获取方式关注公众号【尤而小屋】,发送MySQL50,Peter会将经典50题的pdf发送给你。
推荐指数:✨✨✨✨✨
Hive
目前很多公司的数据已经从业务库迁移到了Hive中,所以有些时候我们也可以直接通过hive在ods层进行数据的查询
资料4:B站上面尚硅谷的Hive教程,资料地址:https://www.bilibili.com/video/BV1W4411B7cN?from=search&seid=14258581886020041832
推荐指数:✨✨✨✨
当然还是更推荐官网,毕竟权威,英语不会也要多啃:https://cwiki.apache.org/confluence/display/Hive/LanguageManual
Python
Python真的过于强大:从后端开发、爬虫、数据分析、机器学习、深度学习、测试、金融量化投资、网络安全等不同的领域都有着广泛应用,如果真的是小白,如何入门呢?
资料5:首先在B站上面找一套视频,从安装Python环境开始跟着学习。将一整套视频看下来,自己跟着敲,对这门语言有一个整体的概念,推荐一份的视频:https://www.bilibili.com/video/BV1wD4y1o7AS?from=search&seid=6129245389392217030。网上视频也很多,视频最好坚持一套看完。
推荐指数:✨✨✨✨
资料6:看视频入门快,但是看书系统地学习也是必经之路,尤其是Python有很多的经典书籍:《Python编程.从入门到实战》,传说中的蟒蛇书
推荐指数:✨✨✨✨✨
资料7:还有另外一本Python的动物书,也是经典之作,自己也在慢慢吸收中:《流畅的Python》,传说中的蜥蜴书
推荐指数:✨✨✨✨✨
看完一套视频,加上经典书籍,相信入门Python是不成问题的,慢慢啃呗!Excel不介绍,网上资料数不胜数,相信你自己的百度能力!
吴恩达老师
如果你在步入机器学习的路上,吴恩达老师的大名你肯定听过,绝对的大牛。介绍一门他的机器学习入门视频,同样是来自网易云课堂:
资料8:《吴恩达机器学习》视频,视频地址:https://study.163.com/course/courseMain.htm?courseId=1004570029
推荐指数:✨✨✨✨✨
下面是Peter曾经整理的章节内容,供参考学习;
李航博士
现在很多的公司,特别是大厂,如果是数据分析师都要求一些常见的机器学习算法和建模的知识,当然是在你已经入门Python的基础上,最好使用Python做机器学习。下面👇推荐几本入门机器学习的经典书籍,很多大厂的机器学习算法面试题都是出自书中。
资料9:李航老师的《统计学习方法》,目前已经是第二版,超级经典的一本书。讲了很多机器学习的经典算法,从监督学习到无监督学习,推荐一份GitHub上的学习资料,包含代码、学习文档:https://github.com/fengdu78/lihang-code
推荐指数:✨✨✨✨✨
周志华老师
如果李航老师的书太过于理论,那么看南京大学周志华老师的《机器学习》,各种案例讲解机器学习算法的实战,因为整本书都是以西瓜作为例子,那么一起来吃瓜吧:
资料10:周志华老师《机器学习》西瓜书🍉,配套笔记学习更省力:https://github.com/Sophia-11/Machine-Learning-Notes
推荐指数:✨✨✨✨✨
不管是李航老师的《统计学习方法》,还是周志华老师的西瓜书,都涉及到了很多的公式,那么由Datawhale,一个开源组织的成员,整理的南瓜书绝对是你的好帮手:
资料11:西瓜书的配套参考机器学习公式详解,南瓜书地址:https://github.com/datawhalechina/pumpkin-book
Python数据库
Python之所以强大,就是因为它有很多第三方的库。在机器学习和数据分析方向最为出名的就是numpy和pandas。
numpy主要是进行数值和矩阵运算:
资料12:numpy中文官网:https://www.numpy.org.cn/;英文好的话,啃这里:https://numpy.org/devdocs/user/absolute_beginners.html
推荐指数:✨✨✨✨✨
菜鸟教程中关于numpy也还不错的:https://www.runoob.com/numpy/numpy-tutorial.html
推荐指数:✨✨✨✨
pandas主要是用于数据处理和数据分析:
资料13:官网学习地址:https://pandas.pydata.org/docs/reference/index.html;中文官网地址:https://www.pypandas.cn/
推荐指数:✨✨✨✨✨
当然,还是希望你跟着Peter的教程来入门和进阶,详细的代码+丰富的案例,图解形式。目前入门教程13篇已经完成,公众号回复:pandas,即可进群领取学习资料。
资料14:Peter的《Pandas入门教程V1.0》,非常适合入门
推荐指数:✨✨✨✨✨
机器学习部分介绍完毕。如果你真的能够啃下来,你已经可以往数据挖掘工程师,甚至是机器学习方向发展。但是数据分析师也要熟悉常见的算法,真的就慢慢啃吧!太卷了!
俗话说的好:一图胜千言。当我们在展示数据的时候,图优于表格,表格优于文字。所以你必须一定的数据可视化表达能力。
Python有很多的可视化库,比如传统且强大的静态库:matplotlib,seaborn等,pandas本身也是支持画一些简单的图形。如果你想学习动态的可视化图形,强烈推荐Peter的plotly教程,一个高级的可视化神器。目前已经完成12篇常见图形的制作。
资料15:Peter的Plotly可视化图形制作专栏。Plotly的文章会坚持下去,以后还会有高级使用方法Dash,计划将来会出一本基于Plotly绘图的Python可视化书籍,敬请期待!
推荐指数:✨✨✨✨✨
资料16:另外还推荐一个国产的可视化神器:pyecharts,基于Python+echarts的组合,也是非常厉害,支持国产,中文官网地址:https://gallery.pyecharts.org/#/README
推荐指数:✨✨✨✨✨
数据总是离不开统计的,所以必须掌握常见的统计知识。推荐一个视频和一本书:
资料17:可汗学院的《统计学》公开课,地址:http://open.163.com/newview/movie/courseintro?newurl=/special/Khan/khstatistics.html
推荐指数:✨✨✨✨
B站上面也可以观看:https://www.bilibili.com/video/BV1i4411e7sT/
这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。
资料18:一本书是《统计学》,魏宗舒,施锡铨等作者翻译的
在这个知乎中问答中提到了很多的经典统计书籍,可以参考:https://zhuanlan.zhihu.com/p/350278749
推荐指数:✨✨✨✨
学完统计的基本知识,重点需要掌握一个知识点,也是很多大厂在面试的时候喜欢提问的一个知识点:A/B test。
“A/B测试不一定是最好的评估方法。它不是万能的,但不会A/B测试肯定是不行的。”
—— 字节跳动副总裁杨震原
资料19:推荐2篇文章来进行学习
1、A/B Testing:https://www.optimizely.com/optimization-glossary/ab-testing/
2、没有最好,只有A/B测试:https://mp.weixin.qq.com/s/PatFgf7c8QSi0MIAhFuY5A
推荐指数:✨✨✨✨✨
在数据分析的过程中,我们会接触到很多的数据模型和分析方法:
资料20:多种数据分析的模型和分析方法
SWOT分析
PEST分析
留存分析
群组Corhort分析
海盗模型AARRR
马斯洛需求模型
RFM模型
漏斗转化模型
5W3H模型
用户金字塔模型…...
上面👆的模型和分析不展开讨论,可以查询资料学习。重点解释下海盗模型:
AARRR是Acquisition、Activation、Retention、Revenue、Refer,这个五个单词的缩写,分别对应这一款移动应用生命周期中的5个重要环节,即获取用户、提高活跃度、提高留存率、获取收入、病毒式传播。
现在很多公司数据的部门会和运营岗位打交道,数据分析师或者数据产品岗位经常会接触到埋点等任务,需要熟悉使用常见的数据运营工具:
资料21:神策、百度统计、Growing IO
其实当我们接触到数据的时候,更多的是和用户在间接打交道,数据几乎都是用户产生的。
资料22:下面推荐三本书,主要讲解的是数据如何指导用户运营
第一本《增长黑客》,增长黑客之父肖恩的杰作
推荐指数:✨✨✨✨✨
第二本:《硅谷.增长黑客实战笔记》,作者是肖恩的徒弟曲卉
推荐指数:✨✨✨✨
第三本:《运营之光》,黄有璨老师的运营实战经验总结:
推荐指数:✨✨✨✨
软技能包含很多方面,从PPT制作、文字产出、思维导图工具使用等,都需要我们长期积累和锻炼:
如何制作PPT,撰写文案?
如何输出一份合格的数据分析报告?
如何通过思维导图工具来记录知识点等…...
下面推荐两个自己经常使用的思维导图工具:
资料23:Xmind+Lighten(Xmind子产品,仅支持ios系统),比如文章开头的思维导图就是用Lighten绘制的;另一个是draw.io,一个在线也可以在本地绘图的工具,支持各种图形,十分强大,比如曾经绘制的数仓分层图形:
地址:https://app.diagrams.net/#
推荐指数:✨✨✨✨✨
如今的互联网发展太快,很卷!需要学习的东西真的很多,从SQL、Python等的硬技能,到PPT、思维导图等软技能的掌握,都是我们需要学习和提升的点,希望本文对想转行数据分析或者正在转行数据的你有些帮助,欢迎一起交流学习。最后在推荐一本经典书籍:
资料24:《精益数据分析》,如何将数据分析运用在商业中。
推荐指数:✨✨✨✨✨
推荐阅读
生日快乐:尤而小屋两周岁啦
55个案例:吃透Python字符串格式化
图解Pandas重复值处理
Python入门-字符串初相识
图解Pandas的缺失值处理