从零开始学数据分析,到什么程度能找到工作,如何规划学习计划?
excel基础知识(VBA最好;可以做一个数据透视表;熟练筛选、整理、公式),做好PPT。这样很多传统公司的数据专员已经可以做到了。
2.第二阶段(数据专员~数据分析师)
这个阶段要懂SQL,懂业务,加上第一阶段的那些东西。大部分传统公司和小的互联网运营和产品团队就够了。
3.第三阶段(数据分析师)
精通统计学(回归、假设检验、时间序列、简单蒙特卡罗)、可视化、PPT、excel必滑。这些技术足以应对大多数传统的公司业务和互联网业务。
4.第四阶段(分裂)
数据分析师(数据科学家)、BI等。:这部分一般是密集统计,熟悉业务,可以用在机器学习上(参数调整+模型选择+优化)。数据检索、ETL、可视化都是基本姿势。
可视化工程师:这部分在国内比较少见,但其实重点在前端,可以学高图,d3.js,echarts.js,技术发展路线可以独立,不在这四个阶段,在前端转行可能更好。
ETL工程师:顾名思义,ETL工程师。
大数据工程师:熟悉大数据技术,hadoop二代。
数据工程师(部分与数据挖掘工程师重合):机器学习熟练度水平(往往是几个,不用担心不是全部,不同于数据分析师的侧重点,还需要了解组合模型和理论基础),组合模型形成数据产品;计算机基础知识(包括linux知识和软件工程);各种数据库(关系数据库管理系统,NoSQL(4类))
数据挖掘:基本同上。
爬虫工程师:顾名思义,最好熟悉http协议和tcp/ip协议。技术发展路线可以独立,不在这四个阶段。
发现答案有点不着边际,但大致是所有从底层数据工作者发展的基本路径。数据开发的基本学习路径可总结如下:
1.EXCEL,PPT(必须精通)
数据工作者的基本态度,说我技术不太好,但至少会操作;大胆展示自己,与业务部门沟通,展示分析结果。从技术上来说,VBA和数据透视是最重要的。
2.数据库类(必需)
只要一开始懂RDBMS,就看哪个公司用,学哪个。你进公司不是为了学习MySQL。
NoSQL以后可以用统计学或者别的什么来研究。基本的NoSQL血MongoDB和Redis (cache,Neo4j严格意义上的一个数据库),然后(选择)你可以知道各种NoSQL,基于图的数据库Neo4j,基于列的数据库BigTable,基于键值的数据库redis/cassendra,基于集合的数据库MongoDB。
3.统计数据(必填)
想学统计学,重要的概念有描述统计、假设检验、贝叶斯、最大似然法、回归(尤其是广义线性回归)、主成分分析。这些用的比较多。还有时间序列,bootstrap,非参数之类的,看你自己的意愿了。
其他数学知识:线性代数比较常用(它是很多事情背后的基础),微积分不常用,动力系统和傅立叶分析看你想进入的行业。
4.机器学习(要求数据分析师选择、使用和调整)
常用的有几种线性分类器,聚类、回归、随机森林、贝叶斯;稍微了解一下那些不常用的;深度学习要看情况。
5.大数据(选个课程,有公司要求就可以用,不需要搭建环境)
Hadoop基础,包括hdfs、map-reduce、hive等;稍后联系火花和风暴。
6.文本类别(可选,如果公司要求)
这部分我不熟悉。我基本要知道影响,分词,情感分析。
7.工具类别
语言:R、Python等非大数据类最多(相比geek,julia也有用,不差钱和一些公司要求的SAS、Matlab大数据可能也会用到scala和java。