数据分析如何转数据挖掘? 举报 理由 举报 取消 本科通信,毕业后一直从事与数据不太相关的工作。去年6月份转到一家互联网公司做数据分析师,半年来大部分工作是SQL提数,活动效果跟踪,写分析报告等工作,想转数据挖掘,但发现挖掘岗位对专业要求高,一线公司基本需要科班出身。自学过统计学,数据挖掘相关只看过一本《数据挖掘导论》,都是野路子,不得其法。请教大牛们,分析岗位想转挖掘,有无可行方法建议? 2017年5月18日 10 条回复 1595 次浏览 分析,数据,数据挖掘
回复 ( 10 )
看到 @张大万的回答深有感触
跟题主一样也是无统计/计算机背景,也大致了解过各种常用的数据挖掘方法,之前一心想着从数据分析转数据挖掘(腻了单纯统计、算值、分解升降、看KPI升降原因等,觉得能从细微度或者模型的角度去研究数据会更有意思,而且钱多也高大上一些)
但是后来深入了解发现:
1)数据挖掘模型往往就那几种,有些互联网的大公司,实际用的模型也就那么些,数据挖掘【设计层】,如真正高大上的算法设计啊以及把模型自动化、工业化等,往往涉及大量对模型底层的应用,这些也是他们要高学历高相关的人的原因,对我们半路出家的人而言门槛过大
2)如果只是会用一些机器学习模型,了解彼此利弊(举例:了解coursera相关课程,或者各种书,各种比赛),只是【套用模型】层的数据挖掘,它的工作一定程度与数据分析重叠,难点依然集中在清理数据、以及最终结果呈现等等,而模型的评估业界已有规范化的定论(误差等),这个是日常分析工作中也可以用现有数据做练习的。而且日常应用其实也不容易
3)大公司要的数据挖掘,往往偏第一种底层实现。而偏第二种套用模型的岗位,首先岗位比较少也乱,其实模型选择与数据分析套路类似,往往孤军奋战,常常要跟非专业人士(很可能就是你的老板)解释选择这套分析方法的道理,实际数据分析有的难点痛点这种都有……
按照题主背景,做第一类算法设计难度太大,而且面临学历和基础双重歧视,做第二类套用模型的话,感觉数据挖掘和数据分析没什么两差?但是一直往套用模型走的话,总有一天会走到算法那类与人拼基础,
反过来,从带点套用数据挖掘的数据分析从业来看,题主可能可以继续深造的方向有:
1)继续锻炼自己的表达能力与数据可视化能力,写出各种合理合规好看又一针见血的报告,可适当尝试多种方法辅助数据分析,可同时熟悉常用模型
2)继续学一些编程语言如R/PYTHON,或熟悉数据库如HADOOP等,学会更快更自动化做数据处理和生成自动化图表,提高自己工作效率,杠杠的,把处理数据时间省下来了才有余力想想怎么套用各种模型,再往挖掘机这里靠一靠
不过容我吐槽一句,感觉往可视化或者数据处理方向走多了,慢慢的你可能会不满足于现有工具,觉得别人的包不好用,觉得不够满足业务,觉得用EXCEL作图表好傻想要自己建个智能化dashboard想自己建个站,觉得沟通好累想自己独立做事情,代码写太多嫌弃麻烦,
然后你会发现往第一种岗位靠吧,你要补算法,把不满足的东西弄懂吧,建站基础知识,程序测试啊,算法啊,软件工程啊,你似乎都缺,对,就是考研考计算机的大纲的那些,突然这些基础都要补,补科班的漏
所以与其到最后慢慢补基础,题主你要不要考虑在稳住自己数据分析能力(处理数据+评估模型+展示)基础上,业余提前补补计算机基础,向科班学习,说不定还能跨界转行做一个懂数据分析的程序员or数据产品经理之类的,至少路子比数据挖掘更广一些??而且很多数据挖掘的工作其实是码农兼任的?
共勉,同在转型思考期
谢邀,比较赞同【尾巴】的看法,数据分析的就业很广,没必要一定要往数据挖掘上面靠,虽然数据挖掘是顶尖的存在,但是没有扎实的数学基础,学各种高大上的算法就是空中楼阁。
数据挖掘的三大技能树是【数学/统计学知识、算法、编程能力】,三者缺一不可,而其中数学是基础,扎实的数学知识让你能理解并且推导算法,而编程又是实现算法的工具,他们是承上启下的关系。本科毕业转数据挖掘,最大的门槛其实是数学基础,如果你是数学专业的还行,如果不是仅靠自学是很难把这一块基础敦实的,基础的不扎实会深深影响其他,【尾巴】说的基础和学历的双重歧视是存在的,我部门里做数据挖掘的一个是Top5大学的数学专业博士,一个是Top10的数学专业硕士并且拿过省数学建模金奖,想象一个本科的非数学专业置于这样一群人当中…(不过其实兴趣是最好的动力,如果你对数学深深着迷,自学也未尝不可)。
数据分析转数据挖掘,最容易靠自学来补全的其实是编程能力,程序员有很多是靠自学成才的。而数据挖掘在编程这一技能树的枝桠是怎样一个发展呢。
以下是我用爬虫爬取了智联招聘深圳地区608个数据挖掘的岗位描述做的一个词频统计,越大的字体说明提及的职位越多
可见提及最多的是SQL,有194个职位提及,其次是JAVA,有143个职位提及,然后是Hadoop,124个职位,SAS和Python都是100个左右职位提及,SPSS是86,C++和Spark是65左右,Matlab和Scala都是18。
看来楼主已经掌握了数据挖掘最重要的编程技能,如果楼主打算做大数据方向的数据挖掘,建议主攻JAVA和Hadoop/spark。
如果楼主有兴趣多了解一些数据挖掘之外的数据相关职位,可以参考
之前的各答主说的都很好,我给题主另外一个思路:对现有的工作有什么不满之处?是否真的需要转数据挖掘才能达到目的?
直接引用题主的工作描述:
第一项属于数据分析师的必备技能,但并非独有技能;第二、三项表明题主目前做的是运营数据分析,且需要将结果输出成报告。那么,题主你产生职业倦怠的问题,有可能是你认为这些工作没有技术含量,不如数据挖掘看上去那么高深。而我想说,题主你看到的,只是数据分析的冰山一角。
引用我另一篇专栏文章中的内容(建模那点事儿(上) – 一个数据分析师的自我修养 – 知乎专栏):
题主你可以对照一下,看看你目前所做的事情,是否涵盖了以上所有的内容。如果确实涵盖了,并且你仍然觉得没有意思,那么我认为你转数据挖掘的想法是对的。如果你只是因为目前做的是基础性工作,那么我建议你可以考虑向数据分析的更深层次发展。
1.数据挖掘分析师,又称建模分析师,需要深入掌握高级多元统计方法,并且拓展时间序列分析和主要数据挖掘的理论知识与业界运用;能够熟练使用SPSS Modeler、SAS、R、Pyhton等至少一个专业数据挖掘软件实现相关算法;具有按照数据挖掘标准流程进行项目需求分析、数据验证、建模与模型评估的能力。
2.数据挖掘分析最困难的地方不是建模,也不是编程,而是结合业务背景和自己的知识储备,商业感觉提出问题的能力,解决问题的思维习惯。这些都需要多实践练习;
3.参加相关专业进修或者相关培训或者考试也是快速提升的方法之一;
4.Kaggle: The Home of Data Science 比赛项目和数据可供参考练习。
谢邀,那就是学习基础算法与数据结构,学习编程,学习分布式,学习机器学习与数据挖掘算法,做相关项目,看论文,保持学术fellow。
不要尝试,不建议自学数据挖掘!
题主现在可能处于瓶颈期,数据分析找不到突破口,想要找点“高大上”的东西学习下!
以前有一段时间也是觉得数据挖掘高大上啊,好想学,感觉是个铁饭碗,算是一技之长!
现在发现数据分析的变现速度极快,比较贴合业务,在指导决策上效果显著!
而数据挖掘的需求面还是太窄,小公司用不着,大公司要求高,变现周期长,实际应用困难!
编程很累!编程很累!编程很累!
题主可以研究研究数据分析如何做的更加深入吧!把统计学再学一学!希望有所帮助!
完全可行啊,sql是必备的,在做挖掘项目过程中,数据清洗占了很大一部分,清洗的质量决定模型效果,取数锻炼写sql,但仍然不够,数据库数据仓库知识还要学,另外,挖掘导论看完,借助spss modeler,r,sas等工具实践,一步步走,逐步成长。互联网时代都是先开枪再瞄准,动不动考研机器学习深度学习的,没意思,能产生直接价值的方法和途径即是最佳选择。
谢邀。
看楼主背景,有sql经验,统计学知识,以及了解数据挖掘,其实更建议在Data Science努力。
“Data Science = statistics who uses python and lives in San Francisco”,这句话有些戏言,不过也说明Data Science与统计学、python关系很大。
纯在数据挖掘领域去努力,不如努力在Data Science这种交叉学科努力,而且这个方向也要学习数据挖掘,当然也要好好把统计学学会学深。
祝好。
建议先去kaggle做几个入门级的比赛感受一下,学几个简单常用的机器学习模型,LR,决策树,naive bayes这种,自己写代码实现一下。觉得有还兴趣也做得来再想怎么转的事。
你也知道,一线公司要求高,很难进是一回事,侥幸进去了没什么基础很难跟上节奏。
再说了,数据挖掘真的也是个大坑。
数据挖掘是高大上,但是适用性毕竟有限;小而美的数据分析,反而能够让你看清商业世界的本质。
下面,从思路和产生逻辑,说说为什么这是一种必然。
基本思路
经典思路:目前在做数据分析时,采用的是传统的逻辑推理的分析的思路。先提出问题,再通过严谨的逻辑推理进行验证,解释商业问题。
新思路:尝试使用相关性进行数据挖掘分析;就是数据挖掘的一些技术,比如聚类、决策树、随机森林等高级统计模型。这种思路做出的东西,一般而言是技术门槛较高、解决经典思路无法解答的问题,也符合当前流行的大数据思维、人工智能思维。新思路的处理问题逻辑,先有相关性分析,找出导致问题的相关性因素,然后再解释背后的商业逻辑。
适用范围
经典思路:符合人脑的思维模式,由A —>B —> C的逻辑顺序。在解决小而美的独立case时,效率高。当然,实际商业环境中,80%的问题都是小而美的问题,但是出风头的往往是那20%。比如,“为什么今天某个页面的转化率突然升高啦”这类的问题,通过逻辑推理,一步一步下钻,可以很快定位原因。但是对于多因素的问题,交叉影响之下,各有权重,这种思路就有了瓶颈。
新思路:这是AlphaGo下围棋是采用的思路,决策next move是因为next move对最终赢得棋局概率最高。这是一种结果导向的思维,将智能问题变成了数据问题。AlphaGo不需要知道如何布局,只关注每一次的落子都在提高最终胜利的概率。这种思路可以解决目标明确且影响因素众多的决策问题。这个思路现在越来越火主要由于计算力和数据量的提升和增多,机器有了足够的样本进行testing,如同中国式填鸭式教学,看多了,下意识里就知道如何处理了。