如何成为一个数据极客？

回复 ( 8 )

何明科管理新人
0
举报回复
理由

举报取消

关于这个问题有好几个相似的：如何成为一个数据极客/数据产品经理/数据科学家。曾经回答过一个关于数据产品经理的（数据产品经理是做什么的？ – 何明科的回答），其实个人觉得数据极客、数据科学家、数据工程师及数据产品经理这几个职位或者称号，在许多智能上是有很多重叠的。只是可能，极客更多使用非常规的手段来获取或者分析数据；科学家在算法及理论方面有更多造诣；工程师更偏重于实现；产品经理更偏重于产品运营、优化及设计。

个人粗暴得将觉得数据极客的职能分为几大模块：数据沉淀、解释、验证、探索及传播。要想成为数据极客就需要在这些方面，或多或少有所建树以及拿出有创意的解决方案。

一、沉淀（或数据获取）

好数据加平庸的分析也往往会做出优质的产出，如同“食材新鲜就不需好厨师”；而烂数据加顶尖的分析也常常garbage in and garbage out，如同“巧妇难为无米之炊”。可见，获取好的数据源并清洗干净，是多么重要。

作为数据极客，当然不能面对老板或者用户的数据需求，摊手耸肩说，“对不起，没有数据源”。作为数据极客要找到有创意的数据源及数据沉淀办法，最后解决问题。正所谓“有数据也要做，没有数据创造数据也要做”。

常规的用爬虫获取数据的方式（你是通过什么渠道获取一般人不知道的知识和信息的？ – 何明科的回答）已经很平庸了，下面提一些更有创意的。

案例1：

为了对这几年中国私募案例（VC+PE投资）中的投资条款进行研究（详见有哪些「神奇」的数据获取方式？ – 何明科的回答），帮助创业者对投资条款有更定量的了解。从各种渠道收集了大几百份Termsheet及SPA（真是求爷爷告奶奶），在脱敏之后，然后将其里面的核心条款结构化整理成可分析的数据。关于如何艰难地求人拿到Termsheet及SPA就不再这里赘述了，因为那种场景很难具象化。只是把一份SPA的缩图放在下面，大家就可以了解将其里面的核心条款结构化是怎么一件难事。到目前为止，NLP在这方面的帮助仍然有限。

最终形成的是这个饱受创业者喜欢的投融资系列：。能够将员工期权与公司估值之间的大致关系搞清楚而画出如下美丽的回归线条，一切努力也是值得的。

案例2：

为了获得某一类人群的画像及了解他们的消费习惯，不能因为我们没有超级App就说不。我们只好走上了通过提供WiFi服务收集用户数据的不归路（详见免费 Wi-Fi 的商业模式是什么？ – 何明科的回答）。

下图是所谓的“数据极客”深入到咖啡厅及蓝领工人宿舍中安装Wi-Fi，以期望采集数据。

除了OpenWRT和普通的客户端开发，连Arduino开发都用上了，以降低采集数据的成本。

案例3：

（以下案例为道听途说，不能完全保证其准确性）

MIT某实验室将声音采集设备放到交易所大厅，通过采集交易员的吼叫声然后做情绪分析，判断当前交易所众交易员的情绪，然后预测股市未来一段时间的走势。

有海外对冲基金动用卫星拍摄照片，根据建筑物的阴影长度，来跟踪某国各地的建筑情况，以此作为该国宏观经济的运行情况。

二、解释

产品每天都要面对的问题会有：流量怎么暴涨（或暴跌）了？新上的渠道效果怎么样？用户的ARPU或者人均PV怎么上升（降低）了？

数据极客，需要基于数据解释产品或功能的某项核心指标（包括收入、DAU、ROI等等）的走势及背后的原因，往往需要细化到多个维度（比如：时间、区域、渠道等）。基于这些解释，做事后总结或者提前预警，试图保证产品及功能在正确的轨道上发展。

下图是某服务的实时PV数据，并有今日数据与昨日数据的对比。数据极客应该学会经常阅读和理解数据并培养对数据的直觉，当数据出现异常的时候，能迅速往下深追找到真正的理由。极客的抬头当然不能白顶，较之一般的数据人员，数据极客应该具有更加敏锐的数据经验和直觉，快速定位问题，并用最快的方式验证自己的假设并给出合理的解释。

三、验证

产品，特别是互联网产品，按照天或者周的速度在更新和迭代，各种功能及改进都在高频率得上上下下。

对新推出的功能或者改进，验证其效果或者影响，使用的方式包括：简单的时间维度或者地理纬度或者渠道纬度的对比，复杂一些的做AB Testing。Facebook在AB Testing方面积累深厚；对于各种UI方案甚至小到文案及颜色，都需要进行AB Testing来选出最优方案。Facebook曾经利用这个系统在某个WiFi段定点发布新功能，来戏弄某杂志，诱骗其发布Facebook有产品的错误消息。（话说开发和运用这套AB Testing的人才是真正的数据极客，）

数据极客，需要在验证的过程中屏蔽各种噪音来排除对真相的干扰。同时，在数据不充分或者无法实现AB Testing的情况下，找到噪音最小的方式来逼近真相。近年来推出了不少专业做AB Testing的工具，包括比较红火的Optimizely。不过它是一个付费服务，具体收费标准见下图。

面对如此的付费服务，数据极客是不是考虑给自己的团队开发一个免费而更加灵活的系统呢？

四、探索

产品经理每天都在琢磨用户需求、刚需、痛点、实现……

通过研究内外部的数据（比如：用户的使用行为数据及搜索词等，百度指数及贴吧发言等等），数据极客探索规律和探索用户的需求，通过数据的方式进行初步验证；或者满足一定的功能，通过数据挖掘的方式满足功能需求。

之前提到的案例（机器学习数据挖掘类工程师平时主要的工作内容是怎样的？ – 何明科的回答）就属于探索一类，虽然整个过程起步不低（Hive + MySQL + Python + R的基础框架），而且过程中不断遇到阻碍，但是数据极客不会被打倒，需要不断提供新的解决方案来还原真相找到答案，如同柯南所说“真相只有一个”。

下图是深圳市早晨高峰时段某类人群出行的热点图，通过热点分析，试图找出这类人群的居住和上班的聚集区，为某个O2O服务提供最佳的线下布点机会。

在算法上，Deep Learning/CV/Machine Learning等等，数据极客不敢说要一一精通，但是最好还是能略小一二到熟练使用各种框架的程度，才能轻松完整上面的各种任务。

五、传播

数据极客如同增长黑客（Growth Hacker），在用户增长方面也要有所创新和作为。

当下最易传播并适合于数据黑客的媒体类型无疑是图文并茂并结合数字的文章（被称之为Infographics）。Infographics凭借其直观易读和理性化的数据呈现方式，越来越受读者的喜欢，并逐渐成为内容制作者青睐的方式。这里有不少精彩的案例（文图

六、数据极客的修炼捷径

在数据方面的修炼，可以分为如下的技术细节（摘抄自中国目前数据分析数据挖掘市场情形是怎样的，机会多吗？前景如何？ – 何明科的回答）。

如今随着大数据的发展，越来越多的工具在涌现，而不用自己从零开发一套。比如：各种说烂了的Hive/Hadoop/MongoDB，日志处理的Splunk，日志分析的ELK三件套 (=elasticsearch+logstash+kibana)，可视化的Tableau及我们研发的文图。（精彩报告在：文图案例）所以熟练掌握各种工具，能在成为数据极客的路上一路飞奔。

—————————————————————————————————————

更多文章及分享请关注我的专栏，数据冰山：
ershou 初入职场
0
举报回复
理由

举报取消

对于数据岗位的员工，互联网公司颇有些不同的称谓，像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等，每一种之间的技能差距简直是风马牛不相及。但我觉得，数据岗位的需求千变万化，真正能通过数据解决问题的人，不仅要通晓两到三种岗位的技能，而且要深刻理解数据方法论，能将数据玩弄于鼓掌之中，这种人我称之为数据极客。好比武侠小说中的绝顶高手，杀人已不需要用剑，剑意就能杀人于无形。数据极客都需要具备哪些能力？懂数据的人会怎么去思考和解决问题？我想举我自身遇到的4个小例子来说明。

懂得创造数据

在大部分人的常识里，数据是客观存在的，既不会递增，也不会消减。所有当他们绘制报表、展开分析、构建模型时，很容易遭遇的瓶颈是没有数据，俗话说，巧妇难为无米之炊。真实的状况却是：数据是无穷无尽的，哪怕有时我们与数据之间的距离很远，就像远在天边的繁星，「手可摘星辰」只是一个传说，但经过大气层的折射我们却能时刻感受到它们的光辉。不仅光会折射，数据同样也会折射。举一个小例子：

实习生Q跑来问我：「Boss赶着要大厅发言的数据去对付投资人，但是后台碍于发言的数据量级太大，一直都没有保存，无论数据库还是日志系统都没有记录。」

我想了一下，问：「客户端进入大厅页面的事件一直都有监控，可以用那个数据替代吗？」

「但是这个数据并不精确，因为进入大厅的并不完全转化为发言。」

「是的，虽然不十分精确，但可以暂时用这个数据近似。然后，好友添加的数据一定程度也能反映大厅发言的热度，因为之前的统计显示，70%的好友关系产生来自于大厅。哦，对了，你有没有关注大厅界面的发送按钮的事件统计？这会是一个更为精确的替代数据。」

这就是一个数据有无到有被创造出来的例子。虽然原始数据没有保存，但是数据极客的任务就是通过其他可能被获取的数据逼近原始数据，从而还原一个较为真实的状况。如果没有数据能够成为一个罢工的借口，那么我相信恐怕90%的数据极客都得失业了。但反过来，如果不是对业务对数据的采集都了如指掌，同样没办法快速实现这种变数据的戏法。

数据是立体的

20世纪初，毕加索兴起了立体主义的绘画潮流，追求以许多组合的碎片形态去描写对象物，并将其置于同一个画面之中，物体的各个角度交错叠放创造出了一个多维的迷人空间。这和理想的数据展示多么相似：客观存在的问题经过多维度的数据解读，被展现在一个二维的平面上，让读者即便只站在一个角度，也能看到这个问题在所有角度上的表现。再举一个小例子（是的，这个例子完全与数据岗位无关，是一个来自客户端工程师的困扰）：

W是U公司负责海外业务的安卓工程师，最近盯的是视频播放的项目，有次闲聊的时候说起，最近做了好几个底层库的性能优化，但从指标上看却没有明显提升，每次向老大汇报的时候总是心虚。

「性能优化的指标是怎么统计的？」

「海外业务的网络状况普遍不好，所以我们最关注的是视频页面的加载时间，统计的是从页面打开到视频完全加载的时间差，取所有用户的均值。」

「这个指标似乎不那么全面，如果一个用户等待的时间过长，他有可能提前关闭页面，是否有统计过关闭页面的数据？还有，看过这个时间差的分布状况么？如果性能优化有针对一些特殊的客户端（比如型号、CPU、内存），有没有看过特殊客户端下的指标有没有提升？」

我默想W的下次汇报一定会大肆耀武扬威一番，嘿嘿。

这就是数据的魔力所在。通过层层剖析，始终能找到与问题相关的有区分度的数据，再通过数据的变化去定位到问题的发生原因或者发展趋势，给出不容置疑的结论。所以，在解决任何问题之前（也不限于数据岗位），你都必须先构建起一套立体化的数据监控体系，来强有力的印证你的方案是有效的。

厌恶抽样

无论是做推荐系统、精准营销还是反欺诈，都会遇到一个现实的问题：如何检测一个模型的实际效果？在观察指标之余，抽取一小部分的标记用户，观察他们的行为模式，人为去验证这个模型的准确率，是一个必要的环节。但是抽样如果用得泛滥了，就不是补药而是毒药了。再举个小例子：

G是团队的新人，有阵子我看他没日没夜的加班，忍不住过问了几句，看是不是最近业务上碰到了什么瓶颈。一问下来有点啼笑皆非：原来G正在负责一个反欺诈模型的建设，需要一些黑标签，他从所有用户中抽取了好几个特征用户群，然后从每个用户群中再抽样一批用户，通过日志观察是否有欺诈行为，这么一来就耗掉了两天的时间。

抽样是一种从局部看整体的方法，在抽样之上，你还要有对整体的把控。比如像G的做法就不符合数据极客的行为指南，既然可以通过日志观察到用户的行为特征，你就应该先把这种行为特征转化为可用的统计指标（比如识别欺诈，完全可以用收益相关的指标），再计算这几个用户群的均值特征，这样对比下来一目了然，而且省时省力。

善用工具

感谢谷歌创造了这个时代最廉价的数据核武器 – Hadoop（当然，如果Spark的bug再少一些，我会考虑把AMPLab放到谷歌的前面），数据的规模对大部分企业而言已经是一个无需顾虑的问题。但是数据极客不会满足于会用工具的层次，理解工具的原理，灵活的使用工具，使工具变得更加顺手，才能真正达到「善」用工具的境界。再举一个小例子：

Z博士刚毕业不久，一腔热血要把高大上的机器学习算法用到我们的推荐系统上，但是第一次的运算结果居然要8个小时才能跑完，远远达不到产品团队的更新要求。于是老大鼓动我去协助Z提升整个环节的效率，我们一起在白板上梳理了整个计算的流程，我发现有好几处都是浪费资源降低效率的做法：原始数据由单机做一次处理再上传到Hadoop、多个MapReduce其实可以合并为一个、甚至Hadoop的参数也可以根据机器的性能稍做调整：加大节点数、加大Map和Reduce环节的可用内存、添加压缩以减少节点间传输的时间。稍作改造，运算时间便只剩下了原来的四分之一。

说到这里，你也许会觉得数据极客也没什么巧妙，他们的方法论，和一切工作的方法论没什么不同，都会要多用脑子、多用工具、多种角度看待问题。既然如此，我可要恭喜你，你已经完全懂得了数据的妙用，而我一直以为，懂点数据，会对人的工作和生活大有助益。

更多精彩内容，欢迎关注微信公众号「极客思享」（codingcoffee）
李宇龙初入职场
0
举报回复
理由

举报取消

唔- -都写得好长

补个蟹腰~

简单、具体一点的说，“自动地”收集”大范围的”“合理的”数据，“根据一定规则自动地”提取或推算“有价值”的信息。

几个引号里面的能做好就离geek不远了
zhen-liang 初入职场
0
举报回复
理由

举报取消

世界上最后一个软件的实现方法

如果你看过核磁共振断层造影技术就知道能把人心脏跳动的实时动画绘制出来，如果配合现在的云计算技术就可以实现整个人体任何动作的实时绘制，如果把手机变成APP的话，等于人的任何经济社会活动的最细小实现过程的人体肌肉活动都能被云计算绘制出来，而从今往后任何商业模型，软件实现界面都只不过是这个软件的压缩表现而已。

这个软件的实现过程是任何时间任何位置的颜色变化过程，也就是年月日分秒，位置，颜色，一个核磁共振那样的3维世界，里面每平方厘米的颜色变化的过程，前面提到的人体心脏跳动的医学扫描图像结果动画就是软件正常的最终运行界面了。典型的数据是2016年2月14日11点20秒的某个位置的颜色，每秒26帧的动画组成的。

而具体实现逻辑自然是这些位置为什么是某种颜色，比如一个玻璃杯子，的位置自然是存在实体的除非被打碎事件发生，玻璃杯子只能发生装液体事件，那么只需要扫描一次，这个杯子所在的平方厘米就会被这个杯子的3D数据占据，这个世界上最后一个软件通过全世界每个平方厘米发生的事情实现对任何事件的追踪记录来产生意义。

如果是前面提到的核磁共振断层造影技术对人体的扫描动画就更加简单了，只需要扫描一次，人体数据就会变成一个实体表示数据，表示这个人在世界各地的活动情况，无论做什么一切肌肉活动过程都能被这个系统精确的计算出来，因为人体数据通常根据数字人数据参考标准是135GB大小，那这个数据处理过程肯定是135G数据在每秒钟26帧的动画计算绘制过程而已。以这个数据计算方法足以计算出全世界一切人的一切活动过程，无论是社会学还是经济学意义上的，配合云计算系统实现就可以了。

什么是大数据，靠大数据赚钱是什么意思，是否有列可举？ – zhen-liang 的回答
昆吾初入职场
0
举报回复
理由

举报取消

谢邀！！！

数据geek嘛，首先要找点好玩的事情，要有意思且能够发挥创意，最重要的是要够酷炫！！！

那么how呢？

前面两位大哥回答得很长很帅也很正式，那我就说些好玩的并且可以马上上手去弄的（PS.无论怎样首先要有一定的理论基础和编程功底哈，否则建议少看知乎先多看书）~

Step 1.具有应用价值。数据挖掘/机器学习领域算法各种各样多得飞起，然而作为Geek的你才不是为了学习或者工作才进行研究的，你是为了酷炫和实现自己的创意。so，你应该找一个现实生活中存在的问题或者现象，然后尝试通过实现一种工具去解决改善它们，然后数据geek嘛，那当然以数据为本。这个才是作为geek的初衷和思路，一股脑买一大堆纯理论的书钻进去既枯燥效率又低关键还不好玩。

Step 2.收集数据。好了，这个时候你已经知道你要做什么应用了。比如说你想做一个分析某社交网站上大家的言论来看看中国人民最近开心不开心会对股票有啥影响的工具，这个时候要做的第一件事情是先把数据搞到手，否则都是扯淡。这个时候第一选择是先查查这个网站是不是提供了数据获取API，如果有且满足你要求的话皆大欢喜；如果没有或者给得很有限，这个时候就需要做一个爬虫工具啦，相关资料自己去找找看，还是十分简单的。

Step 3.存起来。收集到了数据以后当然要存啦，这个时候你可以选择存在文本文件里，当然也可以存在数据库里，无所谓，反正是geek玩玩的项目，你开心就好。

Step 4.分析跑起来。搞到了数据以后首先要清洗一下，把一些乱七八糟的没用的东西给过滤掉。然后就可以跑分析啦。这里要说的是算法啥的除非你对自己有信心或者有兴趣搞搞看，否则的话一些开源的算法已经很有帮助啦，比如一些中文分词工具啦，一些机器学习算法库啦等等，好好研究一下它们的api和适用性其实就已经足够你应付很多工作啦。有朋友会说那要不要用现在看起来很酷炫的spark&hadoop这种东西捏？我的建议是一般情况下是不用的，毕竟你是一个独立geek，规模什么的都有限，单机就很好啦。当然假设你的数据量很大了，你觉得分析速度太慢并且是个土豪有几台计算机在手，那么就撸起来好了（单机部署hadoop&spark要么是在做本地测试或者学习一下这两个东西，否则没有任何意义）。仅仅作为入门跑应用来说spark&hadoop还是十分简单的。

Step 5.Show Time。当你得到计算结果的时候更重要的一步是要把它们展示出来，否则犹如锦衣夜行谁知之者？！所以这年头数据可视化这么重要，有些其实很水的数据结论但是配上高大上的展示效果以后就会看起来牛逼得一塌糊涂，作为geek在这点上绝对不能输。

Step 6.生生不息大循环。数据是持续产生的，你的分析工作也应当如此。比如爬虫之类的东西很容易因为对方页面发生改变而废掉，所以要细心呵护。此外，可以尝试把数据获取作为一个持续过程一直跑在那里，而分析可以选择周期性执行或者同样持续不断进行下去。

祝你玩得开心~
匿名用户管理大师
0
举报回复
理由

举报取消

@ershou 的回答写的很好，尤其是抽样那一点，我也踩过不少抽样的坑。但是后面几个回答感觉都没有答到关键，还有人把什么模型关联分析罗列了一遍。敢情看一遍Jiawei Han的书就变成数据Geek了？

作为 @ershou 答案的补充我就写两个他没有提到的关键点吧。
1. Feature Engineering. 先不说其他的，工业界搞数据跑模型没有大量的Feature Engineering就是找死。这个东西怎么说呢，经验成分很大。一方面是，一定要get your hands dirty扎到数据的泥潭中去搞才能积累起来这种能力。另一方面是，你要对自己的业务有着100%的了解，知道你自己在做什么，知道每个feature代表着什么，为什么你的model能够表现得很好。否则data science就变成玄学了。
2. 理论知识。这一点其实非常非常非常重要，但却被大多数人所忽略。其他答案中有很多人提到，除非你对自己的算法非常有信心否则可以直接使用一些开源工具。这一点我是很赞同的。但是这并不代表这些model背后的理论不重要。举个例子，你连xgboost的参数都认不全，你怎么去优化它。而且，个人经验告诉我，理解model和model背后的理论知识，对feature engineering和调参都是有很大的帮助的。
最后就是，你懂得理论多，再加上实战经验丰富，很容易忽悠到资金，然后你就可以雇一大帮人来帮你写爬虫做报表还有其他的机械型的工作，自己才能真正地深入到数据中去寻找数据背后的规律和价值，这才是一个真正的数据geek该干的事儿。
Sara Suger 初入职场
0
举报回复
理由

举报取消

好多东西要去学习~~
悠品会初入职场
0
举报回复
理由

举报取消

人们将一些对计算机和网络技术有狂热兴趣的人叫极客，我认为，在互联网时代，极客的概念应该延伸为为客户提供极致服务的精神，也就是一种工匠精神，在各行各业中，有这种工匠精神的人，都应该叫极客。