想要为以后可能要做的事情做下准备,到目前为止做过分析拿到手的还都是经过一串pipeline预处理过的比较干净的数据,想要知道搭建这些pipeline一般需要哪些工具。比如,未经处理的机器生成的文本log一类,要处理成可以进行分析、建模的形式一般需要哪些步骤,哪些工具是比较必要的?
查看全文如何合理搭建大数据分析团队?需要有哪些背景的人?
公司要做大数据分析的团队搭建,作为hr对这个行业一无所知,还请各位牛人指点。一个合理的大数据分析团队应该具备哪些人才,这些人才应该具备哪些基本素质,国内做的比较好的大数据分析公司有哪些?
查看全文怎样把自己量化为一组数据去分析和得出结论?
每个人想自己的情况都会有些模糊,但如果能把自己准确的用形容词或者数据去分析就回相对简单明了。游戏玩过头了,举个例子,例如模拟人生中就可以把自己创造的人按照一定的特征如“容易兴奋的”“工作狂”“野心勃勃的”“室内爱好者”等等,像坐标轴xyz那样把自己定位,然后根据这些特征例如:容易兴奋的,遇到一些小成功或者满足自己一些小事就会很兴奋,得以状态良好,心情值高了做事情会事半功倍,那种比较完整的生活指数体系,是我想得到的能够加于自己身上的衡量值。换做是自己的话该如何得到这些数据,以及如何处理这些数据使自己更加完善呢?
查看全文MDX 查询语句 求助?
例如:一个查询2016年中国地区的总销售量的查询Select {[Measures].[Totle Sales]} on Columns, {[region].[China]} on RowsFrom SalesWhere [Time].[2016]但是我想从中排除掉地区为[region].[Shanghai],第一季度的总销售量,可以用一条MDX语句实现吗?
查看全文如何将hdfs里某一目录下的所有文件的文件名读取出来?
已知在hdfs某目录下(如hdfs://tmp/englishnovels)有上百部英文小说(txt后缀),想把小说的名字都读取出来,实现遍历。请赐教!
查看全文