例如如下数据id name age1 abc 202 bcd 213 abc 224 cde 195 abc 18删除name字段重复的数据,只留下一个,删减后的结果如下id name age1 abc 202 bcd 214 cde 19请问有没有什么办法能够实现,之前网上找的对于小数据库还行,大一些的数据库(GB级别以上的),就没法处理了
查看全文在哪里能找到关于跑步类的大数据?
一些有关跑步的网站只有对个人导入的数据的分析,有没有大数据分析的网站可以找到如跑步者年龄、跑步时间、距离、速度、地点之类的大数据?
查看全文二叔想考大学,以后造无人机和机器人,要报什么专业啊?
二叔是大学生,还上过党校,现在响应总理号召,要搞大众创新,做机器人、无人机、大数据。打算再读一个成人本科,求大能指点,要学哪个专业啊?
查看全文大数据平台开发人员的核心竞争力是什么?
做大数据平台开发一般对算法要求不高,但是这些大的框架,每一个都像大的黑盒子,如:spark、hadoop、hive、kafka。我最近在研究kafka,但是仅仅是在会用,会选型的阶段。我觉得只要英语ok,完全没什么门槛。想问的问题是:如果想在这个方向上走得更远,应该怎么做,我觉得把源码都撸一遍好像非常不现实,刚入行半年,我scala也不熟悉,有点迷茫,想问问3-5年的从业人员你们怎么做的?
查看全文世界是在向人工智能方向发展吗?
1,我最近在学习机器学习,我的习惯是理清思路再学习。之前学习后台开发,也曾对大数据和云计算进行归纳。2,我发现机器学习更多的是为了数据挖掘提供算法模型,面向算法模型的。而数据挖掘更多的是面向应用,比如推荐系统,反垃圾系统。数据分析更注重软件的使用,比如R,SPSS,面向工具。3,那么我的问题就来了,这数据分析,数据挖掘,机器学习,大数据,云计算,它们的上一级是什么?是IT行业吗?4,后来我粗略的搜索下,我发现它们上一级更应该是“人工智能”,它们都只是人工智能的分支,人工智能的分支很多,还有自然语言处理,视觉处理,机器人学等等。5,这些分支并没有严格的界定,它们甚至是相互结合的,我这里只是为了理清思路将它们分离出来。6,那么说,各行各 […]
查看全文数据集构造都有哪些节省人力成本的tricks?
最近在做一些机器学习相关的task,但是数据集太难构造了(文本的,主要是人工标注太辛苦,自己标了大概有1000多条文本),因此在数据集构造上有点随意,导致数据集噪声偏大,交叉验证的结果和测试集上的表现完全不一样,但是1w多条都要自己标的话会很辛苦。因此在此想问下大家遇到这个问题都是怎么做的?
查看全文