如何从传统的基于内存的数据挖掘过渡到分布式、可处理海量数据集的挖掘
查看全文关于数据库的一些疑问,本人小白?
现在公司用的都是什么服务器,用linux多吗,每天数据的增长量为多少,数据是怎么收集的,每天能手机多少数据,数据高峰期是什么时候
查看全文海量数据处理实际操作方法?
有T以上容量的数据表,excel、txt、sql、csv等数据类型的数据表,用什么工具或者数据库或者编程思想可以解决,在这些数据中提取特定字段并保存的工作
查看全文如何运用Excel将一行完整的地址自动分成国家城市、地区/街道和门牌号三行来写?
Excel小白求助大神:现有上千个中文地址,需要将每一个地址按标准分为三行,第一行是“邮编 国家 城市”,第二行是“地区 街道”,第三行是“几楼几座几号”。举个例子,手里有一个地址“北京市朝阳区建国路112号中国惠普大厦12楼1号邮编100060”,那么分栏后的情况就是:第一栏:100060 中国北京市朝阳区第二栏:建国路112号第三栏:中国惠普大厦12楼1号目前本人就是将同一城市同一地区的地址筛选出来快速复制粘贴可以搞定第一栏,可是第二栏和第三栏就是手动操作。两天也才做好了500个地址的reformat….路漫漫其修远矣,故求问大神有没有更快捷有效的方法?感激不尽。
查看全文哪里有流处理系统的数据?
最近正在学习Strom和Spark Streaming,不知道哪里能提供有效的测试数据呢?就像图计算有wikipedia和dblp,流数据有哪些呢?
查看全文hbase存储图片是直接存在hbase里面好还是存在hdfs里面用sequencefile好? ?
图片每张大概600KB,一共有1tb左右,现在用hbase存储,直接塞进列里面还是用sequencefile存到hdfs里面.图片一般都是成组的读和写,很少随机读写。但是每次要读出的图片数量较多,因为要在这一组图片上做图像分析算法实验。
查看全文如何保存交易所行情数据科学?
主要是希望可以高效的保存和读取历史数据行情。是否有不错的方法呢?如果放在文件里,数据量是几百万条的规模。
查看全文