帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

如何看待阿里云在Sort Benchmark 2015年排序竞赛上打破记录和其意义?

Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。其中,阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。Sort Benchmark有全球科技公司“计算奥运会”之称,更早之前Hadoop的记录是72分钟。 据介绍,Sort Benchmark的排序竞赛包含4项比赛,其中GraySort和MinuteSort主要评测计算系统的规模和效率,是4项比赛中含金量最高的两项。每一项比赛又分通用目的排序(Daytona)和专用目的排序(Indy)两个类别。阿里云飞天分布式计算系统,在这两项重量级比赛中打破了全部4项世界纪录。 GraySort评测的是超大规模数 […]

查看全文

如何提高机器学习算法的召回率?(尤其在样本集不平衡时)

最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)训练集:4837 documents测试集:2074 documents样本比例:正样本:负样本 = 1:3预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了 […]

查看全文

平均值为什么能反映真实值?或者说测量的平均值是如何反映系统的真实值的?能不能从工学的角度来分析?

对于抛去系统误差的测量系统,对一个真实值的测量值是呈正态分布的,测量次数越多,随机误差越小,平均值越接近于真实值。但是对于系统误差不能消除且无法预测并受环境影响较大的信号系统,其测量值并不是呈正态分布,但我们一般还是会取平均值或者对其中某些条件加权再取平均值以表示其真实值,为什么?

查看全文

数据整理工作如何自我提高和发展?

朋友在一家私企做数据整理工作,现在的主要内容就是用Excel软件处理各类产品的参数、销售数据、做周报、月报、销售报表等。但仅停留在这些内容感觉有点枯燥,将来的晋升空间也比较小,想请问各位知友对这个岗位有何了解?可以通过哪些方式进行深层次的学习和自我提高?职业发展上有什么好的建议?非常感谢!

查看全文

做项目的时候遇到需要大量录入数据怎么办呢?如何将word中大量格式重复的文本转换成表格或者录入数据库?

最近有一个项目,需要把一个文档中的文字录入数据库或者excel中,这些文字的每一行排列大约是这样的:(编号 术语名称 汉语拼音 英文名称 中文释义 中文用法 英文释义)eg:001 鸟 niao bird 一种动物 看 a animal各位大神在做项目的时候遇到需要大量录入数据通常怎么办呢?

查看全文

求教气相色谱工作站怎么进行数据分析?

本人为第三方检测行业入门菜鸟一枚,有机实验室,最近在自学气相色谱操作,但到化学工作站数据分析这一步就不知道怎么进行数据分析,求教具体步骤,平时在实验室学习的机会比较少。分析软件为安捷伦的chemstaton。

查看全文