帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

通过信号强度如何归类设备距离?

有这样一个问题,我有20个数据文件,每个数据文件都是从单独设备导出,每个数据文件包含5w条左右的数据,每条数据包括四个类型的数据:时间,自身设备名称,信号强度,对方设备名称。说明:1. 因为信号强度这个值会和设备之间的距离有关系,所以理论上,信号强度越高,设备间距越小。2. 因为信号的扫描有时间要求,也会受其他条件影响,所以可能会出现某些时刻,距离近的设备,信号值可能不是最小。3. 假定20个数据文件的数据中的时间是同步的,没有差异。需求:1. 如何处理这20个数据文件,通过归类,计算得出,在时间轴上,任意时刻哪两个设备之间距离最近?2. 如何处理在20各数据文件,通过归类,计算得出,在时间轴上,制定某个设备,找出与其最近的设备?

查看全文

如何自动提取论文中的作者单位名称?

比如说我有一系列研究者的工作单位信息:作者A:High Performance Network Laboratory, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China 100190作者B:Mohammed V Agdal University, Rabat and High School of Technology, Sale作者C:Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada; University of Indonesia, […]

查看全文

网络爬虫是否侵权?

本人普通学生一名,参与某公司数据抓取任务已有一年半,抓取网站过百,总条数过三千万,也抓取过像百度文库这种大型网站免费资源近千万条,包括文档的下载,所有下载的文件不完全统计超过10TB,毕竟给公司做的,但也考虑过版权问题,这是不是都属于侵权?一般网络爬虫如何才能免于法律问题?

查看全文

机器学习是读统计/数学好,还是读计算机?

感觉机器学习/数据挖掘更多是和数学有关,但是看到一些大牛的背景都是计算机,比如陈天奇,很多大牛教授也基本都是计算机学院而不是数学学院的,所以如果想从事机器学习,是读个数学统计学位好还是计算机学位好呢

查看全文

同样是跑随机森林,为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多?

原数据只是抽出来的一个3万来条的样本,大约60%为0,40%为1。单机用的是R下的randomForest包,准确率能有85%,这个结果还是蛮可靠的。但是同样的数据,放到服务器上用Spark的MLlib跑,准确率只有60%左右,混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了,这是怎么回事呢?

查看全文