帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

机器学习中的数据预处理有哪些常见/重要的工具?

想要为以后可能要做的事情做下准备,到目前为止做过分析拿到手的还都是经过一串pipeline预处理过的比较干净的数据,想要知道搭建这些pipeline一般需要哪些工具。比如,未经处理的机器生成的文本log一类,要处理成可以进行分析、建模的形式一般需要哪些步骤,哪些工具是比较必要的?

查看全文

文本处理同义词替换中的多义词问题?

想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!

查看全文

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

如题,系统搭建在公司的虚拟机集群上,这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘,我感觉用多线程,多进程的老方法,直接在服务器上跑,省去那些集群间的调度和网络io,是不是会更快一些?小白不懂,求大侠相助

查看全文

如何优雅地找到一个学校或公司的所有名称?

有些学校或者公司,会不止有一个名称或缩写,例如University of Science and Technology of China, USTC;Beihang university, BUAA; 再比如UC Berkeley, University of California,Berkeley, Berkeley, UCB;像一些研究所Agency for Science, A*STAR;怎么才能优雅的找到一个给定机构的所有合理名称呢?

查看全文