想要为以后可能要做的事情做下准备,到目前为止做过分析拿到手的还都是经过一串pipeline预处理过的比较干净的数据,想要知道搭建这些pipeline一般需要哪些工具。比如,未经处理的机器生成的文本log一类,要处理成可以进行分析、建模的形式一般需要哪些步骤,哪些工具是比较必要的?
查看全文文本处理同义词替换中的多义词问题?
想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!
查看全文hadoop,spark在虚拟机集群里跑还有性能上的优势吗?
如题,系统搭建在公司的虚拟机集群上,这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘,我感觉用多线程,多进程的老方法,直接在服务器上跑,省去那些集群间的调度和网络io,是不是会更快一些?小白不懂,求大侠相助
查看全文请问预测短期的交通流量一般输入样本是什么样的?
小弟想利用PeMS系统中的数据进行交通流量预测,但不懂的如何处理前期的交通流量数据,请各位大神指点一二!
查看全文点击率预估问题中如何去验证数据的分布是不是在变化的?
现在样本数据流是按时间顺序存储的,我如果想分析训练数据是不是在变化(即存在概念漂移的),除了直接用在线学习的方式上线看效果外,有没有其它的指标可以看出来?
查看全文马上就要选专业了,计算机科学与技术和软件工程哪个好?
我是计算机大类的大一学生,未来会有计算机科学与技术和软件工程两个专业可选,我以后想往大数据和数据挖掘方面发展,希望大家給我一些意见。谢谢!
查看全文如何优雅地找到一个学校或公司的所有名称?
有些学校或者公司,会不止有一个名称或缩写,例如University of Science and Technology of China, USTC;Beihang university, BUAA; 再比如UC Berkeley, University of California,Berkeley, Berkeley, UCB;像一些研究所Agency for Science, A*STAR;怎么才能优雅的找到一个给定机构的所有合理名称呢?
查看全文