用爬虫爬下来了quora上面,climate change主题下一半的问题和回答,以及回答的相关信息,现在想研究回答点赞数受哪些因素(如回答观看量、作者粉丝数、回答发布时间、回答文本长度、图片数量、以及文本特征)的影响,希望建立多元回归模型。然而,因变量和自变量都不是正态分布的,而是长尾分布(看起来是),由于我没有学过计量,想请教各位大大,这个模型应该怎么建,或者就是求合作吧。数据是很棒的,应该能发不错的文章。
查看全文同样一组变量,对城市居民具有显著性,对农村居民不具有显著性。如何解释?
如题。同样的自变量,在城市模型中都显著,在农村模型中都不显著。如何理解,如何解释?
查看全文训练Adaboost中的弱分类器时,是否需要加入样本权重weight的影响?
也就是说,我们在使用Adaboost算法时,是不是必须在训练弱分类器时考虑权重?如果是的话,那么SVM应该怎么考虑weight?谢谢!
查看全文处理一个巨大的python data frame,有没有快速的方法实现我想要的这个功能?
现在有一个data frame 大概600W行,3列,假设列名是A,B,C. 现在需要做如下处理,如果存在这样的两行,第一行的A值等于第二行的B值,第一行的B值等于第二行的A值,则将这两行的C值都设置为1,其他的行设置为0,有没有速度快一点的方法来实现?结果类似这样:A B Ca b 1c a 0b a 1python新手求指导哈
查看全文机器学习、数据挖掘有必要拥有坚实的数学基础吗?
之前在知乎看到别人回答说机器学习不想统计那样有严密的数学基础,机器学习预测性很强,但是不容易像统计那样证明,我想在一些对数据很敏感的行业应该还是要求数学基础的,大家怎么看,
查看全文