帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

因某组数据存在缺失项,如何用其他几组数据来替代?

C1至C4是反映某现象的4个指标,每个指标有各自的权重,最终的指数C = Ci * 该指标权重。现在由于C2、C3指标在2013年、2014年数据缺失,因此在计算2013年、2014年的指数C时,准备将C2、C3的权重赋予C1、C4,以此得到妥协的、调整后的2013年、2014年的指数C。至少这样还能勉强得到指数C从2008年—2014年的变化情况。现在的问题是:如何用C1、C4的组合分别表示C2、C3,即如何构造两个回归函数?是回归函数么?。。。这块真的不是很懂,请大家帮忙一看~!函数一:C2 = f(C1,C4)函数二:C3 = f(C1,C4)具体数据和在Excel中绘制的散点图如下,准备用SPSS构造回归函数。P.S. C1 […]

查看全文

如何解决FTRL算法的波动性问题?

Google在2013年提出来Logistic回归的FTRL的online training方法之后,据说很多公司的点击率预测系统都使用了FTRL算法,我们最近也在对FTRL算法做评估,我们发现FTRL在流式的online training的情况下,AUC的波动会比较大,不知道大家有没有遇到过类似的问题?有没有什么好的解决办法呢?

查看全文

长尾数据如何进行回归分析?

用爬虫爬下来了quora上面,climate change主题下一半的问题和回答,以及回答的相关信息,现在想研究回答点赞数受哪些因素(如回答观看量、作者粉丝数、回答发布时间、回答文本长度、图片数量、以及文本特征)的影响,希望建立多元回归模型。然而,因变量和自变量都不是正态分布的,而是长尾分布(看起来是),由于我没有学过计量,想请教各位大大,这个模型应该怎么建,或者就是求合作吧。数据是很棒的,应该能发不错的文章。

查看全文

做回归分析,自变量中有几个的属性都因子,是分类用的,该怎么做回归?用什么方法?怎么做?

原问题描述不清,补充信息: 就是用r语言做回归分析,其中有四个自变量,都是因子,离散属性,比如说研究对硬盘销量的影响,其中硬盘的大小,硬盘的品牌,硬盘的usb接口,硬盘的尺寸大小,这些自变量都是离散的分类属性,如果要拿这些离散的自变量还有店铺的收藏量这种连续的自变量做回归,该怎么做?谢谢大神百忙中抽出时间回复

查看全文

用scikit

请问各位大牛,用scikit-learn构建逻辑回归时(Logistic Regression),怎么查看模型系数的显著性?考虑到如果系数不显著,即使解释度(score)很高,precision和recall表现良好,也是有潜在问题的!

查看全文

回归分析中为何需要对原数据进行中心化及标准化?

在学习岭回归,Lasso等相关文章时,总是上来就对所得数据进行中心化和规范化,即将Y向量减去其平均值,将X矩阵的列向量分别减去平均值并使其方差归一。我想知道这样进行数据处理的具体原因和它之所以合理的理论依据。此外,一个很具体的问题是,当用中心化规范化的数据得到回归系数beta后,对于一个新的x = (x1,x2,…,xp)数据,要对它进行怎样的处理才能和beta向量进行内积,得到y值呢?

查看全文