机器 - 12Reads管理问答

如何获得足够多正负样本进行大数据征信？

kevin Hsu 2017-08-26 1276 次浏览

有个问题不太理解，大多数人都在说大数据征信如何提取特征可以提升预测能力，但是实际的业务问题是，在互联网上，没有信用卡的人很多（比如学生），没有在平台上借贷过的人也很多（比如二三线的用户），如何获得足够多带有正负label的样本来进行机器学习呢？如何进行实际业务的冷启动呢？

查看全文

用e1071 package建立非线性SVM模型后，要如何提取分类超平面？

维希 2017-08-26 1002 次浏览

目前需要将一个训练好的非线性SVM模型做可视化。设想中的策略是把分类超平面提取出来，然后投射到已经建立好的PCA score plot上不过我查看了一下文档，似乎e1071和knerlab都没有提供提取超平面的函数。那么如果想提取这个超平面的话，有没有什么手工的方法？

查看全文

如何自动分析一篇文档的主题以及进行情感分析？

木子李 2017-08-25 1359 次浏览

本人的研究方向是自然语言处理，想通过输入一篇文章来判断该文章的主题类别，如何实现？想要用不同类别的文章构造一个语义空间，如何实现？又比如，对于一篇英语作文，能否判断其是否切题？没有思路，希望大神可以指点迷津，谢谢！

查看全文

硕士阶段想学推荐算法，但是老师方向不一致，求指导！？

临风听笛 2017-08-24 1092 次浏览

考研党，目前有两位老师对我有意向，而且都是做目标追踪的。一个是图像视频方面的追踪，一个是雷达传感器方向的追踪。对于我这种想从事数据挖掘，推荐算法的学生，在老师的选择上，大家有什么好的建议吗？我在知乎上面只是大概了解到，做推荐算法的最好是机器学习方向和数据挖掘方向的，而视频的追踪是机器学习下的一个分支。ps:雷达方向的老师是我报考学校的老师，图像方向的老师是我本校带毕设的老师，可以调剂回去。

查看全文

数据预处理中，离散化和降维怎样应用？

Robot 2017-08-24 1392 次浏览

在做信用评分模型数据来源较多，既有连续变量如日均交易额也有分类变量如性别、行业当前比较迷茫，网上关于这方面的资料也比较少。连续变量有没有必要离散化？还是先把连续变量放到一起PCA之后，再进行离散化？或者，先离散化，再进行降维（离散化之后还能用PCA吗？）

查看全文

《利用python进行数据分析》中，”ipython

于家傲 2017-08-24 1414 次浏览

系统：MAC OS X 10.11python：2.7.10用python的Project interpreter 导入了anaconda的包书中使用ipython –pylab模式可以直接用plot（）绘图在pycharm中如何达到同样效果？

查看全文

搞机器学习的人智商一般在什么样的水平？

Robot 2017-08-24 1301 次浏览

求懂行的知友说说这个行当里一般的下限，平均以及上限水平

查看全文

如果只是想【了解和使用机器学习的算法】，那入门的正确姿势是什么？

Robot 2017-08-24 1206 次浏览

自己仅仅是想了解一下机器学习的应用领域，能够使用一些算法完成一些业务，该怎么正确的入门呢？

查看全文

现在一提起大数据，基本就等同于 Hadoop / Spark / Storm 等一系列 JVM 体系下的开源架构；而如果说要用 C/C++ 的话，基本就是还在造轮子的阶段，差距十分悬殊。是不是有一天也会像 Nginx 的诞生一样，在 Apache 如日中天的时候，有一个神秘的 C 高手团队造就了 Nginx 现在的地位。个人的臆想是，在 Linux 文件系统上再用 C 做一个文件管理层（据我了解阿里云和百度已经是这样干的），分布式通信可以借鉴 Thrift 这样的 RPC 框架，shell 层可以考虑使用 C++ / Python等相对敏捷的语言来实现，还有 MySQL、Redis 这样的亲戚可以一并拉入来实现部分文件索引工作。计算 […]

查看全文

机器学习特征选取的boruta算法思路？

豪点点 2017-08-23 1134 次浏览

是比较某个特征shuffle与否，对结果是否影响较大来确定特征的重要性，但是boruta的具体步骤不明白Z score究竟是怎么算的，求教

查看全文

1 … 18 19 20 … 32

找回密码

如何获得足够多正负样本进行大数据征信？

用e1071 package建立非线性SVM模型后，要如何提取分类超平面？

如何自动分析一篇文档的主题以及进行情感分析？

硕士阶段想学推荐算法，但是老师方向不一致，求指导！？

数据预处理中，离散化和降维怎样应用？

《利用python进行数据分析》中，”ipython

搞机器学习的人智商一般在什么样的水平？

如果只是想【了解和使用机器学习的算法】，那入门的正确姿势是什么？

C/C++ 是否存在大数据生态圈，为什么？

机器学习特征选取的boruta算法思路？

帐户注册

登录

找回密码