有个问题不太理解,大多数人都在说大数据征信如何提取特征可以提升预测能力,但是实际的业务问题是,在互联网上,没有信用卡的人很多(比如学生),没有在平台上借贷过的人也很多(比如二三线的用户),如何获得足够多带有正负label的样本来进行机器学习呢?如何进行实际业务的冷启动呢?
查看全文用e1071 package建立非线性SVM模型后,要如何提取分类超平面?
目前需要将一个训练好的非线性SVM模型做可视化。设想中的策略是把分类超平面提取出来,然后投射到已经建立好的PCA score plot上 不过我查看了一下文档,似乎e1071和knerlab都没有提供提取超平面的函数。那么如果想提取这个超平面的话,有没有什么手工的方法?
查看全文如何自动分析一篇文档的主题以及进行情感分析?
本人的研究方向是自然语言处理,想通过输入一篇文章来判断该文章的主题类别,如何实现?想要用不同类别的文章构造一个语义空间,如何实现?又比如,对于一篇英语作文,能否判断其是否切题?没有思路,希望大神可以指点迷津,谢谢!
查看全文硕士阶段想学推荐算法,但是老师方向不一致,求指导!?
考研党,目前有两位老师对我有意向,而且都是做目标追踪的。一个是图像视频方面的追踪,一个是雷达传感器方向的追踪。对于我这种想从事数据挖掘,推荐算法的学生,在老师的选择上,大家有什么好的建议吗?我在知乎上面只是大概了解到,做推荐算法的最好是机器学习方向和数据挖掘方向的,而视频的追踪是机器学习下的一个分支。ps:雷达方向的老师是我报考学校的老师,图像方向的老师是我本校带毕设的老师,可以调剂回去。
查看全文数据预处理中,离散化和降维怎样应用?
在做信用评分模型数据来源较多,既有连续变量如日均交易额也有分类变量如性别、行业当前比较迷茫,网上关于这方面的资料也比较少。连续变量有没有必要离散化?还是先把连续变量放到一起PCA之后,再进行离散化?或者,先离散化,再进行降维(离散化之后还能用PCA吗?)
查看全文《利用python进行数据分析》中,”ipython
系统:MAC OS X 10.11python:2.7.10用python的Project interpreter 导入了anaconda的包书中使用ipython –pylab模式可以直接用plot()绘图在pycharm中如何达到同样效果?
查看全文如果只是想【了解和使用机器学习的算法】,那入门的正确姿势是什么?
自己仅仅是想了解一下机器学习的应用领域,能够使用一些算法完成一些业务,该怎么正确的入门呢?
查看全文C/C++ 是否存在大数据生态圈,为什么?
现在一提起大数据,基本就等同于 Hadoop / Spark / Storm 等一系列 JVM 体系下的开源架构;而如果说要用 C/C++ 的话,基本就是还在造轮子的阶段,差距十分悬殊。是不是有一天也会像 Nginx 的诞生一样,在 Apache 如日中天的时候,有一个神秘的 C 高手团队造就了 Nginx 现在的地位。个人的臆想是,在 Linux 文件系统上再用 C 做一个文件管理层(据我了解阿里云和百度已经是这样干的),分布式通信可以借鉴 Thrift 这样的 RPC 框架,shell 层可以考虑使用 C++ / Python等相对敏捷的语言来实现,还有 MySQL、Redis 这样的亲戚可以一并拉入来实现部分文件索引工作。计算 […]
查看全文机器学习特征选取的boruta算法思路?
是比较某个特征shuffle与否,对结果是否影响较大来确定特征的重要性,但是boruta的具体步骤不明白Z score究竟是怎么算的,求教
查看全文