帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

如何获得足够多正负样本进行大数据征信?

有个问题不太理解,大多数人都在说大数据征信如何提取特征可以提升预测能力,但是实际的业务问题是,在互联网上,没有信用卡的人很多(比如学生),没有在平台上借贷过的人也很多(比如二三线的用户),如何获得足够多带有正负label的样本来进行机器学习呢?如何进行实际业务的冷启动呢?

查看全文

如何自动分析一篇文档的主题以及进行情感分析?

本人的研究方向是自然语言处理,想通过输入一篇文章来判断该文章的主题类别,如何实现?想要用不同类别的文章构造一个语义空间,如何实现?又比如,对于一篇英语作文,能否判断其是否切题?没有思路,希望大神可以指点迷津,谢谢!

查看全文

硕士阶段想学推荐算法,但是老师方向不一致,求指导!?

考研党,目前有两位老师对我有意向,而且都是做目标追踪的。一个是图像视频方面的追踪,一个是雷达传感器方向的追踪。对于我这种想从事数据挖掘,推荐算法的学生,在老师的选择上,大家有什么好的建议吗?我在知乎上面只是大概了解到,做推荐算法的最好是机器学习方向和数据挖掘方向的,而视频的追踪是机器学习下的一个分支。ps:雷达方向的老师是我报考学校的老师,图像方向的老师是我本校带毕设的老师,可以调剂回去。

查看全文

数据预处理中,离散化和降维怎样应用?

在做信用评分模型数据来源较多,既有连续变量如日均交易额也有分类变量如性别、行业当前比较迷茫,网上关于这方面的资料也比较少。连续变量有没有必要离散化?还是先把连续变量放到一起PCA之后,再进行离散化?或者,先离散化,再进行降维(离散化之后还能用PCA吗?)

查看全文

C/C++ 是否存在大数据生态圈,为什么?

现在一提起大数据,基本就等同于 Hadoop / Spark / Storm 等一系列 JVM 体系下的开源架构;而如果说要用 C/C++ 的话,基本就是还在造轮子的阶段,差距十分悬殊。是不是有一天也会像 Nginx 的诞生一样,在 Apache 如日中天的时候,有一个神秘的 C 高手团队造就了 Nginx 现在的地位。个人的臆想是,在 Linux 文件系统上再用 C 做一个文件管理层(据我了解阿里云和百度已经是这样干的),分布式通信可以借鉴 Thrift 这样的 RPC 框架,shell 层可以考虑使用 C++ / Python等相对敏捷的语言来实现,还有 MySQL、Redis 这样的亲戚可以一并拉入来实现部分文件索引工作。计算 […]

查看全文