帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

python中文预处理?

NLP刚入门,想利用一些文本文件和python工具做一些文本分类的问题。查资料查到利用中文和英文的预处理有很多不同:中文处理具体是怎样的呢?(1)分词:jieba分词 or nlpir?(2)停用词:去停用词使用正则表达式?网上的停用词表是包括标点的,标点符号是否就不用再处理了?(3)上两步的顺序,先分词再停用词,还是先去停词再分词(4)词性标注有什么用?用于后续处理吗?(5)还有什么其他处理操作? (6)后续分类使用gensim、scikit-learn、nltk?刚入门,问题比较小白。。

查看全文

如何利用大数据帮助招聘?

互联网时代,每个人都在网络上留下了大量的数据,其中包含着他的生活轨迹、社交言行等个人信息,那么能否依靠对这些数据的分析,从个人的网上行为中剥离出他的兴趣图谱、性格画像、能力评估,帮助企业更高效的实现人岗匹配呢?用户特征的分析,实现人岗匹配欢迎大家提方案

查看全文

是否能够求出我所有粉丝的粉丝数?

比如A有三个粉丝,每个粉丝旗下有三万个粉丝;B有100个粉丝,但多数粉丝都是零粉丝,或者不超过10个。那么A的影响力实际上是要高于B的。(可以得到这个结论吗?可能有点极端)那么我就是想说:如何在知乎找到自己的粉丝一共有多少粉丝这样一个数据?

查看全文

用scikit

请问各位大牛,用scikit-learn构建逻辑回归时(Logistic Regression),怎么查看模型系数的显著性?考虑到如果系数不显著,即使解释度(score)很高,precision和recall表现良好,也是有潜在问题的!

查看全文

scikit

在scikit-learn中训练的模型怎么提取出来用于移植到其他平台上?或者简单点说,假如我训练个线性模型,我怎么把模型训练出来的系数打印出来?找遍了说明文档只有save model和打印相关参数的,没有直接打印模型数据的…

查看全文

Python 3 网络爬虫学习建议?

如题,题主python只是比较熟悉numpy和scipy、matplotlib这三个包,都是做科研的时候在用。最近心血来潮自己写了几个机器学习算法,然后想去网站上去爬一些东西玩玩,因为以后可能会想把它接到自己还没写完的自动交易程序里,但也只是个雏形,还有很长的路要走。但在办公室琢磨了一下午,发现网络爬虫这里又是个大坑,现阶段了解的就是scrapy其实并不适合python3,于是我现在只是在学习requests和beautifulsoup这俩包了。想请教网络爬虫这一块的行家,有没有什么推荐看的教程或者教学、博客什么的,真的想在这块在仔细学习一下。先谢过啦!

查看全文