NLTK和sklearn等python类库已经实现了一项任务中大多数需要的工具。理解算法后也能够应用,包括一些调参的部分。但总感觉工程能力不足,只能流程化得完成一项任务。中间总觉得差点什么。是不是应该去实现一些算法和基础ETL代码来增加编程能力?
查看全文有没有能够获取任意两个词同时出现的概率的数据库?
类似我在百度上搜索这个:“有向无环图” “前额叶皮质”引号不能去掉,否则关键词会被拆分。只能搜到8个结果。这两个词同时出现的概率应该是相当低了。我想要大量调用这个功能,估计用百度调用次数多了肯定会被限制,有没有什么地方能够下载这种数据库或者无限调用这个东西?不需要非常全,只要能大幅度减少调用百度的次数就行了。
查看全文应届 百度凤巢,微软Bing广告,机器学习offer求比较,望大神指点?
百度是凤巢model组做ctr方面的,微软是Bing广告算法组,做触发方面。都在北京,不想出国。请教个人发展与风险,希望知乎了解的大牛们不吝赐教,非常感谢。
查看全文word2vec Out of dictionary word!为什么呢?
在虚拟机win 8下运用Xshell连接到linux服务器运行这个word2vec,各项工作都已做好,为什么运行distance vectors.bin的时候出现了Out of dictionary word!。另外,我没用distance vectors.bin命令,直接用java代码来解决bin文件,结果eclipse崩了补充一句:语料是我自己分好词的UTF8文本,再者我在文本里直接写入几个词来运行都不行啊。请各位大神解答一下,多谢。
查看全文数据挖掘入门基础知识疑惑?
本科阶段只学过C语言,外加一些线性代数,概率论的知识。现在硕士阶段进行数据挖掘、自然语言处理的学习中感觉到力不从心。不知道从何去入手,有一堆书也不知道先后顺序或者如何搭配。数据结构与算法、离散数学、数据库等内容也不清楚。总而言之就是相当之困惑,感觉前景一片黑暗,希望能有人帮我解下惑,不胜感激!!
查看全文文本处理同义词替换中的多义词问题?
想对处理的文本中的同义词进行替换,拟采用的方案是,比如读入同义词列表{Ah14C02= 心肝 宝贝 心肝宝贝 宠儿 命根子 掌上明珠 命根 宝贝儿},然后扫描文本,将出现在这个列表中的所有词语都替换为第一个:心肝,或者前面的代码:Ah14C02。但在实际的操作中却遇到了问题,同一个词存在多义,比如对于前面的“宝贝”,还同时存在于列表{Ba08A01= 宝物 宝贝 宝 珍 琛 珍品 珍宝 至宝 无价宝 瑰}中,这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的,谷歌也没有找到其他人遇到相关的问题,所以来知乎寻求一下大家的帮助,感谢!
查看全文本人研一,导师安排信息提取课题,拟研究相关算法作为毕业论文,如何入门? 哪里的资料比较专业?
基础薄弱,第一次接触信息提取领域,老师也建议了解自然语言处理领域。本人想尽快上手,在半年内为明年的毕业论文打好基础,求各路大神教我。
查看全文