帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

互联网、金融这两个领域职场上用于数据挖掘、数据分析的数据库是什么呢,MySQL,Oracle还是其他?

在职场上,不同行业都需要数据挖掘、数据分析的工作,这离不开使用数据库,现在使用比较多的看是MySQL、Oracle等,但1. 互联网、金融这两个领域实际职场上(即非学院派,非高校研究)使用最多的是哪一种呢?或者换个角度说,哪个行业使用哪种数据库比较多?2. 许多数据挖掘和数据分析的招聘要求都有“精通SQL”,那何为精通?要达到怎么样程度?

查看全文

python爬取某新闻网站近几年指定字数和段落的文章?

考研英语历年真题的文章一般字数上控制在450字到550字之间,段落上一般控制在3到6个段落,所以考研教育网咨询专家建议广大考生可以把精力主要集中在符合前面字数、段落以及年份的文章来进行复习和阅读,如此一来我们就把复习的范围大为减少了。 根据近5年的文章来源,我们发现,80%以上的文章来自于The Economist (经济学家),Newsweek (新闻周刊),Times (时代周刊)以及U.S News and World Report (美国新闻与世界报道)四本杂志。因此,可以再次将我们复习的范围缩小,根据不完全统计2005年The Economist (经济学家)全年的50多期杂志里平均每期符合考研阅读理解命题文章要求的每期不 […]

查看全文

关于C4.5连续属性信息增益修正问题?

在C4.5中,对连续属性的处理如下: 1. 对特征的取值进行升序排序 2. 两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(InforGain)。优化算法就是只计算分类属性发生改变的那些特征取值。 3. 选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点 4. 计算最佳分裂点的信息增益率(Gain Ratio)作为特征的Gain Ratio。注意,此处需对最佳分裂点的信息增益进行修正:减去log2(N-1)/|D|(N是连续特征的可能的分裂点个数,D是训练数据数目,此修正的原因在于:当离散属性和连续属性并存时,C4.5算法倾向于选择连续特征做最佳树分裂点) 我想问的 […]

查看全文

小波聚类 wavecluster算法的细节问题,请问具体是怎么实现的?

最近论文需要用到wavecluster,但是在网上找了资料,基本都是下面的这些,基本上看不太懂,求大神指教一下,如果能有具体的代码或者伪代码就最好啦,谢谢大神 步骤1) 对特征空间进行量化,把每个维度分成m段,这样,整个空间分成单元,然后把对象分机到相应的单元; 步骤2) 对量化后的特征空间进行离散小波变换; 步骤3) 在变化后的特征空间的子波段中找出相连的部分,就是簇; 步骤4) 为每个簇所包含的单元分配相应的标签; 步骤5) 建立查找表,用于把变换后特征空间中的单元映射到原特征空间中的单元; 步骤6) 把每个单元的标签分配给该单元内的所有对象。

查看全文