算法 - 12Reads管理问答

没有标注正负样本的情况下如何评估分类结果？

Blue01 2018-01-23 1684 次浏览

评估分类结果的好坏时，一般用准确率和召回率，但是这个方法的前提是我有标注的正负样本。如果我没有正负样本的情况下，怎么知道我的分类结果好不好？一定要通过标注正负样本，然后计算F-Score来评估吗？比如：我在新浪微博随机抓取了1000万用户，我通过一些特征或规则，可以判断这些用户的性别，是否已婚，是否单身等等，那么我的这些规则可以看成是一个分类模型。在这种情况下，有什么办法可以评估我这个分类模型是否合理，或者如何评估我的这个分类模型的好坏呢？有没有比较通用的方法？

查看全文

数据挖掘相关的岗位的社招面试该如何准备？

Robot 2018-01-18 1820 次浏览

我面的大部分是数据挖掘，机器学习，推荐算法相关等岗位。我的经验是，阿里比较重视项目经验（总是为你通过什么方法效果提升了多少），百度比较重视数据结构和算法的基本功。那么问题来了，1 并不是每个项目都能成功，提升到很好的效果，也就是没有成功的项目经验，那么怎么办？ 2 数据结构和算法，其实工作中大部分是数据处理的工作，面试中遇到的相关题目很少在工作中遇到，比如排序一般都是用语言自带的排序，反转单链表这种问题工作有种也不会遇到，既然工作中不怎么会遇到的问题为啥面试那么重视？ 3 公式推导和理论有多重要？

查看全文

机器能学习机器学习吗？

黄卓驹 2018-01-16 1246 次浏览

1、机器学习现在有多种算法，很多问题的解决是将这些算法合理地组织起来，再加以训练，本质上是对算法策略的搜索，理论上是否可能训练机器来搜索最优的组合策略？2、进一步地，理论上是否可能以机器学习的算法为训练集，演绎出新的机器学习算法？

查看全文

互联网广告系统是如何识别用户的，比如年龄、性别、职业、兴趣、购买力等？

郑义 2018-01-09 2273 次浏览

互联网广告精准投放过程中，是如何获取用户的这些信息的，又是如何保证精准的。

查看全文

如何综合评价一个算法的有效性？

Amy 2018-01-05 1602 次浏览

我现在有30组数据，使用一个算法计算每组数据，所的结果可以做出一条有明显峰值的曲线或平缓的曲线，对其中一组数据来说，如果做出来的曲线有明显峰值则认为算法是有效的，现在我想综合评价这30组数据，判断算法的性能，请问有什么方法吗？

查看全文

PRML为何是机器学习的经典书籍中的经典？

无知者 2018-01-02 1876 次浏览

都说PRML是机器学习的经典中的经典，是每个机器学习相关方向必须啃得书籍，那么PRML到底经典在哪里呢？与其他的书籍相比，有哪些过人之处？

查看全文

为什么在周末LOL容易跪？

万心齐 2017-12-25 1591 次浏览

虽然说小学生多，但是我这边最多4个小学生吧，对面可能5个啊，按道理来说，乘着小学生多上分啊（而且如果我这边4小学生对面5个小学生，我这样一场赢下来是净打败了一个小学生，这样来说这是制裁小学生正义之举的大好时机），怎么结果不是这样的，是不是有小学生保护机制？我知道这个游戏主要不是维护50%胜率，那好我输了继续玩，赢的机会大一些吧，但是周末完全都是跪的。周末单排的时候感觉队友的质量没有对面好（其他的时候不觉得，我周末也是打了很多个周末，双排倒是正常），LOL排位最多2人双排吧，不会把个人排到战队赛去吧，但是总感觉对面有种4,5人黑的感觉，莫非小学生们的胜率或者保护机制认为他们的真正水平很低，所以一到周末就把那些大神胜率高的排在一起保护他 […]

查看全文

如何设计一个算法网购时甄别刷评价和刷销量的商品？从而得到真实评分。

林诚 2017-12-25 1331 次浏览

查看全文

World final和创业之间应该如何抉择？

Robot 2017-12-24 1361 次浏览

已经打了很多年ACM了，但实力所限未曾进入world final。这个赛季即将结束，但是已经没有希望了。明年可能是最后一次进入final的机会了，我也有较大把握能在明年进入final。但与此同时，我与一位朋友一起在创业（主要是朋友，但我也有少量股权），创业项目是蓝海，不是互联网的。现在公司还在初创期，跟着朋友一起可以学到很多相关经验，无论创业是否成功收获都是巨大的。现在面临的选择是，如果冲击World Final肯定就要投入大量精力在ACM上面，而且也有可能无法进入World Final，还错过了创业的初期。但是如果放弃的话，这辈子就再也没有机会进入World Final, 多年的ACM生涯必定留下深深的遗憾。到下个赛季开始还有近一 […]

查看全文

基于引文的论文推荐系统的相似矩阵如何有效的形成？

许洪波 2017-12-23 950 次浏览

本人刚接触文本数据的学习，目前想得到有关论文数据集的几个相似矩阵，论文数据信息（已经筛选，剔除了信息不完整的论文）已插入数据库（mysql）中，总共含有26篇论文数据。存储信息如下：id是插入数据库时形成的id；paper是论文题目；name是文章的所有作者；date是出版时间；journal是出版机构；indexx是论文在整个论文数据集中的索引；qoutee是该论文的引用；（是被引用论文在数据集中索引，因一篇论文有多篇引用，故以#%分隔开，）abstra是论文的摘要；需求：现在想得到论文之间的互相引用情况，形成一个26万X26万的矩阵，如果论文A引用B，等同于B被A引用，则矩阵中P[A][B]=1,同时P[B][A]=-1，如果A […]

查看全文

1 2 3 … 11

帐户注册

登录

找回密码