如何利用大数据帮助招聘? 举报 理由 举报 取消 互联网时代,每个人都在网络上留下了大量的数据,其中包含着他的生活轨迹、社交言行等个人信息,那么能否依靠对这些数据的分析,从个人的网上行为中剥离出他的兴趣图谱、性格画像、能力评估,帮助企业更高效的实现人岗匹配呢?用户特征的分析,实现人岗匹配欢迎大家提方案 2017年8月21日 5 条回复 1075 次浏览 Hadoop,Python,招聘,数据
回复 ( 5 )
我们做过以github及stackoverflow为核心数据来源的方案,主要是通过比较两站的内容与招聘方技术栈的契合度筛选潜在合适的人,谈不上大数据,主要是scrappy + spark,一点python的ML,从SO的问题tagging自动化,应用到招聘方的代码/文档,产生的tagging分布再应用到两站地内容上完成初步筛选。
投入是很大的,这种项目的第一要素是时间,达到企业服务级别需要长期跟进。说实话,如果不是专职招聘平台开发的话,普通公司不如直接用在线的各种招聘网站,配合猎头的优质数据库,我觉得效果可能比偏自动的方案更有效。当然只是个人的经验,业界的企业级服务比我们的要大的多,投入也巨大。
这些都是次要的。核心的是,你能获得这些人的联系方式吗?
试想,你已经完成了你的目标,HR看着你提供的候选人资料激动万分,结果这时,你告诉他,我们没有这人联系方式,他是否要跳槽我也不清楚,但你可以去知乎上给他发私信,你觉得他还会激动万分吗?
假如你想让HR一站式的解决问题,用私信、回复、评论,那么你是准备对接所有主流平台的模拟登录、模拟评论、模拟私信吗?你准备和各大网站同步进行代码更新吗?HR搞得懂这么复杂的产品吗?他会花几天时间等待候选人从网络上的回音吗?甚至这个候选人根本不是候选人,当前根本无意求职,所以考虑到转化率可能只有1%,那么你就要开发批量发送系统,那么你又面临平台方的反垃圾策略
猎头同学也许比HR主动点,但相信我,感兴趣的都是些新猎头,没啥经验,没啥简历,所以什么都愿意尝试一下
这里是我做的一些技术探索
主要技术:Centos6.6 + Python2.7 +Scrapy+MySql+Hadoop2.6
数据来源:知乎、ITeye、CSDN、OSCHINA、51CTO、ITpub
主要思路:根据人员需求技术关键词,通过Python+Scrapy爬虫爬取各大IT技术社区文章、博客,同时建立目标对象的关键画像,如:姓名/昵称、年龄、性别、工作地点、学历、职位等级、专业影响力、擅长领域、职业背景、性格匹配、职业倾向、求职意愿等。其中用户的姓名、性别、学历等基本信息相对较容易,各网站上基本信息差不多都有(其中剔除了匿名),但是像专业影响力、性格匹配、职业倾向、求职意愿等就需要通过一定的分析来得以实现,这也是大数据分析的关键。如专业影响力,就需要通过获取目标对象是否有专业领域的论文发表,在上面的专业论坛(如知乎、ITeye、CSDN、OSCHINA、51CTO、ITpub等)上的发帖数、内容被引用数、引用人的影响力等,通过这些信息建模,完成其专业影响力的判断。
先上图:
1、使用到的组件
2、网页抓取过程
3、抓取的人员信息
主要技术难点
1、环境版本问题:yum 与Python2.6/Python2.7,Scrapy与Python2.6/2.7问题,导致后面过程报各种找不到
2、PyCharm安装问题,集成Python
3、Scrapy首次使用,配置问题,IP代理问题,解决各网站的各种防爬防抓
4、最关键的问题是用户特征的分析
数据层次主要爬了6层关键字, 数据爬取中
16号=======================================
悲剧~由于中途网络中断一次~~~~重新开始了采集,不过截止到现在单纯在知乎中爬取的有关”大数据“ 相关的有效人员已经有差不多6300人,主要还是集中在北上广等地,从事互联网、金融、电子商务等, 人员学历还是国内的一本院校居多~~
影响力方面有了新的方案,就是参考微博中的影响力分析模型进行改造下,具体方案确定了再进行分享~~
……..未完待续
我觉得做到这点,除了背景学历年龄专业等因素作为特征以外,还要包括性格追求学习能力适应能力能家庭环境等等,然而这些特征很难获取。匹配是不是成功的判定这也很难有标准。我觉得很深奥也很难搞啊。
希望能看到有出色的答案啊
数据怎么获取?