作为一名苦逼的会计学博士生,手工从报表中摘数据实在是一件让人心力交瘁的事情。可能有人会问:为什么不用CSMAR之类的数据库呢?因为那些数据太大路货了,我们需要一些非标准化的、比较冷门的的数据。还有一些文本,需要人工把它们转化成数字的形式,比如董事会的个人教育背景,本科以下为0,本科为1,硕士为2,博士为3(当然,这个数据库里有,只是举个例子)。那么问题就来了:爬虫软件能不能从年报里抓取这些数据呢?如果是从网站中保存的PDF格式的年报呢?作为一个编程零基础的小白,实现难度大吗?大致需要几个月时间?
查看全文工作了一年的网络工程师,获得过HCIE
工作了一年的网络工程师,获得过HCIE-Security证书,现在有两个机会,一个是集成商的售前工程师,主要负责华为产品线,一个是一个电商公司的网络工程师,做的很杂…想问问知乎大神们,该怎么选?
查看全文应届工科硕士在华为做软件测试(交换机,路由器,防火墙)有什么发展前景,以后会形成怎么样的职业道路?
华为的软件测试工程师有前途吗,以后的发展前景如何?
查看全文一个爬联系方式的爬虫该如何选择数据库?
写了一个爬联系方式的爬虫,email,电话,地址等有八九个键值,每个人大概有不同的三四样信息,大概20万条数据。是该用mySQL类的数据库还是noSQL?希望可以根据类目,比如电话,快速获得含有这个类目的entry,并且以后可以做一些简单的趋势分析。
查看全文作为一条大学狗,通过什么方式可以进入淘宝参观,参观的内容有哪些,值得学习的是什么?
社团活动策划压身,实在对这方面不了解,大神快接受邀请吧
查看全文www.hongkong315.com和www.hongkong315.net哪个是真的网?
http://www.hongkong315.com和http://www.hongkong315.net哪个是真的网还是2个都是假的
查看全文中文互联网内容很少,这个统计科学吗?
https://www.statista.com/chart/4140/low-diversity-of-languages-on-the-web-hinders-accessability/
查看全文我用php爬了某(和谐)网站接近 17万 条的标题、图片链接等信息,请问接下来我能用这些数据做什么?
具体数据量是 169,279 条,主要信息是:标题、图片在网盘的绝对地址可以直接下载的,不知道接下来能用这些做点什么,动态语言我只会用php,想过用opencv 扩展做点图像识别什么的,请各位大神帮忙集思广益出出主意。(对,我知道你们想说什么,闲的蛋疼,哈哈,很多人这么说过我了,我不是IT专业的,只是最近比较闲,所以想研究点好玩儿的东西,无它。)—————————————–9月9日更新:感谢@数据客 给我的提示,让我能把这些零散的数据结构话并转化成一个可视化图表,分析 […]
查看全文