在ETL抽数之前,数据质量参差不齐,有的缺少必填项,有的长度不合适,有的类型不一致,有没有什么好大方法能在ETL前对数据进行一次质量检测。 目前我的方法是,写个存储过程把质量问题分类进行筛选然后根据问题描述进行统计插入到一张表中,但是指标多了以后这种方法感觉不是很适用。
查看全文如何在Python下实现让用户输入行列名称自动定位单元格提取数据?
小弟最近要用python做一个程序,有几点疑问海王各位大神解读!先在这里谢谢啦!1. python处理excel文件中,能不能实现让用户输入列名和行名(例如列“总销售金额”,行“2015-10-15”)然后定位单元格读取数据?我现在看到的都需要知道该单元格的代码(例如A2)才能提取数据。2.如何编写脚本能让程序对excel自动提取相关数据?例如我需要python提取列头为“销售总金额”,行头为“2015-10-15”的,在不知道这些字段对应单元格编码的前提下有没有什么函数能对字段进行匹配然后提取呢?3.假如一张表上面是某个部门的总销售额,而第二张表上是部门下具体商品的销售额,有没有什么函数能表示表1的数据=表2数据之和呢?除了算数( […]
查看全文数据库开发和ETL以后的发展方向是什么?
现在的工作是做oracle开发,会做ETL数据抽取。那么这种工作性质以后是往哪个方向发展,是数据分析还是数据仓库还是什么,那需要接着学习哪些方面的知识来增加技术能力?应该是大数据方向吧,但是没有接触过hadoop
查看全文informatica接Hadoop抽数需要注意哪些技术问题?
如题 构造hadoop到bi分析的通道,etl采用informatica,有哪些需要注意的事项?谢谢!
查看全文kettle在哪些互联网公司被使用?
kettle作为一款基于java开发的开源ETL工具,在互联网企业有着怎样的应用?有哪些比较有名的互联网公司在使用Kettle?
查看全文