大数据访问的处理,从csdn上搬运来一个问题? 举报 理由 举报 取消 像淘宝 、京东商城、腾讯、360,每天海量的数据,他们的数据仓库用的什么数据库,怎么存储的,运行每天的作业也是个挑战???-CSDN论坛-CSDN.NET-中国最大的IT技术社区 2018年1月21日 2 条回复 1199 次浏览 并发,数据,数据库,设计
回复 ( 2 )
存储:可以直接按日期把log丢到备份系统。
备份系统:穷的用硬盘柜,有钱的自己搭存储集群,壕就直接上存储一体机。
处理:设计地好的系统,数据会直接从业务中间件流式或定期丢到处理集群,或者从备份系统手动丢到处理集群。
话说,这是菜鸟花式骗架构的么?
那某宝来说,数据量是很大,但常用数据也是可控的。比如交易数据,最近7天的最常用,最近1个月较常用,3个月以上就很少用。按照时间分区,常用的数据好点的一台服务器也够支撑了。当然实际肯定是多台实现热备份还有读写分离。就是说淘宝最近1个月的交易量这点数据量来说,很多公司都不是问题。不常用的数据只需要容量大,性能要求低,就更不是话下了。
除了交易数据还有宝贝等大数据,这些数据可以横向分区分表,可以用类似redis等nosql来缓存,也不是问题,无非是机器多少罢了。而且这些数据也不需要非常高的可靠性,万一丢点数据,影响也不大。交易数据是关键。淘宝的核心层应该是java系统,跟银行一样的安全等级。外层很多是用普通的web端技术做的,如mysql,nginxlua,memcache等。