一、简单带大家明白什么是冷热数据哈 热数据 : 访问频次比较多 热数据就近计算,冷数据集中存储
所以,热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而基于大规模存储池里,可以对数据进行压缩、去重等降低成本的方法。
下面借用一张网上的图帮助大家理解
总结一下,热数据就是访问量多的数据,而冷空气则基本没有什么存在感和访问量。比如大家的淘宝“历史订单”,在订单管理中,热数据就是指3个月以内的订单数据,查询时效性较高,温数据则是3-12个月前的订单数据,查询概率不高,而冷数据就是指1年前的订单数据,只会有偶尔的查询需求,其他时间几乎不会被用到。
其实区分冷热数据的根本目的,在于能节省数据存储成本和提升在线数据查询性能,即控制成本。
为什么这么说?因为通常情况下,为了支持热数据的操作特性,需要有较好的硬件配置,比如高性能CPU、大内存、SSD硬盘等等。随着时间的推移,系统里会积累越来越多的历史数据,如果依然采用高配置机器来存放这些使用频率非常低的数据,势必会带来非常高的成本。当然,如果数据量很小或者不计成本,那完全不需要考虑冷热区分,采用一个单体系统就可以应对所有事情了。
由于冷数据和热数据的访问频次不同,就导致了在数据库搭建的各自不同:热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而基于大规模存储池里,可以对数据进行压缩、去重等降低成本的方法。
总结成一句话就是:热数据就近计算,冷数据集中存储。
目前比较常见的冷热分离方案是将冷热数据分离到两套不同的系统,这两套系统拥有不同的存储特性、访问方式等,从而在保证热数据访问性能的同时,将冷数据的成本降低下来。
二、东数西算,特指冷数据。那么东部的热数据谁来算?目前来看,从冷源和冷媒角度来看,最优解就是UDC(海底数据中心)。
海水是存在范围最广的“免费”冷源,而冷板是最便宜且效率不低的冷媒。