简介
Alluxio是一个以内存为中心的分布式虚拟存储系统。Alluxio在上层计算框架和底层存储系统之间架起了桥梁,应用层只需要访问Alluxio即可以访问底层对接的任意存储系统的数据。Alluxio作者李浩源/范斌都是中国人。

5hUV2k
功能介绍
- 灵活的API
- 兼容Hadoop的HDFS文件系统接口
- 分级存储,自定义分配和回收策略
- 统一命名空间
- 完整的命令行
- Web UI
使用场景
- Immutable data:存储层数据一旦写入,不可以改变,例如hdfs、oss等存储引擎;
- Deterministic job:任务能够通过重试稳定复现,例如MapReduce、Spark、Presto等,使用recomputation处理失效恢复;
- Locality based scheduling:任务调度基于数据的locality特性,如果不能满足,就会从磁盘IO问题转变为网络IO问题;
- All data与Working set:底库数据集非常大,但实际访问的数据差不多可以存储内存中;
- Program size与Data size:在大数据里面,类似的操作重复访问相同的数据,适合使用缓存技术来解决;
从技术的角度,如果数据存储主要使用RAM,不太可能通过传统的多副本技术来解决节点故障问题,在单副本限制下,作者通过lineage、checkpoint、recomputation来解决;
- lineage技术解决节点失效后recomputation问题
- checkpoint机制解决lineage链路过长效率低下问题
- 资源调度策略解决recomputation资源调度的效率和公平问题