Alluxio介绍


简介

Alluxio是一个以内存为中心的分布式虚拟存储系统。Alluxio在上层计算框架和底层存储系统之间架起了桥梁,应用层只需要访问Alluxio即可以访问底层对接的任意存储系统的数据。Alluxio作者李浩源/范斌都是中国人。

5hUV2k
5hUV2k

功能介绍

  • 灵活的API
  • 兼容Hadoop的HDFS文件系统接口
  • 分级存储,自定义分配和回收策略
  • 统一命名空间
  • 完整的命令行
  • Web UI

使用场景

  1. Immutable data:存储层数据一旦写入,不可以改变,例如hdfs、oss等存储引擎;
  2. Deterministic job:任务能够通过重试稳定复现,例如MapReduce、Spark、Presto等,使用recomputation处理失效恢复;
  3. Locality based scheduling:任务调度基于数据的locality特性,如果不能满足,就会从磁盘IO问题转变为网络IO问题;
  4. All data与Working set:底库数据集非常大,但实际访问的数据差不多可以存储内存中;
  5. Program size与Data size:在大数据里面,类似的操作重复访问相同的数据,适合使用缓存技术来解决;
    从技术的角度,如果数据存储主要使用RAM,不太可能通过传统的多副本技术来解决节点故障问题,在单副本限制下,作者通过lineage、checkpoint、recomputation来解决;
  • lineage技术解决节点失效后recomputation问题
  • checkpoint机制解决lineage链路过长效率低下问题
  • 资源调度策略解决recomputation资源调度的效率和公平问题

文章作者: Semon
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Semon !
评论
表情 | 预览
快来做第一个评论的人吧~
Powered By Valine
v1.3.10
  目录