你若精彩,天自安排
构建数据湖 构建数据湖
数据湖简介–Iceberg数据湖生态 如上图所示,对于一个成熟的数据湖生态而言:首先,下层需具备海量存储的能力,常见的有对象存储、公有云存储以及HDFS;在此之上,需要支持丰富的数据类型,包括非结构化的图像视频,半结构化的CSV、XML、
2022-10-17
Hue集群对接 Hue集群对接
简介HUE是Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于P
2022-10-17
Alluxio介绍 Alluxio介绍
简介Alluxio是一个以内存为中心的分布式虚拟存储系统。Alluxio在上层计算框架和底层存储系统之间架起了桥梁,应用层只需要访问Alluxio即可以访问底层对接的任意存储系统的数据。Alluxio作者李浩源/范斌都是中国人。 功能介
2022-10-17
DataGrid对接Hive DataGrid对接Hive
DataGrid支持KerberosDataGrid连接HiveDataGrid可通过jdbc方式连接Hive/Impala;驱动依赖Jar包如下: commons-collections-3.2.2.jar commons-configu
2022-10-17
HiveSQL功能代码 HiveSQL功能代码
HiveSQL功能代码动态生成日期序列select date_add('2021-01-01',lvp.i) as date from poc.demo t lateral view posexplode(split(space(dated
2021-11-24
Hbase常见问题 Hbase常见问题
如何查看Hbase超级管理员账号? 通过hbase-site.xml配置文件中hbase.superuser配置项定义,如未定义,一般默认为进程启动用户为超级管理员用户;
2021-08-30
大数据技术架构选型 大数据技术架构选型
常见技术栈及特点存储型 HDFS: Hive: Kudu: Kylin: 计算引擎 MR: Spark: SparkStreaming: Impala: Storm: Flink: 存储+计算 Hbase: Hana: Presto:
2021-08-11
Spark任务提交流程 Spark任务提交流程
Spark基本概念Application指用户编写的程序代码; Driver表示main函数,创建SparkContext,并由SC负责与ClusterManager通信,进行资源的申请,任务监控和分配;程序运行结束后,关闭SparkCon
2021-06-29
Yarn NodeLabel简介 Yarn NodeLabel简介
背景在我们实际的部署环境中,经常会出现不同的机器类型,比如部分节点是计算型,部分节点是内存型;不同阶段采购设备配置也可能存在较大差异;大型集群开通多租户情况下,需要保障特定租户的稳定性及优先级,避免其他用户的任务对其造成影响; node l
2021-06-29
Hive存储与压缩 Hive存储与压缩
Hive文件存储Hive在存储数据时支持通过不同的文件类型来主职,并且为了节省存储资源,也提供了多种压缩算法供用户选择;在创建表时配置正确的文件类型和压缩类型,Hive都可以按照预期读取文件并解析数据,不影响上层HQL语句的使用。Hive默
2021-06-26
1 / 3