分类: Hadoop | Semon's Blog

文章分类
Linux 10 网络 1 OS 1 硬件 1 Program 61 Hadoop 24 Database 8 Dev 8 Blog 1 backend 1 Skill 2 软件 1 Office 1
                            
                            构建数据湖
                        
                                数据湖简介–Iceberg数据湖生态

如上图所示，对于一个成熟的数据湖生态而言：首先，下层需具备海量存储的能力，常见的有对象存储、公有云存储以及HDFS;在此之上，需要支持丰富的数据类型，包括非结构化的图像视频，半结构化的CSV、XML、
                            
                                2022-10-17
                            
                                    Hadoop
                                
                            datalake
                        
                            Hue集群对接
                        
                                简介HUE是Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于P
                            
                                2022-10-17
                            
                                    Hadoop
                                
                            hue
                        
                            Alluxio介绍
                        
                                简介Alluxio是一个以内存为中心的分布式虚拟存储系统。Alluxio在上层计算框架和底层存储系统之间架起了桥梁，应用层只需要访问Alluxio即可以访问底层对接的任意存储系统的数据。Alluxio作者李浩源/范斌都是中国人。

功能介
                            
                                2022-10-17
                            
                                    Hadoop
                                
                            alluxio
                        
                            DataGrid对接Hive
                        
                                DataGrid支持KerberosDataGrid连接HiveDataGrid可通过jdbc方式连接Hive/Impala；驱动依赖Jar包如下：
commons-collections-3.2.2.jar
commons-configu
                            
                                2022-10-17
                            
                                    Hadoop
                                
                            tool
                        
                            HiveSQL功能代码
                        
                                HiveSQL功能代码动态生成日期序列select date_add('2021-01-01',lvp.i) as date from poc.demo t lateral view posexplode(split(space(dated
                            
                                2021-11-24
                            
                                    Hadoop
                                
                            hive
                        
                            Hbase常见问题
                        
                                如何查看Hbase超级管理员账号？
通过hbase-site.xml配置文件中hbase.superuser配置项定义，如未定义，一般默认为进程启动用户为超级管理员用户；

                                2021-08-30
                            
                                    Hadoop
                                
                            hbase
                        
                            大数据技术架构选型
                        
                                常见技术栈及特点存储型
HDFS：
Hive：
Kudu：
Kylin：

计算引擎
MR：
Spark：
SparkStreaming：
Impala：
Storm：
Flink：

存储+计算
Hbase：
Hana：
Presto：

                                2021-08-11
                            
                                    Hadoop
                                
                            architecture
                        
                            Spark任务提交流程
                        
                                Spark基本概念Application指用户编写的程序代码；
Driver表示main函数，创建SparkContext，并由SC负责与ClusterManager通信，进行资源的申请，任务监控和分配；程序运行结束后，关闭SparkCon
                            
                                2021-06-29
                            
                                    Hadoop
                                
                            spark
                        
                            Yarn NodeLabel简介
                        
                                背景在我们实际的部署环境中，经常会出现不同的机器类型，比如部分节点是计算型，部分节点是内存型；不同阶段采购设备配置也可能存在较大差异；大型集群开通多租户情况下，需要保障特定租户的稳定性及优先级，避免其他用户的任务对其造成影响；
node l
                            
                                2021-06-29
                            
                                    Hadoop
                                
                            nodelabel
                        
                            Hive存储与压缩
                        
                                Hive文件存储Hive在存储数据时支持通过不同的文件类型来主职，并且为了节省存储资源，也提供了多种压缩算法供用户选择；在创建表时配置正确的文件类型和压缩类型，Hive都可以按照预期读取文件并解析数据，不影响上层HQL语句的使用。Hive默
                            
                                2021-06-26
                            
                                    Hadoop
                                
                            hive