`
smileyboy2009
  • 浏览: 15122 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hive 3.x 功能介绍

阅读更多
这个版本中有什么新东西:Apache Hive
hvie 3.1包括物化视图的分区,这可以提高查询响应能力和维护修复。



工作量管理

使用工作负载管理,您可以配置谁使用资源,可以使用多少以及Hive响应资源请求的速度。管理资源对于Hive LLAP(低延迟分析处理)至关重要,尤其是在多租户环境中。使用工作负载管理,您可以创建资源池并分配资源以满足可用性需求,并防止对这些资源的争用。工作负载管理改进了在Hive LLAP上运行的查询的并行查询执行和集群共享,还提高了非LLAP查询的性能。工作负载管理可减少大型集群中的资源不足。您可以使用Hive查询语言在命令行上实现工作负载管理。

事务改进

成熟版本的ACID(原子性,一致性,隔离性和持久性)事务处理和低延迟分析处理(LLAP)在Hive和HDP 3.0中发展。增强ACID表作为HDP 3.0中的默认表类型,没有性能或操作过载。使用ACID表操作有助于遵守GDPR(通用数据保护法规)要求被遗忘的权利。通过更强的事务保证和更简单的SQL命令语义,简化了应用程序开发和操作。您不需要存储ACID表,因此维护更容易。您不再需要在Hive表中执行ACID删除操作。

物化物化

随着事务语义的改进,出现了高级优化,例如物化视图重写和自动查询缓存。通过这些优化,您可以部署新的Hive应用程序类型。由于多个查询经常需要相同的中间汇总或连接表,因此可以通过预先计算和将中间表缓存到视图中来避免代价高昂的重复查询部分共享。查询优化器自动利用预先计算的缓存,从而提高性能。例如,物化视图可提高商业智能(BI)和仪表板应用程序中的连接和聚合查询的速度。

Kafka主题的直接,低延迟Hive查询

可以在单个命令中从Kafka主题在Hive中创建Druid表。此功能通过消除Kafka交付和查询德鲁伊之间的数据处理步骤,简化了对Kafka数据的查询。


Spark与Hive集成

您可以使用Hive 3从Apache Spark和Apache Kafka应用程序查询数据,而无需解决方法。Hive Warehouse Connector支持从Spark读取和编写Hive表。

Hive安全性改进

Apache Ranger默认保护Hive数据。为满足客户对并发性改进的需求,ACID对GDPR(通用数据保护法规)的支持,渲染安全性和其他功能,Hive现在严格控制文件系统和计算机内存资源。通过额外的控制,Hive可以更好地优化共享文件和YARN容器中的工作负载。Hive控制文件系统越多,Hive就越能保护数据安全。

查询结果缓存

Hive过滤并缓存类似或相同的查询。Hive不会重新计算未更改的数据。当数百或数千名BI工具和Web服务用户查询Hive时,缓存重复查询可以大大减轻负载。

信息模式数据库

将Hive服务添加到集群时,Hive会从JDBC数据源创建两个数据库:information_schema和sys。所有Metastore表都映射到您的表空间,并在sys中可用。information_schema数据显示系统的状态,类似于sys数据库数据。您可以使用SQL标准查询来查询information_schema,这些查询可以从一个DBMS移植到另一个DBMS。
分享到:
评论

相关推荐

    apache-hive-3.1.3-src.tar.gz

    hive 的更新操作一直是大数据仓库头痛的问题,在3.x之前也支持update,但是速度太慢,还需要进行分桶,现在hive 支持全新ACID,并且底层采用TEZ 和内存进行查询,性能是hive2的50倍。生产建议升级到hive3.1.1版本。 ...

    apache-hive-3.1.1-src.tar.gz

    hive 的更新操作一直是大数据仓库头痛的问题,在3.x之前也支持update,但是速度太慢,还需要进行分桶,现在hive 支持全新ACID,并且底层采用TEZ 和内存进行查询,性能是hive2的50倍。生产建议升级到hive3.1.1版本。 ...

    hivefs:Hive.im 云存储服务的 FUSE 文件系统。 - 仅供参考。 Hive.im 服务关闭

    荨麻疹##要求: Python 3.x ##Python 模块: 要求瘾君子保险丝(都可以通过pip安装) ##功能: 列出文件和文件夹读取文件重命名文件和文件夹将文件夹设置为“锁定”或“解锁”(chmod 700 或 744) 复制或创建新...

    hive-samples:一组示例说明 hive 的各种功能命令

    hive-samples 是一个演示 Apache Hive 各种功能的项目。 依赖关系 Apache Hadoop 2.xy Apache Hive 0.13.x 用法 克隆存储库 编辑 conf/hive-site.xml,并将 javax.jdo.option.ConnectionURL 设置为指向您选择的路径...

    2018最新高清大数据协作框架全套视频教程(Sqoop,Flume,Oozie,WEB工具Hue)

    1.02_02_01_04 使用CDH 5.3.6版本快速搭建Hadoop 2.x和Hive伪分布式环境 网页.mp4 1.02_02_01_05 Sqoop 1安装及基本使用讲解 网页.mp4 1.02_02_01_06 使用Sqoop导入数据到HDFS及本质分析 网页.mp4 1.02_02_01_07 ...

    华为HCIA-Big Data V2.0 LVC公开课培训.rar

    6.2_Hive功能与架构-Hive基本操作 第七章 Streaming分布式流计算引擎 7.1_Streaming简介-系统架构 7.2_关键特性介绍-StreamCQL介绍 第八章 Flink流计算处理和批处理平台 8.1_Flink概述-Flink原理与技术架构 8.2_...

    antlrworks-1.5.1.jar

    Antlr是一种语言识别的工具,可以用来构造领域语言。 使用antlr需要我们提前定义好识别字符流的词法规则和用于解释Token流的... 换句话说,你即使下载了antlr-x.x-complete.jar,将其添加到了CLASSPATH中,其也和an

    hadoop自动化运维工具Ambari应用实践

    主要涉及Ambari的安装部署、在Ambari下自动化部署一套hadoop3.x集群、在Ambari下扩容hadoop集群节点、在Ambari下添加Hive、hbase、spark等服务,以及如何实现hadoop集群中服务的自动化管理,还介绍了Ambari下如何...

    dpos.space:Golos、Steem、Viz、Hive 的服务

    dpos.space Steem、Golos、Viz 和 Hive 区块链服务。功能和系统要求: 编程语言 - PHP 7.0 及更高版本; 使用的库: php-graphene-node-client: 并被它使用。 parsedown: : (用于备份和配置文件)。 其余的是我的 ...

    dbeaver-ee-21.0.0-win32.x86_64

    支持几乎所有数据库,包括所有jdbc协议库、mongodb、redis、spark、hive、es等等,除内置大部分常用数据库驱动外,可以自动从maven仓库下载驱动jar包, 支持跨数据源同步数据等,还有许多其他高级功能。 官网速度...

    大数据的基础知识.pdf

    hadoop1.x和2.x的区别 HDFS YARN MapReduce Map阶段并⾏处理数据 Reduce阶段对Map处理数据的结构进⾏汇总 ⼤数据体系 名词解释 序 序 号 号 名称 名称 描述 描述 1 Sqoop Sqoop是⼀款开源的⼯具,主要⽤于在Hadoop、...

    OpenVMC:OpenVMC 视频检索框架

    5、所有节点需要安装python2.x。 6、操作节点需要安装Redhadoop Studio0.3。 7、配合hive mysql 元数据存储。 8、系统建议200G以上空闲磁盘空间 #4.安装 软件主模块无需安装,将seasbase.jar和 videoRe

    安全大数据分析框架OpenSOC.zip

    OpenSOC 主要功能包括:可扩展的接收器和分析器能够监视任何Telemetry数据源是一个扩展性很强的框架,且支持各种Telemetry数据流支持对Telemetry数据流的异常检测和基于规则实时告警通过预设时间使用Hadoop存储...

    大数据概述——精选推荐.pdf

    图计算 针对⼤规模图结构数据的处 理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 查询分析计 算 ⼤规模数据的存储管理和查 询分析 Dremel、Hive、Cassandra、Impala等 七,⼤数据产业: ⼤数据产业是指...

    TA-thehive-cortex:TheHive项目中与TheHiveCortex相关的Splunk技术附加组件

    介绍 此TA允许在和Splunk之间添加交互功能。 它允许从TheHive / Cortex检索所有案例/职位信息,并使用Splunk,从搜索或从预定义的仪表板对这些实例执行操作。 所有数据类型都可以使用“文件”,但Splunk不允许轻松...

    基于大数据下的spark快速大数据分析.pdf

    3 Spark 的运行架构 在 HDFS 的环境下, Spark 采取的是 Master/Slave, 即主从架构,也就是由一个主节点来负责中央的协 调, 调度其他每个分布式节点, 其中负责中央协调的 节点就称为驱动器节点,也就是我们所说...

    数据X

    实现包括MySQL,Oracle,SqlServer,Postgre,HDFS,Hive,ADS,HBase,TableStore(OTS),MaxCompute(ODPS),DRDS等各种异种构数据源之间高效的数据同步功能。 DataX商业版本 阿里云DataWorks数据集成是DataX...

    第七章-《大数据导论》大数据处理平台.pdf

    统计分析 大数据 处理平台 … 服务封装层 业务数据 互联网数据 物联网数据 数据源 … 引擎 数 据 安 全 与 隐 私 保 护 … 基于开源系统的大数据处理平台 SparkS QL Spark Streaming MLib GraphX MapReduce Hive ...

    大数据开源框架集锦.pdf

    Ambari Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维 3 ⽂件系统 HDFS 分布式⽂件系统 4 资源调度 YARN hadoop的资源管理和作业调度系统 5 协调框架 Zookeeper 分布式协调服务,解决分布式数据⼀致性⽅...

    酷软系列-SysinternalsSuite (微软经典套装) [评价可免费]

    Version 3.x 具有强大的新 UI 增强功能和进阶的筛选功能。  Process Monitor  即时监控档案系统、登录、程序、执行绪和 DLL 活动。  ProcFeatures  这个小应用程式会描述「实体位址扩充」的处理器和 Windows ...

Global site tag (gtag.js) - Google Analytics