Hive的UDF实现两种简单方法+通过编译源码添加UDF
创始人
2025-05-29 13:54:04

Hive的UDF实现两种简单方法+通过编译源码添加UDF

一、实现简单的say_hello

1、打开IDE在pom.xml中添加如下

org.apache.hivehive-exec3.1.2

在这里插入图片描述

点击maven 进行相关包导入,会有点慢

2、新建 UDFHello.java

内容如下:

package hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class UDFHello extends UDF {public String evaluate(String name){return "hello"+name;}}

在这里插入图片描述

3、打包

在这里插入图片描述

4、上传jar包至hive的lib下,并赋权

[peizk@hadoop lib]$ chmod 777 MapReduce-1.0.jar 

5、进入Hive,添加jar包

hive (default)> add jar /home/peizk/app/hive-3.1.2/lib/MapReduce-1.0.jar;

可使用list jars 查看添加的jar包

hive (default)> list jars;
/home/peizk/app/hive-3.1.2/lib/MapReduce-1.0.jar

6、创建临时函数对应我们的jar包

语句如下:(指定我们函数在jar包位置)

create temporary function say_hello as "hive.udf.UDFHello"

执行如下

hive (default)> create temporary function say_hello as "hive.udf.UDFHello";
OK
Time taken: 0.46 seconds

7、测试一下

hive (default)> select say_hello('peizk');
OK
_c0
hellopeizk
Time taken: 1.657 seconds, Fetched: 1 row(s)

成功!

8、总结

(1)pom.xml 增加 hive-exec

(2)编写Java ,继承 UDF,实现方法 evaluate

(3)打包上传服务器lib下,并赋权

(4)进入hive 通过add jar 导入jar包

(5)创建临时函数指定jar包

(6)运行自定义UDF

二、将UDF函数注册到元数据里

1、在一的基础上退出hive重新进入,会发现添加的UDF函数没有了,不能用了

2、在HDFS上创建一个文件夹将我们的jar包上传上去

在这里插入图片描述

3、在hive上执行如下语句

hive (default)> create  function say_hello as "hive.udf.UDFHello" using jar "hdfs://hadoop:9000/hive-udf/MapReduce-1.0.jar";
Added [/tmp/44d659a4-298c-4e98-8d60-9c088801a3b2_resources/MapReduce-1.0.jar] to class path
Added resources: [hdfs://hadoop:9000/hive-udf/MapReduce-1.0.jar]
OK
Time taken: 0.5 seconds

4、查看mysql 元数据库下的 FUNCS 表

在这里插入图片描述

5、hive执行UDF函数

hive (default)> select say_hello('peizk'); 
OK
_c0
hellopeizk
Time taken: 1.354 seconds, Fetched: 1 row(s)

注意在哪个hive库下添加,UDF在哪个库下有效

6、退出hive后再次重新进入执行

可以成功

三、通过hive -i 方法添加元数据

编写一个say_hello.sql 文件 内容如下:

add jar /home/peizk/app/hive-3.1.2/lib/MapReduce-1.0.jar;
create temporary function say_hello as "hive.udf.UDFHello";

使用 hive -i say_hello.sql 启动 hive 同样也可以使用UDF函数

四、通过编译源码,添加UDF

1、访问hive官网,下载源码

在这里插入图片描述

2、将我们写好的UDFHello.java文件放入相关目录

(1)首先UDFHello.java 的 包更改为org.apache.hadoop.hive.ql.udf

全部代码如下

package org.apache.hadoop.hive.ql.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class UDFHello extends UDF {public String evaluate(String name){return "hello :"+name;}}

(2)将UDFHello.java 放入如下文件夹

apache-hive-3.1.2-src\ql\src\java\org\apache\hadoop\hive\ql\udf

3、修改exec文件下FunctionRegistry.java

目录如下

apache-hive-3.1.2-src\ql\src\java\org\apache\hadoop\hive\ql\exec

修改第一处

添加如下:

import org.apache.hadoop.hive.ql.udf.UDFHello;

在这里插入图片描述

修改第二处

添加如下

system.registerUDF("say_hello", UDFHello.class,false);

在这里插入图片描述

4、将文件打包上传服务器进行编译

5、进入家目录,进行编译,语句如下:

mvn clean package -DskipTests -Phadoop-2 -Pdist

6、编译成功

在如下目录处找到我们编译好的包

apache-hive-3.1.2-src/packaging/target

在这里插入图片描述

在如下目录处找到我们编译好的包

相关内容

热门资讯

【iOS】—— ARC学习 ARC 文章目录ARC内存管理的思考方式自己生成的对象自己持有非自己生成的对象,自己也...
Hadoop_HDFS、Had... Hadoop_HDFS、Hadoop_MapReduce、Hadoop_Yarn 实践 (一) 前要...
Baumer工业相机堡盟相机如... 项目场景 Baumer工业相机堡盟相机是一种高性能、高质量的工业相机,可用于各种应用场...
spark第三章:工程化代码 系列文章目录 spark第一章:环境安装 spark第二章:sparkc...
音视频技术开发周刊 | 285 每周一期,纵览音视频技术领域的干货。新闻投稿:contribute...
方向导数与梯度 1 方向导数(二元为例) Σ:z=f(x,y)&...
【字符串】 string1.char str[]类型fgets(s,10000,stdin) cin.getli...
Xmind 2022 for ... XMind 2022 for Mac是一款优秀的思维导图软件,由XMind Ltd.公...
在 Ubuntu 中安装 DO... 了解如何在 Ubuntu 中安装 DOSBox,并配置它来玩旧式 DOS 游戏。DOS...
[图神经网络]图嵌入 将节点映射成D维向量主要有以下几种方法:         ①人工特征工程:...
我的 System Veril...  引言 本文简单介绍 SystemVerilog 的其他程序结构。 前文链接: 我的 ...
Vue2项目总结-电商后台管理... Vue2项目总结-电商后台管理系统 去年做的项目,拖了很久,总算是打起...
【业务安全-02】业务逻辑漏洞... 越权越权即越权查看被人的信息,又分为水平越权和垂直越权,但是两者的本质都...
面试了8家软件公司测试岗位,面... 包含的模块:本文分为十九个模块,分别是:软件测试 基础、l...
不要让ChatGPT成为你的智... 难处 我相信有部分人苦于政策,但是又没有途径,没法享受到chatGpt带...
Redis学习笔记 ---- ... 常见的有五种:String(字符串),Has...
Java实现十类排序算法对比展... Java实现排序算法 本代码展示了Java中常见的十种排序算法,并对每种算法的时间复杂...
SC8P1762E_汇编指令一... 控制类 NOP, 空操作 STOP, 进入休眠模式 CLR...
微信小程序实现图片上传(清晰版... 在wxml文件中添加一个按钮和一个image标签用于显示上传的图片 选择图片 在js文件中添加选择...
Maven打包子模块 项目结构1. project_01: 一个多模块的maven工程2. module_01: 工程pr...
Scala安装及设置查看源代码 文章目录一、安装Scala环境1.1、下载Scala1.2、配置scala环境变量1.3、测试是否安...
使用大规模数据注释和深度学习对... 使用大规模数据注释和深度学习对具有人类水平性能的组织图像进行全细胞分割摘要绪论Mesmer2.1Me...
【数据结构】TreeMap和T... 目录 1、TreeMap 1.1 TreeMap 的简介  1.2 TreeMap 的基本使用 2、...
Django之视图的使用 Django之视图的使用视图基本使用函数视图类视图视图与模板请求对象HttpRequest常见属性和...
零基础能学大数据吗? 大数据入门不像学一门编程语言,自学一段时间就OK了。大数据是需要站在编程的基础上学习的...
OperatorChain设计 在JobGraph构建过程中,会将满足链化条件的StreamOperator连接在一起...
Phoenix整合phoeni... 首先我们添加上maven依赖,可以看到5.1.2 对应的hbase是2.4对吧 然后添加了依赖,...
【华为机试真题详解 Pytho... 文章目录 前言题目描述输入描述输出描述题目解析参考代码 前言 《华为机试真题详解》专栏含牛客网...
Scala---Array方法 Scala之Array的方法 文章目录Scala之Array的方法数组声明一个数组1.元素操作替换...
内存避障的前世今生 相关 《内存避障:一个内存乱序实例》 《内存避障的前世今生》 0 总结 单核下的指令...