idea 本地spark读取hive的lzo压缩格式表报错

在idea上执行

    val spark: SparkSession = SparkSession
      .builder()
      .master("local")
      .enableHiveSupport()
      .config("hive.metastore.uris", "thrift://XXX:9083")
      .getOrCreate()


    spark.sql(
      """
        |select
        |*
        |from
        |XXX.XXX
        |""".stripMargin).show()

    spark.close()

报错

引用chatgpt内容作答：
从你提供的代码和报错信息来看，这个问题很可能与 LZO 压缩库的加载和配置有关。以下是一些可能的修改，帮助你解决问题：

1、添加 LZO 依赖：首先，确保你的项目中已经添加了 LZO 的依赖库。在 Maven 项目中，可以在 pom.xml 中添加类似下面的依赖：

<dependency>
    <groupId>com.hadoop.gplcompression</groupId>
    <artifactId>hadoop-lzo</artifactId>
    <version>0.4.21</version>
</dependency>

请注意，版本号可能需要根据你的需求进行适当修改。

2、配置加载 LZO 库：在你的 Spark 代码中，添加加载 LZO 压缩库的配置。在创建 SparkSession 之前，通过设置 spark.executor.extraLibraryPath 和 spark.driver.extraLibraryPath 来指定 LZO 库的路径。例如：

.config("spark.executor.extraLibraryPath", "/path/to/lzo/libs")
.config("spark.driver.extraLibraryPath", "/path/to/lzo/libs")

将 /path/to/lzo/libs 替换为 LZO 库所在的路径。

3、修改本地模式为集群模式：将 Spark Session 的 master 参数设置为集群模式，以更好地模拟生产环境。例如，将 .master("local") 修改为 .master("yarn")。

4、配置 Hadoop 相关环境变量：确保你的环境变量中包括了正确的 Hadoop 配置信息。特别是，确保 HADOOP_HOME 正确设置，并且 PATH 包含了 Hadoop 相关的可执行文件目录。

最终，你的代码可能会类似于以下示例：

import org.apache.spark.sql.SparkSession

object HiveLZOExample {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession
      .builder()
      .master("yarn")  // Switched to cluster mode
      .enableHiveSupport()
      .config("hive.metastore.uris", "thrift://XXX:9083")
      .config("spark.executor.extraLibraryPath", "/path/to/lzo/libs")
      .config("spark.driver.extraLibraryPath", "/path/to/lzo/libs")
      .getOrCreate()

    spark.sql(
      """
        |select
        |*
        |from
        |XXX.XXX
        |""".stripMargin).show()

    spark.close()
  }
}

请根据你的实际情况，将代码中的路径、版本和配置进行适当的修改。

no gplcompression in java.library.path

这个错误是缺少所需的本地库文件导致的，检查是否少了依赖或者依赖版本不匹配。

https://blog.csdn.net/ly_5683/article/details/122011852

解决方法：

Mac的话可以试下这个里面提到的方法：

cloudera cdh - Class com.hadoop.compression.lzo.LzoCodec not found for Spark on CDH 5? - Stack Overflow

https://stackoverflow.com/questions/23441142/class-com-hadoop-compression-lzo-lzocodec-not-found-for-spark-on-cdh-5

具体步骤如下：
由于 Apache 和 Cloudera 发行版是两个最流行的发行版，因此显示了这两种上下文的配置。简而言之，要取得最终成功，需要经历三个主要步骤：

安装native-lzo库
安装hadoop-lzo库
正确设置环境变量（正确的部分消耗了我最多的时间）

第一步：安装`native-lzo`库

安装 .native-lzo 库是必需的hadoop-lzo。您可以手动安装它们或通过程序包管理器安装它们（注意：确保集群中的所有节点都已native-lzo安装。）：

在 Mac 操作系统上：
```
sudo port install lzop lzo2
```
在 RH 或 CentOS 上：
```
sudo yum install lzo liblzo-devel
```
在 Debian 或 ubuntu 上：
```
sudo apt-get install liblzo2-dev
```

第二步：安装`hadoop-lzo`库

对于 Apache Hadoop

由于 LZO 是 GPL 的，因此它不随需要 Apache 软件许可证的官方 Hadoop 发行版一起提供。我推荐Twitter 版本，它是 hadoop-gpl-compression的分叉版本，具有显着的改进。如果您运行的是官方 Hadoop，文档中会提供一些安装结构。

对于 Cloudera 发行版

在Cloudera的CDH中，hadoop-lzo以包裹形式运送给客户，您可以使用Cloudera Manager方便地下载和分发它。默认情况下，hadoop-lzo将安装在 /opt/cloudera/parcels/HADOOP_LZO.

这里我们展示了集群上的配置：

Cloudera CDH 5
HADOOP_LZO 版本 0.4.15

第三步：设置环境变量

对于 Apache Hadoop/Pig

基本配置适用于 Apache Hadoop，而 Pig 则利用其功能。

在以下位置设置压缩编解码器库core-site.xml：

<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.GzipCodec,
      org.apache.hadoop.io.compress.DefaultCodec,
      org.apache.hadoop.io.compress.BZip2Codec,
      com.hadoop.compression.lzo.LzoCodec,
      com.hadoop.compression.lzo.LzopCodec
  </value>
</property>
<property>
  <name>io.compression.codec.lzo.class</name>
  <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

在以下位置设置 MapReduce 压缩配置mapred-site.xml：

<property>
  <name>mapred.compress.map.output</name>
  <value>true</value>
</property>
<property>
  <name>mapred.map.output.compression.codec</name>
  <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
  <name>mapred.child.env</name>
  <value>JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/path/to/your/hadoop-lzo/libs/native</value>
</property>

附加HADOOP_CLASSPATH到hadoop-env.sh：

HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/opt/cloudera/parcels/CDH/lib/hadoop/lib/*

对于 Cloudera 发行版

您可以使用 Cloudera Manager 通过 GUI 界面启用与之前相同的设置：

对于MapReduce组件，更改相应键的配置如上：

> **io.compression.codecs**
> **mapred.compress.map.output**
> **mapred.map.output.compression.codec**
> **MapReduce Client safety valve for mapred-site.xml**

编辑hadoop-env.sh 的 MapReduce 客户端环境片段以附加 HADOOP_CLASSPATH变量。

最后，按照正确的顺序重新启动依赖的服务，并将配置部署到所有节点上。就是这样！！。然后您可以使用命令测试功能并获得类似于以下内容的成功消息：

   $ hadoop jar /path/to/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer lzo_logs
   $ 14/05/04 01:13:13 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library
   $ 14/05/04 01:13:13 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev 49753b4b5a029410c3bd91278c360c2241328387]
   $ 14/05/04 01:13:14 INFO lzo.LzoIndexer: [INDEX] LZO Indexing file datasets/lzo_logs size 0.00 GB...
   $ 14/05/04 01:13:14 INFO Configuration.deprecation: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
   $ 14/05/04 01:13:14 INFO lzo.LzoIndexer: Completed LZO Indexing in 0.39 seconds (0.02 MB/s).  Index size is 0.01 KB.

另外的参考：

hadoop - Hive cannot find LZO codec - Stack Overflow

https://stackoverflow.com/questions/67559129/hive-cannot-find-lzo-codec

如有问题随时沟通
如有帮助欢迎采纳

【以下回答由 GPT 生成】

问题分析:

根据问题描述，使用Intellij IDEA开发Spark应用程序，尝试读取Hive中的LZO压缩格式表时报错。已经检查了Hive Metastore的URI配置、LZO压缩库和表的存在性和路径，但问题仍然存在。

解决方案:

确保LZO压缩库正确安装并在Spark配置中正确设置:
首先，确保LZO压缩库已经正确安装在运行Spark应用程序的机器上。可以通过运行以下命令检查库是否存在:
ls /path/to/lzo/library/
库的路径可能会因为不同的安装方式而有所不同，所以根据实际情况替换/path/to/lzo/library/为正确的路径。
然后，将LZO压缩库的路径添加到Spark的配置中。可以通过在代码中添加以下配置来实现:
scala spark.conf.set("spark.io.compression.codec", "com.hadoop.compression.lzo.LzopCodec")
或者，在命令行中通过使用--conf参数指定配置来运行spark-submit命令:
shell spark-submit --conf "spark.io.compression.codec=com.hadoop.compression.lzo.LzopCodec" your_spark_application.jar
如果使用了YARN来运行Spark应用程序，则还需要在yarn-site.xml中添加以下配置:
xml <property> <name>yarn.nodemanager.local-dirs</name> <value>/path/to/lzo/library/</value> </property>
将/path/to/lzo/library/替换为LZO压缩库的路径。
检查Hive的配置:
确保Hive的配置hive-site.xml中包含了正确的Hive Metastore的URI配置。可以通过以下命令检查配置文件的位置:
shell hive --config | grep HIVE_CONF_DIR
HIVE_CONF_DIR变量将指向Hive的配置文件夹。在该文件夹中，检查hive-site.xml文件并确保其中包含了正确的URI配置。
确保表的存在和路径正确:
确保被引用的表在Hive中存在，并且路径也是正确的。可以通过运行Hive命令行工具并执行show tables命令来检查表是否存在。例如:
shell hive hive> use your_database; hive> show tables;
将your_database替换为实际的数据库名。

如果仍然遇到问题，请提供完整的错误信息和其他任何相关信息以帮助进一步分析。

【相关推荐】

这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7520146
我还给你找了一篇非常好的博客，你可以看看是否有帮助，链接：idea 方式用spark连接hive，并保存数据（问题及解决）
您还可以看一下李飞老师的Spark开发工程师（含项目）课程中的 Hive概述小节, 巩固相关知识点

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

你的问题可能出在Spark读取Hive的LZO压缩格式的表上。不幸的是，Spark默认不支持LZO压缩，需要额外的库才能处理。在Spark中，为了能够读取Lzo压缩的数据，你需要安装并使用Hadoop的Lzo库。

以下是如何在Spark中读取Lzo压缩数据的步骤：
1、添加相关的依赖项。首先，你需要在你的项目中添加以下依赖项：

<dependency>  
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-client</artifactId>  
    <version>3.3.1</version>  
</dependency>  
  
<dependency>  
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-lzo</artifactId>  
    <version>3.3.1</version>  
</dependency>

2、添加Hadoop和Hive的配置。在你的Spark代码中，你需要添加以下配置来指向你的Hadoop和Hive设置：

val spark: SparkSession = SparkSession  
  .builder()  
  .master("local")  
  .enableHiveSupport()  
  .config("hive.metastore.uris", "thrift://XXX:9083")  
  .config("spark.sql.catalogImplementation", "hive")  
  .config("spark.executor.extraClassPath", "/path/to/hadoop-lzo.jar")  
  .getOrCreate()

3、注意替换"/path/to/hadoop-lzo.jar"为你的实际Hadoop LZO jar文件路径。

使用Spark SQL直接查询Hive表。一旦配置好，你可以直接使用Spark SQL查询Hive中的Lzo压缩表：


spark.sql(  
  """  
    |SELECT * FROM XXX.XXX  
  """.stripMargin).show()

请注意，你可能需要调整以上步骤以适应你的具体环境和需求。

错误信息：

ERROR GPLNativeCodeLoader:Could not load native gpl libraryjava.lang.UnsatisfiedLinkError Create breakpoint : no gplcompression in java.library.path
加载GPL本地库时发生问题。具体地说，它指出无法在java.library.path中找到gplcompression。

缺少所需的本地库文件或无法正确设置java.library.path路径引起的。

参考GPT：

您可以尝试以下几种方法：

1、确保您的系统中存在所需的GPL本地库文件。您可以通过下载并安装相应的库文件来解决这个问题。

2、检查java.library.path路径设置是否正确。您可以通过在代码中添加以下语句来查看当前的java.library.path值：

System.out.println(System.getProperty("java.library.path"));
3、确保该路径包含了所需的GPL本地库文件所在的目录。如果路径不正确，您可以尝试通过以下方式来设置正确的路径：

System.setProperty("java.library.path", "path/to/gpl/library");
请将”path/to/gpl/library”替换为实际的GPL本地库文件所在的目录路径。

4、如果您正在使用Eclipse或其他IDE进行开发，还可以尝试在项目的构建路径中添加所需的GPL本地库文件。这样做可以确保IDE能够正确找到并加载这些库文件。

参考gpt：
结合自己分析给你如下建议：
你的本地环境没有安装 lzo 压缩库或者没有配置好 lzo 依赖。lzo 压缩本身不属于 hadoop 体系自带压缩方式，也不是 spark 自带的解析方式，所以需要额外配置。你可以参考这篇博客（https://blog.csdn.net/ice_kind/article/details/79773222），里面介绍了如何在 idea 中添加 lzo 依赖，并且提供了一个 Scala 实现的示例代码。
你的 hive-site.xml 文件没有正确配置。你需要把 hive-site.xml 文件放到 idea 的 resources 目录下，并且确保里面的参数和 hive-script.sh 中的设置保持一致。特别注意 hive.metastore.uris, hive.metastore.warehouse.dir, hive.exec.scratchdir 这几个参数，它们会影响你的连接和读取。你可以参考这篇博客（https://blog.csdn.net/weixin_46625723/article/details/117573797），里面详细介绍了如何用 idea 方式用 spark 连接 hive，并且保存数据，以及可能遇到的问题和解决办法。
你的文件权限不足。如果你在运行时遇到 Error while instantiating ‘org.apache.spark.sql.hive.HiveSessionState’ 的错误，并且看到有 drwxr 字样，那么可能是你的文件权限不够导致的。你需要运行 chmod -R 777 / 文件路径来为相应文件开放权限。如果路径是在 hdfs 上，运行 hadoop fs -chmod 777 / 文件路径。

目前这些答案我都试了一下，但是都没有解决我的问题，兄弟们也别直接拿GPT的答案给我，我问GPT问过很多遍了

你看看你的依赖加好没有

你的项目中有没有添加在正确的 LZO 压缩相关依赖呀，你可以看一下， maven中需要添加一下 LZO 依赖

<dependency>
    <groupId>com.hadoop.gplcompression</groupId>
    <artifactId>hadoop-lzo</artifactId>
    <version>0.4.21</version>
</dependency>

如果以上回答对您有所帮助，点击一下采纳该答案～谢谢

HDFS和Spark配置LZO压缩，Spark读取LZO创建正常Task数量_spark读取lzo文件_春_的博客-CSDN博客 1.说明为了解决，下数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM，并且处理起来速度过慢的问题，决定使用LZO+Index来解决问题。线上Hadoop版本3.2.1，Spark2.3.1，Lzo使用最新版0.4.212.安装lzopsudo yum -y install lzop3.下载编译安装LZO下载地址http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz下载好后在linux下进行_spark读取lzo文件

https://blog.csdn.net/weixin_43736084/article/details/122873460

https://github.com/twitter/hadoop-lzo

Spark——IntelliJ IDEA中Spark应用程序连接远程Hadoop集群读写Hive表数据(Scala/Python)
可以参考下

Spark——IntelliJ IDEA中Spark应用程序连接远程Hadoop集群读写Hive表数据(Scala/Python)_idea spark读hive_aof_的博客-CSDN博客很多时候，我们在编写好Spark应用程序之后，想要读取Hive表测试一下，但又不想操作 (打jar包——>上传集群——>spark-submit) 这些步骤时，我们就可以在本地直连Hive，直接run你的Spark应用程序中的main函数即可。代码如下(版本为Spark2.0+)： Scala版本import org.apache.spark.sql.SparkSess..._idea spark读hive

https://blog.csdn.net/lovetechlovelife/article/details/94480806

IDEA中Spark读写Hive测试_idea spark 读取hive表_滑冰选手库里的博客-CSDN博客 1.将集群上的hive-site.xml文件拷贝到maven工程的resource目录下并新增下面代码即可 hive.metastore.uris thrift://hadoop000:9083参..._idea spark 读取hive表

https://blog.csdn.net/weixin_40096730/article/details/104938498

https://blog.csdn.net/qq_31405633/article/details/90607620

根据提供的错误信息，问题好像与 Hadoop 的本地库加载有关。这个错误一般表示某些本地库无法正确加载，导致程序失败。

根据错误信息，问题好像集中在 GPLNativeCodeLoader 加载上。这有可能与 Hadoop 中的 GPL (General Public License) 相关的本地库有关。

以下是一些可能的解决方法：

确认 Hadoop 配置：确保您的 Hadoop 环境正确配置并在您的应用程序中引用正确的 Hadoop JAR 包。可能需要将 Hadoop 相关的 JAR 包添加到 Spark 的 classpath 中。
检查依赖：确保您的 Spark 应用程序的依赖包含正确的版本。Spark 的版本和 Hadoop 的版本之间有时会存在兼容性问题。请确保 Spark 和 Hadoop 的版本匹配。
检查本地库：有时，加载本地库可能会受到系统环境变量、文件路径等因素的影响。确保相关的本地库可以被正确加载。您可以检查 java.library.path 环境变量，确保它包含 Hadoop 和相关库的路径。
查看 Hadoop 配置：根据错误信息，涉及到 Parquet 的读取。确保 Parquet 的相关配置也正确设置，尤其是 Hadoop 相关的配置。
尝试更新库：如果可能的话，尝试更新 Spark 和 Hadoop 相关的库到最新版本，这些版本可能修复了旧版本的一些问题。
搜索解决方案：如果以上方法都没有解决问题，您可以搜索特定于您遇到问题的库和组件的解决方案，可能有其他开发者在类似情况下遇到过相似的问题。

注意，Hadoop 和 Spark 环境的配置和运行可能相对复杂，特别是在本地环境中。

首先，确保您的项目中已经引入了LZO压缩格式的依赖库。您可以在项目的pom.xml或build.gradle文件中添加以下依赖：
xml
Copy

com.hadoop.gplcompression hadoop-lzo 0.4.22 然后，您需要将LZO压缩格式的库文件添加到Spark的运行时环境中。具体方法是：

将LZO压缩格式的库文件（如hadoop-lzo-0.4.22.jar）拷贝到${SPARK_HOME}/jars目录下（${SPARK_HOME}为Spark的安装目录）。
或者

在Spark的启动脚本（如spark-submit脚本）中添加--jars参数，指定LZO压缩格式的库文件路径，例如：

bash
Copy

spark-submit --jars /path/to/hadoop-lzo-0.4.22.jar ...
完成上述步骤后，重新运行您的代码，应该可以成功读取Hive中的LZO压缩格式表了。

你这个问题应该是
1.Java程序的正确库路径设置好了吗？
2没有 'gplcompression' 所需的库文件。需要加入

com.hadoop.gplcompression hadoop-lzo cdh4-0.4.15-gplextras

缺少LZO库的支持,看看安装情况或者有没有版本兼容性

好像是缺少依赖

链接报错，说明没有找到对应库，请设置环境变量

参考gpt
根据你提供的截图，报错信息显示Spark无法读取LZO压缩格式的表。这可能是由于缺少LZO压缩库或配置问题导致的。以下是一些可能的解决方案：

安装LZO压缩库：首先，确保你的系统上已经安装了LZO压缩库。你可以从LZO官方网站下载并安装LZO压缩库。根据你使用的操作系统和Hadoop版本，选择适合的LZO压缩库版本。
配置Spark的LZO压缩支持：在你的Spark应用程序中，可以添加配置以启用LZO压缩支持。在你的SparkSession配置中添加以下配置项：
```
.config("spark.hadoop.io.compression.codecs", "com.hadoop.compression.lzo.LzoCodec")
.config("spark.hadoop.io.compression.codec.lzo.class", "com.hadoop.compression.lzo.LzoCodec")
```
这将告诉Spark使用LZO压缩解码器。
添加LZO压缩库依赖：在你的Spark应用程序的构建配置中，确保添加了LZO压缩库的依赖项。你可以在构建工具（如Maven或SBT）的配置文件中添加以下依赖项：
```
<dependency>
    <groupId>com.hadoop.gplcompression</groupId>
    <artifactId>hadoop-lzo</artifactId>
    <version>0.4.20</version>
</dependency>
```
这将确保你的应用程序可以访问LZO压缩库。
检查Hadoop配置：确保你的Hadoop配置中已正确配置LZO压缩支持。你可以在Hadoop的配置文件中添加以下配置项：
```
<property>
    <name>io.compression.codecs</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
```
这将告诉Hadoop使用LZO压缩解码器。

请注意，以上解决方案假设你已经正确安装了LZO压缩库，并且你的系统和环境已经正确配置。如果问题仍然存在，你可能需要检查其他相关配置，如Hadoop和Hive的版本兼容性、文件权限等。另外，你还可以查看Spark、Hadoop和Hive的官方文档、社区或论坛，寻求更多帮助和支持。

依赖库没有加好

把依赖库升级试试

idea 本地spark读取hive的lzo压缩格式表报错

解决方法：

第一步：安装native-lzo库

第二步：安装hadoop-lzo库

对于 Apache Hadoop

对于 Cloudera 发行版

第三步：设置环境变量

对于 Apache Hadoop/Pig

对于 Cloudera 发行版

第一步：安装`native-lzo`库

第二步：安装`hadoop-lzo`库