Installer Apache Hive sur une machine Ubuntu

Pré-requis

Le prérequis à une installation de Hive est une installation complète et fonctionnelle de Hadoop. Assurez vous que l’ensemble des démons d’Hadoop tourne. Vous pouvez consulter notre article sur l’installation complète d’Apache Hadoop pour de plus amples détails.

Télécharger Hive

Vous pouvez télécharger un binaire de Hive depuis le site officiel de Apache Hive.

Page de téléchargement sur le site officiel d’Apache Hive

Pour ce tutoriel, nous allons installer une version stable de Hive. Vous allez donc utiliser le binaire disponible dans le sous répertoire stable-2/.

Binaire d’Apache Hive dans une version stable

Téléchargez le binaire avec la commande « wget » et décompressez le fichier tar.gz. Enfin placez le répertoire dans /user/local/. Voici les commandes à exécuter dans un terminal pour réaliser ces opérations:

wget https://dlcdn.apache.org/hive/stable-2/apache-hive-2.3.9-bin.tar.gz

tar -xvf apache-hive-2.3.9-bin.tar.gz

sudo mv apache-hive-2.3.9-bin /usr/local/apache-hive-2.3.9

Ajouter les variables d’environnement Hive

Hive utilise la variable d’environnement HADOOP_HOME pour situer les fichiers de configuration d’Hadoop et les JAR associés. Cette variable d’environnement doit être obligatoirement renseignée dans le fichier .bashrc (voir le tutoriel Installer Hadoop sur Ubuntu).

De plus, nous allons devoir ajouter une variable d’environnement HIVE_HOME. Ouvrez le fichier .bashrc et renseignez les lignes suivantes:

# Variables Hive
export HIVE_HOME=/usr/local/hive-2.3.9
export PATH=$PATH:$HIVE_HOME/bin

Rechargez les variables d’environnement avec la commande « source .bashrc« . Vous pouvez alors vérifier que la variable d’environnement pointe bien vers le répertoire d’installation de Hive:

Source du fichier .bashrc et affichage de la variable d’environnement $HIVE_HOME

Configurer les composants Hive

Hive a besoin d’avoir accès à HDFS (Hadoop Distributed File System). Pour cela, ouvrez le fichier de configuration Hive « $HIVE_HOME/bin/hive-config.sh » et ajoutez la variable HADOOP_HOME avec le chemin d’installation de Hadoop sur votre machine.

export HADOOP_HOME=/usr/local/hadoop-3.3.3

Créer les répertoires Hive sur HDFS

Nous allons créer l’entrepôt des données Hive sur HDFS. Ouvrez un terminal pour créer le répertoire « /user/hive/warehouse » sur HDFS avec la commande:

hdfs dfs -p /user/hive/warehouse

Modifiez les droits d’écriture et d’exécution sur ce dépôt avec la commande suivante:

hdfs dfs -chmod g+w /user/hive/warehouse

Vous pouvez vérifier que le dépôt a été créé avec les permissions souhaitées de la façon suivante:

Permissions d’écriture et d’exécution sur le dépôt Hive: /user/hive/warehouse/

Initialiser la base de données Derby

Hive utilise une base de données Derby pour stocker les métadonnées. Dans un terminal, initialisez la base de données Derby avec la commande:

schematool -dbType derby -initSchema

Une fois cette initialisation terminée avec succès, vous devriez avoir un message du type:

Initialisation de la base de donnée Derby pour le stockage des métadonnées Hive

Lancer le client shell Hive

Vous pouvez à présent lancer Hive en ligne de commande. Dans un terminal, tapez « hive« :

Commande « hive » pour lancer Hive en ligne de commande

Conclusion

Vous disposez à présent d’une installation d’Apache Hive opérationnelle. Vous pouvez interagir avec vos données sur HDFS en utilisant le langage HiveQL de façon similaire avec le langage SQL avec les bases de données relationnelles.

Référence

Les références ayant servi à la rédaction de cet article: