Πώς να εγκαταστήσετε και να ρυθμίσετε το Apache Hadoop σε έναν μόνο κόμβο στο CentOS 7


Το Apache Hadoop είναι μια κατασκευή πλαισίου ανοιχτού κώδικα για κατανεμημένη αποθήκευση μεγάλων δεδομένων και επεξεργασία δεδομένων σε συμπλέγματα υπολογιστών. Το έργο βασίζεται στα ακόλουθα στοιχεία:

  1. Hadoop Common – περιέχει τις βιβλιοθήκες Java και τα βοηθητικά προγράμματα που χρειάζονται άλλες λειτουργικές μονάδες Hadoop.
  2. HDFS – Κατανεμημένο σύστημα αρχείων Hadoop – Ένα επεκτάσιμο σύστημα αρχείων βασισμένο σε Java και κατανεμημένο σε πολλούς κόμβους.
  3. MapReduce – Πλαίσιο YARN για παράλληλη επεξεργασία μεγάλων δεδομένων.
  4. Hadoop YARN: Ένα πλαίσιο για τη διαχείριση πόρων συμπλέγματος.

Αυτό το άρθρο θα σας καθοδηγήσει για το πώς μπορείτε να εγκαταστήσετε το Apache Hadoop σε ένα σύμπλεγμα κόμβων στο CentOS 7 (λειτουργεί επίσης για RHEL 7 και Fedora 23+ εκδόσεις). Αυτός ο τύπος διαμόρφωσης αναφέρεται επίσης ως Λειτουργία ψευδο-κατανεμημένης Hadoop.

Βήμα 1: Εγκαταστήστε την Java στο CentOS 7

1. Πριν προχωρήσετε στην εγκατάσταση Java, συνδεθείτε πρώτα με χρήστη root ή χρήστη με δικαιώματα root ρυθμίστε το όνομα κεντρικού υπολογιστή του υπολογιστή σας με την ακόλουθη εντολή.

# hostnamectl set-hostname master

Επίσης, προσθέστε μια νέα εγγραφή στο αρχείο κεντρικών υπολογιστών με το FQDN του δικού σας υπολογιστή για να υποδείξετε τη διεύθυνση IP του συστήματός σας.

# vi /etc/hosts

Προσθέστε την παρακάτω γραμμή:

192.168.1.41 master.hadoop.lan

Αντικαταστήστε το παραπάνω όνομα κεντρικού υπολογιστή και τις εγγραφές FQDN με τις δικές σας ρυθμίσεις.

2. Στη συνέχεια, μεταβείτε στη σελίδα λήψης Oracle Java και αποκτήστε την πιο πρόσφατη έκδοση του Java SE Development Kit 8 στο σύστημά σας με τη βοήθεια του curl εντολή:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Αφού ολοκληρωθεί η δυαδική λήψη Java, εγκαταστήστε το πακέτο εκδίδοντας την παρακάτω εντολή:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Βήμα 2: Εγκαταστήστε το Hadoop Framework στο CentOS 7

4. Στη συνέχεια, δημιουργήστε έναν νέο λογαριασμό χρήστη στο σύστημά σας χωρίς εξουσίες root, τον οποίο θα χρησιμοποιήσουμε για τη διαδρομή εγκατάστασης Hadoop και το περιβάλλον εργασίας. Ο νέος αρχικός κατάλογος λογαριασμού θα βρίσκεται στον κατάλογο /opt/hadoop.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Στο επόμενο βήμα επισκεφτείτε τη σελίδα Apache Hadoop για να λάβετε τον σύνδεσμο για την πιο πρόσφατη σταθερή έκδοση και να κάνετε λήψη του αρχείου στο σύστημά σας.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Εξαγάγετε το αρχείο και αντιγράψτε το περιεχόμενο του καταλόγου στην αρχική διαδρομή του λογαριασμού hadoop. Επίσης, βεβαιωθείτε ότι έχετε αλλάξει ανάλογα τα δικαιώματα των αντιγραμμένων αρχείων.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Στη συνέχεια, συνδεθείτε με τον χρήστη hadoop και διαμορφώστε τις παραμέτρους Hadoop και Μεταβλητές περιβάλλοντος Java στο σύστημά σας, επεξεργάζοντας το αρχείο.bash_profile.

# su - hadoop
$ vi .bash_profile

Προσθέστε τις ακόλουθες γραμμές στο τέλος του αρχείου:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Τώρα, αρχικοποιήστε τις μεταβλητές περιβάλλοντος και ελέγξτε την κατάστασή τους εκδίδοντας τις παρακάτω εντολές:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Τέλος, διαμορφώστε τον έλεγχο ταυτότητας βάσει κλειδιού ssh για λογαριασμό hadoop εκτελώντας τις παρακάτω εντολές (αντικαταστήστε το όνομα κεντρικού υπολογιστή ή το FQDN > έναντι της εντολής ssh-copy-id αντίστοιχα).

Επίσης, αφήστε κενή την φράση πρόσβασης που έχει καταχωρηθεί για να συνδεθείτε αυτόματα μέσω ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan