본문 바로가기
TechStudy/BigDataTools

Hadoop 기본 실행

 

Hadoop은 그림과 같은 구조로 데이터를 처리한다.

 

Hadoop: a platform for processing big data, MapReduce programming model

HDFS = Hadoop Distributed File System

 

장점: Scalability(big data처리에 적합), Batch Processing(batch작업 우수), Ecosystem(각종 tools 많음; hive for 쿼리, pig for data processing 등), Data resilience(데이터탄성력.회복력:= node failures로부터 보호), Cost-Effectiveness(오픈소스라서 비용 덜들음)

 

단점: Latency(실시간 batch처리가 지연될 수 있음), Complexity(설정 관리가 복잡), Programming Model(MapReducing이 복잡)

 

 

 

 

 

 

 

 

 

 

 


 

리눅스 환경에서

su - hadoop 로 사용자 변경 후

 

우선 hdfs namenode -format 먼저 실행

그 다음에

start-all.sh로 하둡 실행

jps 확인

ifconfig 입력으로 ip 주소 확인

 

http://your-server-ip:9870.    로 NameNode 확인 페이지 출력

 

http://your-server-ip:8088.  로 resource mange 페이지 확인

 

 

 

 

실행 종료는

stop-all.sh

 

 

 

우분투 환경(oracle VM virtualBox)에서 Hadoop 3.3.6 설치하는 방법은 아래 링크 그대로 따라하면 됨

 

https://medium.com/@abhikdey06/apache-hadoop-3-3-6-installation-on-ubuntu-22-04-14516bceec85

728x90
반응형

'TechStudy > BigDataTools' 카테고리의 다른 글

AWS: instance 만들기, PuTTY로 해당 가상환경 터미널 키기  (0) 2024.01.18
Snowflake  (1) 2023.12.08
Spark and MLLIB (EDA와 머신러닝)  (0) 2023.12.04
Spark 실습(조작법, 쿼리, 시각화)  (1) 2023.12.04
Apache Spark  (1) 2023.11.30