Hadoop 기본 실행

Hadoop: a platform for processing big data, MapReduce programming model

HDFS = Hadoop Distributed File System

장점: Scalability(big data처리에 적합), Batch Processing(batch작업 우수), Ecosystem(각종 tools 많음; hive for 쿼리, pig for data processing 등), Data resilience(데이터탄성력.회복력:= node failures로부터 보호), Cost-Effectiveness(오픈소스라서 비용 덜들음)

단점: Latency(실시간 batch처리가 지연될 수 있음), Complexity(설정 관리가 복잡), Programming Model(MapReducing이 복잡)

리눅스 환경에서

su - hadoop 로 사용자 변경 후

우선 hdfs namenode -format 먼저 실행

그 다음에

start-all.sh로 하둡 실행

jps 확인

ifconfig 입력으로 ip 주소 확인

http://your-server-ip:9870. 로 NameNode 확인 페이지 출력

http://your-server-ip:8088. 로 resource mange 페이지 확인

실행 종료는

stop-all.sh

우분투 환경(oracle VM virtualBox)에서 Hadoop 3.3.6 설치하는 방법은 아래 링크 그대로 따라하면 됨

https://medium.com/@abhikdey06/apache-hadoop-3-3-6-installation-on-ubuntu-22-04-14516bceec85

728x90

'TechStudy > BigDataTools' 카테고리의 다른 글

AWS: instance 만들기, PuTTY로 해당 가상환경 터미널 키기 (0)	2024.01.18
Snowflake (1)	2023.12.08
Spark and MLLIB (EDA와 머신러닝) (0)	2023.12.04
Spark 실습(조작법, 쿼리, 시각화) (1)	2023.12.04
Apache Spark (1)	2023.11.30

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

LeafHT

Hadoop 기본 실행

'TechStudy > BigDataTools' 카테고리의 다른 글

티스토리툴바

Hadoop 기본 실행

'TechStudy > BigDataTools' 카테고리의 다른 글

'TechStudy/BigDataTools' 관련글

티스토리툴바