Hadoop: a platform for processing big data, MapReduce programming model
HDFS = Hadoop Distributed File System
장점: Scalability(big data처리에 적합), Batch Processing(batch작업 우수), Ecosystem(각종 tools 많음; hive for 쿼리, pig for data processing 등), Data resilience(데이터탄성력.회복력:= node failures로부터 보호), Cost-Effectiveness(오픈소스라서 비용 덜들음)
단점: Latency(실시간 batch처리가 지연될 수 있음), Complexity(설정 관리가 복잡), Programming Model(MapReducing이 복잡)
리눅스 환경에서
su - hadoop 로 사용자 변경 후
우선 hdfs namenode -format 먼저 실행
그 다음에
start-all.sh로 하둡 실행
jps 확인
ifconfig 입력으로 ip 주소 확인
http://your-server-ip:9870. 로 NameNode 확인 페이지 출력
http://your-server-ip:8088. 로 resource mange 페이지 확인
실행 종료는
stop-all.sh
우분투 환경(oracle VM virtualBox)에서 Hadoop 3.3.6 설치하는 방법은 아래 링크 그대로 따라하면 됨
https://medium.com/@abhikdey06/apache-hadoop-3-3-6-installation-on-ubuntu-22-04-14516bceec85
'TechStudy > BigDataTools' 카테고리의 다른 글
AWS: instance 만들기, PuTTY로 해당 가상환경 터미널 키기 (0) | 2024.01.18 |
---|---|
Snowflake (1) | 2023.12.08 |
Spark and MLLIB (EDA와 머신러닝) (0) | 2023.12.04 |
Spark 실습(조작법, 쿼리, 시각화) (1) | 2023.12.04 |
Apache Spark (1) | 2023.11.30 |