Hadoop 기반 빅데이터 이해
아이워커들의 빅데이터 이해를 돕기 위해,
아이웍스 ICT사업본부장 정수화 부사장께서 발표한 내부 교육자료입니다.
아이웍스는 Hadoop기반 빅데이터 도입에 필요한 하드웨어 솔루션을 전문적으로 취급하고 잘 구축하는 Datacenter 전문 기업입니다.
Hadoop 기반 빅데이터 이해
- 1. ICT사업본부장 정수화 shjeong@iworks.kr Hadoop 기반 빅데이터 이해
- 2. 빅데이타 개념 • 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측 • 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수 집, 저장, 검색, 분석, 시각화등 어렵다. • 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범 위를 초과하는 규모의 데이타
- 3. 빅데이타 출현 배경 • 비정형 데이터 급증 – 문자, 음성, GPS, 영상, 인터넷 SNS, • 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩, 비콘 , • 멀티미디어 콘텐츠 사용 관련 정보 • 각종 센서로 부터 데이터 수집, 저장 – IoT • 정보의 바다 정보의 홍수
- 4. 빅데이타 특성 – 3V • Volume( 데이터 량) • Variety( 다양성) • Velocity (빠른 생성, 빠른 처리) Value 새로운 가치 창조
- 5. 빅데이타 가치
- 6. 빅데이타 활용
- 7. 구글 Trend
- 8. 빅데이타 분석시스템 – 시스템 개념도
- 9. 하둡 – Hadoop • 목적 – 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴 퓨팅의 성능과 효율 향상 • 구성 – HDFS (Hadoop Distributed File System) – Map Reduce(분산 처리프로그래밍)
- 10. HDFS – 하둡파일시스템 • 클러스터 환경에서 대용량 데이터를 분산해서 안정적 으로 저장하는 프레임워크 • 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬 • 덩어리를 복제하여 전체 클러스터에 분산 저장 • 일부 노드 장애는 서비스에 영향을 주지 않음
- 11. HDFS • 수백GB – 수 TB 지원 • Write Once Read Many 파일 시스템 – 한번 작성되면 바뀔 필요없는 경우 – Append 만 가능 • 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
- 12. MapReduce • 하둡 분산파일시스템에 저장된 분산데이타를 클러스 터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하 는 프레임워크 • 함수형 프로그램에서 일반적으로 사용하는 Map과 Reduce라는 함수 기반으로 구성 • 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
- 13. Map/Reduce 예시 – word count
- 14. 시각화 • 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로 써 그 패턴을 인지하게 만드는 것이다. • 통계/분석의 가장 중요한 부분. 1. 데이터의 특성을 쉽게 파악( vs 통계량 ) 2. 결과 레포트에 활용 -> 독립된 학문/기술 분야로 발전 • 근거 : 사람은 탁월한 패턴 인식 능력이 있음. • 데이터 패턴 파악의 도구, 분석을 돕는 역할 -> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머 /오락성
- 15. 빅데이타 처리 과정
- 16. 빅데이타 활용 – 공공 • 목적 : 과학적 정책 의사결정 • 스마트 시티 • 서울시 지하철 승객 분포 – 가장 복잡한 지하철,.. • 성남시 도서관 자료 분석 • 해운대구 쓰레기 무단 투기 • 서울시 심야버스 분석 • 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원 • 관광객 정보 분석 – 축제기간 유입인구 분석 • 유동인구 분석으로 상권 분석 • 범죄예방 – 20대 여성인구 시간대별 분석
- 17. 빅데이타 활용 – 유통, 제조, 금융,. • 목적 : 비용절감, 수익 창출 • 아마존 – 고객의 구매이력 데이터 분석 • 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션 • 넷플릭스 – 개인화된 VOD 서비스 • 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거 • 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성 향상 • 금융 – FDS, 주가 예측, 보험상품 개발, 보험수익계산,
- 18. 정리 • ICBM – IoT, Cloud, Bigdata, Mobile • 성장 분야 • 데이터 축적이 기본 • 사업 구상에서 closing까지 오랜 기간 소요(2-3년) • 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력 • 소규모 IT인력 openstack으로 Bigdata 분석은 무리
- 19. ICT사업본부장 정수화 shjeong@iworks.kr Thank you!