Hadoop 기반 빅데이터 이해

2016년 7월 4일 | Big data, 솔루션 |

손진성 Datacenter Specialist

기업의 과거와 현재 그리고 미래의 중심이 되는 데이터센터를 디자인하고 구축하는 일을 전문으로 하고 있습니다. 아이웍스에서 ICT사업팀을 리드하고 있으며, Smarter IT Infrastructure 솔루션을 발굴하고 공급하는 일을 하겠습니다.

아이워커들의 빅데이터 이해를 돕기 위해, 
아이웍스 ICT사업본부장 정수화 부사장께서 발표한 내부 교육자료입니다. 
아이웍스는 Hadoop기반 빅데이터 도입에 필요한 하드웨어 솔루션을 전문적으로 취급하고 잘 구축하는 Datacenter 전문 기업입니다.

 Hadoop 기반 빅데이터 이해

  1. 1. ICT사업본부장 정수화 shjeong@iworks.kr Hadoop 기반 빅데이터 이해
  2. 2. 빅데이타 개념 • 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측 • 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수 집, 저장, 검색, 분석, 시각화등 어렵다. • 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범 위를 초과하는 규모의 데이타
  3. 3. 빅데이타 출현 배경 • 비정형 데이터 급증 – 문자, 음성, GPS, 영상, 인터넷 SNS, • 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩, 비콘 , • 멀티미디어 콘텐츠 사용 관련 정보 • 각종 센서로 부터 데이터 수집, 저장 – IoT • 정보의 바다 정보의 홍수
  4. 4. 빅데이타 특성 – 3V • Volume( 데이터 량) • Variety( 다양성) • Velocity (빠른 생성, 빠른 처리) Value 새로운 가치 창조
  5. 5. 빅데이타 가치
  6. 6. 빅데이타 활용
  7. 7. 구글 Trend
  8. 8. 빅데이타 분석시스템 – 시스템 개념도
  9. 9. 하둡 – Hadoop • 목적 – 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴 퓨팅의 성능과 효율 향상 • 구성 – HDFS (Hadoop Distributed File System) – Map Reduce(분산 처리프로그래밍)
  10. 10. HDFS – 하둡파일시스템 • 클러스터 환경에서 대용량 데이터를 분산해서 안정적 으로 저장하는 프레임워크 • 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬 • 덩어리를 복제하여 전체 클러스터에 분산 저장 • 일부 노드 장애는 서비스에 영향을 주지 않음
  11. 11. HDFS • 수백GB – 수 TB 지원 • Write Once Read Many 파일 시스템 – 한번 작성되면 바뀔 필요없는 경우 – Append 만 가능 • 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
  12. 12. MapReduce • 하둡 분산파일시스템에 저장된 분산데이타를 클러스 터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하 는 프레임워크 • 함수형 프로그램에서 일반적으로 사용하는 Map과 Reduce라는 함수 기반으로 구성 • 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
  13. 13. Map/Reduce 예시 – word count
  14. 14. 시각화 • 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로 써 그 패턴을 인지하게 만드는 것이다. • 통계/분석의 가장 중요한 부분. 1. 데이터의 특성을 쉽게 파악( vs 통계량 ) 2. 결과 레포트에 활용 -> 독립된 학문/기술 분야로 발전 • 근거 : 사람은 탁월한 패턴 인식 능력이 있음. • 데이터 패턴 파악의 도구, 분석을 돕는 역할 -> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머 /오락성
  15. 15. 빅데이타 처리 과정
  16. 16. 빅데이타 활용 – 공공 • 목적 : 과학적 정책 의사결정 • 스마트 시티 • 서울시 지하철 승객 분포 – 가장 복잡한 지하철,.. • 성남시 도서관 자료 분석 • 해운대구 쓰레기 무단 투기 • 서울시 심야버스 분석 • 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원 • 관광객 정보 분석 – 축제기간 유입인구 분석 • 유동인구 분석으로 상권 분석 • 범죄예방 – 20대 여성인구 시간대별 분석
  17. 17. 빅데이타 활용 – 유통, 제조, 금융,. • 목적 : 비용절감, 수익 창출 • 아마존 – 고객의 구매이력 데이터 분석 • 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션 • 넷플릭스 – 개인화된 VOD 서비스 • 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거 • 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성 향상 • 금융 – FDS, 주가 예측, 보험상품 개발, 보험수익계산,
  18. 18. 정리 • ICBM – IoT, Cloud, Bigdata, Mobile • 성장 분야 • 데이터 축적이 기본 • 사업 구상에서 closing까지 오랜 기간 소요(2-3년) • 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력 • 소규모 IT인력 openstack으로 Bigdata 분석은 무리
  19. 19. ICT사업본부장 정수화 shjeong@iworks.kr Thank you!

페이스북

Share This