빅데이터 이해하기
초보자를 위한 빅데이터 이해하기
실시간 분석 IoT 빅데이터 발표자료
데이터 사이언티스트의 역할
성공적인 빅데이터 활용 3대요소
R, 그리고 빅데이터 | R 시각화 1, 2, 3
하둡 플랫폼의 활용 | 이교수의 멘붕하둡
블록체인 이해하기
블록체인 2019
비트코인, 블록, 체인, 분산장
블록체인 비즈니스 모델
문과생 블록체인 이해하기 도서
스톡옵션 관련 정리 1
창업자 필수 성장통 13가지
블록체인 DApp 서비스 UX 개선을
[강의]빅데이터의 소스 유형 정리

빅데이터 활용방향과 인사이트 도출
데이터 3대 분석기법간 관계



 
작성일 : 15-04-03 18:10
빅데이터 분석에 스파크를 이용해야 하는 5가지 이유
 글쓴이 : 빅데이터
조회 : 4,082  
   http://www.itworld.co.kr/news/92492 [714]
아파치 스파크(Apache Spark)는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 빅데이터의 차세대 '빅씽(Big Thing)'으로 가장 빨리 자리를 굳히고 있다.

지난 몇 년간 하둡이 빅데이터 처리의 가장 지배적인 패러다임으로 부상하면서 몇 가지가 분명해졌다.

첫째, 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS)은 빅데이터에 적합한 스토리지 플랫폼이다.

둘째, YARN은 빅데이터 환경에 도입할 수 있는 자원 할당 및 관리 프레임워크다.

가장 중요할 것으로 판단되는 셋째는 모든 문제를 해결하는 하나의 프로세싱 프레임워크는 없다는 것이다. 맵 리듀스는 놀라운 기술이지만 모든 문제를 해결하지 못한다.

하둡에 의지하는 기업들은 중요한 질문에 대한 해답을 찾기 위해 다양한 분석 인프라와 프로세스를 필요로 한다. 또한 데이터 준비, 기술적 분석(Descriptive analysis), 검색, 예측 분석, 기타 머신 학습과 그래프 프로세싱 등 고급 분석도 요구된다.

여기에서 그치지 않는다. 이런 요소들과 연동되어, 이미 보유한 기능과 자원을 이용할 수 있게끔 지원하는 툴 세트가 필요하다. 현재까지는 이런 기준 모두를 만족시키는 하나의 프로세싱 프레임워크는 존재하지 않는다. 이 부분이 스파크의 기본적인 장점이다.

스파크는 상대적으로 역사가 짧은 데이터 프로젝트지만 앞선 요건을 모두 충족하고 있다. 다음은 스파크의 시대에 접어들었음을 설득시키는 5가지 이유다.

1. 고급 분석을 '현실'로 만드는 스파크
유수 대기업과 혁신 기업의 상당수가 고급 분석 기능 확대 방안을 모색하고 있다. 그러나 최근 뉴욕에서 열린 데이터 분석 관련 이벤트에서 실시된 조사결과에 따르면, 전사적으로 고급 분석 기술을 도입해 활용하고 있는 기업의 비율은 20%에 불과했다.

나머지 80%는 데이터 준비와 기본 분석 작업만도 벅차다고 말하고 있다. 이들 기업의 몇 안 되는 데이터 과학자들은 시간의 대부분을 기본 분석 수행과 관리에 쏟아 붓고 있다.

스파크는 즉각적인 고급 분석을 위한 프레임워크를 제공한다. 이 프레임워크에는 고속 쿼리 수행 툴, 머신 학습 라이브러리, 그래프 프로세싱 엔진, 스트리밍 분석 엔진이 포함되어 있다.

스파크는 구하기 힘든 데이터과학자가 있어도 분석하기 힘든 맵리듀스와는 달리 쉽고 빠르게 이용할 수 있는 라이브러리를 기본 제공한다. 덕분에 데이터과학자들은 데이터 준비와 품질 관리 이상의 업무를 맡아 처리할 수 있다. 더 나아가 스파크는 분석 결과를 정확히 해석할 수 있도록 지원한다.

2. 모든 것을 더 편하게 만들어주는 스파크
하둡은 오랜 기간 이용이 어렵고, 이를 이용할 수 있는 사람을 찾기는 더 어렵다는 비판을 받아왔다. 새 버전이 발표될 때마다 더 간편해지고, 강력해지고 있지만 아직까지도 이런 비판을 면치 못하고 있다.

스파크의 경우 사용자가 자바와 맵리듀스 프로그래밍 패턴 등 여러 복잡한 내용을 이해할 필요가 없다. 데이터베이스와 파이썬이나 스칼라 등의 스크립팅 기술을 조금 갖고 있다면 누구나 이용할 수 있다는 장점이 있다.

이는 기업들이 데이터를 이해하고, 툴을 이용해 이를 처리할 수 있는 사람을 더 쉽게 찾을 수 있다는 의미다. 또한 개발업체는 더 빨리 분석 솔루션을 개발, 개선할 수 있다.

3. 하나 이상의 언어를 말하는 스파크
이쯤해서 한 가지 질문을 묻는 것이 타당하지 않을까 싶다. "SQL이 존재하지 않았었다면, 지금 SQL을 발명해 빅데이터 분석이라는 큰 도전과제를 해결하지 않았을까?"

아마 아닐 것이다. 최소한 SQL 하나만 발명하지는 않을 것이다. 우리는 좀더 유연하게 필요한 대답을 얻고, 데이터 체계화와 검색에 더 많은 선택지를 갖고, 데이터를 더 빨리 분석 프레임워크로 이동시키고 싶어할 것이다.

스파크는 SQL만을 중시하는 사고방식을 없앤다. 기업이 직면한 도전과 보유한 데이터에 맞게 가장 빨리, 그리고 가장 효과적으로 데이터 분석을 시작할 수 있도록 해준다.

4. 더 빨리 결과를 도출하는 스파크
비즈니스 수행 속도가 계속 증가하면서 실시간 결과 도출의 필요성 또한 커지고 있다.

스파크는 디스크 액세스가 필요한 다른 기법보다 몇 배는 빨리 결과를 제시하는 병렬 인-메모리 프로세싱 기능을 제공한다.

즉시 결과가 제시되기 때문에 나날이 느려지는 분석 속도와 이로 인한 비즈니스 프로세스의 속도가 지연되는 현상을 없앨 수 있다. 개발업체들이 스파크 기반의 애플리케이션을 개발하기 시작하면, 분석 워크플로우의 속도도 크게 개선될 전망이다.

결과값 도출 준비 시간을 가속화한다는 것은 반복적으로 분석을 수행해 더 정확한 답을 찾을 수 있다. 스파크는 분석가들이 더 빨리 답을 찾을 수 있도록 해준다.

5. 하둡 개발업체를 가리지 않는 스파크
주요 하둡 배포판 대다수가 스파크를 지원하고 있다. 여기에는 이유가 있다. 스파크는 개발업체 중립적인 솔루션이다. 사용자를 특정 개발업체에 메여 있지 않아도 된다는 의미다.

스파크는 오픈소스다. 따라서 향후 하둡 개발업체를 바꿔야 할지 고민하지 않고도 자유롭게 스파크 기반의 분석 인프라를 구현할 수 있다. 개발업체를 바꿔도 분석 기능을 그대로 이전시킬 수 있다.

스파크가 단 기간에 모멘텀을 형성할 수 있었던 이유는 빅데이터 분석을 활용하는 기업의 요구와 일치하기 때문이다. '스파크의 시대'는 이제 막 시작됐을 뿐이다. 기업들이 스파크의 잠재력을 제대로 활용하기 시작하면, 스파크는 다양한 빅데이터 분석 환경의 핵심 기술 가운데 하나로 자리를 굳힐 것이다.

그리고 스파크 생태계는 계속 성장을 해나갈 전망이다. 빅데이터를 실시간 고급 분석하기 원하는 기업이라면 지금 당장 스파크를 검토해야 한다. [이 게시물은 빅데이터님에 의해 2018-03-09 22:10:01 개발자토크에서 이동 됨]
게시글을 twitter로 보내기 게시글을 facebook으로 보내기 게시글을 Me2Day로 보내기 게시글을 요즘으로 보내기
태운아빠 15-04-06 09:40
답변  
대세인 스파크에 대한 오해 5가지...
1. 고급 분석을 '현실'로 만드는 스파크
  머신런닝 알고리즘이 포함 있지만, 고급분석가의 관점으로는 기초적인 알고리즘만 포함됨.
2. 모든 것을 더 편하게 만들어주는 스파크
  M/R 형식의 프로그램은 많이 편해짐.
  MPI 방식은 지원하지 않음.
3. 하나 이상의 언어를 말하는 스파크
  scala, java, python을 지원하지만,
  scala에 최적화되어 있고 나머지 언어는 좀 불편함.
4. 더 빨리 결과를 도출하는 스파크
  성능 테스트를 해보면, SparkStream은 storm보다 느리고,
  SparkSQL은 Hive보다 느림.
  일반적인 Spark 프로그램이 성능이 좋음.
5. 하둡 개발업체를 가리지 않는 스파크
  오픈소스는 대부분 업체를 가리지 않고, 용도와 장단점이 다름.
6. 실시간 고급 분석
  기존(하둡)보다는 빠른 고급분석(??)이기 하지만, 준실시간임.
     
굿데이 15-04-08 14:06
답변  
리플이 더 팁
돼로로 15-04-14 09:18
답변  
좋아요 누르고싶다..
2015미션 15-05-08 17:23
답변 삭제  
굿~~~~
메멘토 15-05-19 10:40
답변  
좋은 설명 감사합니다^^
주먹대장 15-06-26 13:44
답변  
이해하기 쉽네요
kiju1004 15-10-29 10:08
답변 삭제  
좋은 글이네요!
천재거북이 16-10-07 11:19
답변  
좋은글 감사합니다
 
 

전체 238 건
번호 제목 작성자 작성 조회
148 2012년 전 세계 빅데이터 벤더 매출, 2013-2017 전망 해동 06-12 2686
147 '얀'이 왔다··· 하둡 앱 범람에 대비할 시점 빅데이터 06-10 1203
146 IT분야로 진로고민이나,취업,이직고민등 많은 궁금증이 있으시죠… 멘토쌤 08-05 268
145 SW개발자를 위한 PaaS 서비스 무료 제공 안내 클라우드 06-16 291
144 [TIPA] 제2회 출연(연) '의료.안전' 기술마켓 야도란 04-05 402
143 <클라우드혁신센터> 12월 1일 SW 스타트업 창업 성공 전략… 야도란 11-30 788
142 K-ICT 클라우드 혁신센터 2016년 제 2차 OpenPaaS 이용자 교육 … (1) 야도란 11-16 899
141 개인개발자 SW개발환경 지원사업 안내 야도란 10-11 839
140 기술과 아이디어만 가지고 창업하고 싶은 개발자들... secert444 07-20 865
139 [프리모아]빅데이터 시대에 조명받는 하둡 개발자 프리모아 07-27 2963
138 빅데이터 분석에 스파크를 이용해야 하는 5가지 이유 (8) 빅데이터 04-03 4083
137 [빅데이터 사례] datasift 성공 사례 gkgk123 02-16 3257
136 [빅데이터 사례] VOD스트리밍 넷플릭스 성공사례 gkgk123 02-16 5032
135 [빅데이터사례] 한국석유공사, 국내 유가 예보 서비스 gkgk123 02-02 1697
134 혁신적인 개발플랫폼 IBM 블루믹스란? (1) 바리제너럴 08-11 2121
 1  2  3  4  5  6  7  8  9  10