빅데이터 이해하기
초보자를 위한 빅데이터 이해하기
실시간 분석 IoT 빅데이터 발표자료
데이터 사이언티스트의 역할
성공적인 빅데이터 활용 3대요소
R, 그리고 빅데이터 | R 시각화 1, 2, 3
하둡 플랫폼의 활용 | 이교수의 멘붕하둡
블록체인 이해하기
블록체인 2019
비트코인, 블록, 체인, 분산장
블록체인 비즈니스 모델
문과생 블록체인 이해하기 도서
스톡옵션 관련 정리 1
창업자 필수 성장통 13가지
블록체인 DApp 서비스 UX 개선을
[강의]빅데이터의 소스 유형 정리

빅데이터 활용방향과 인사이트 도출
데이터 3대 분석기법간 관계



 
작성일 : 12-04-10 15:48
트위터, 빅데이터 처리 노하우 공개
 글쓴이 : 빅데이터
조회 : 2,007  
   http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=293&… [217]

‘백지장도 맞들면 낫다’라는 것을 보여주려는 것일까. 트위터가 자사 트윗 데이터 처리 방법 기술을 오픈소스로 공개하기로 발표했다. 지난해 실시간 스트림 데이터 처리 솔루션을 오픈소스로 공개한 데 이어 이번엔 데이터베이스(DB)와 스토리지 쪽이다.

트위터는 4월9일(현지기준) 자사 공식 블로그를 통해 “트윗 저장을 위해 사용한 MySQL 기술을 공개하겠다”라며 “보다 많은 사람이 참여해 쉽고 빠르게 데이터를 저장할 수 있게 됐으면 좋겠다”라고 밝혔다. 혼자서 하기보다는 여럿이 함께할수록 빛난다는 오픈소스의 가치를 몸소 실천하고 있는 셈이다.

트위터의 이번 시도는 어떻게 하면 오픈소스 DB로 알려진 MySQL로도 효과적으로 데이터를 저장할 수 있는지 그 기술을 알 수 있다는 점에서 의미가 있다. 카산드라처럼 대용량 데이터 처리와 저장을 위한 NoSQL은 시중에 많이 나와 있다. 그러나 이들 오픈소스는 개발자라도 섣불리 사용하기 어렵다는 단점을 갖고 있다.

같은 오픈소스라도 MySQL은 처지가 좀 다르다. 우선 인터넷 생태계를 만들어주는 기본적인 플랫폼으로 알려진 오픈소스 4인방 ‘LAMP(Linux, Apache, MySQL, PHP/Python)’에 이름을 올릴만큼 개발자들에게 친숙하다. 또 관계형 데이터베이스 관리에 대표적으로 사용돼 개발자들이 익숙하게 다룰 수 있다.

단점이 있다면 MySQL은 확장성과 복잡한 트랜잭션 처리에는 적합하지 않다. 빅데이터라고 부르는 대용량 데이터 시대를 맞아 NoSQL이 뜨는 이유다. 아무리 MySQL이 사용하기 쉽고 익숙하다고는 하지만 기능이 안 되는데 억지로 쓸 순 없는 노릇 아닌가.

트위터는 달랐다. 하루 평균 트위터가 저장하고 처리하는 트윗은 약 2억5천만건으로, 이를 어떻게 하면 MySQL 이점을 살리면서도 확장성을 갖출 수 있는지를 연구하기 시작했다. 과거 트위터는 이 트윗 데이터를 날짜 기준으로 분할해 관리하는 방법을 사용했다. 그 결과 오래된 트윗은 트래픽은 높지 않지만 점점 서버 용량을 차지했고, 새로운 트윗을 정리하기 위해 서버를 추가로 구입하는 상황이 벌어졌다. 트위터 설명에 따르면, 약 3주에 한 번씩 서버를 추가하는 꼴이었다고 한다.

이 문제를 해결하기 위해 트위터는 데이터 분산도구로 기저드(Gizzard), 데이터 저장소로는 MySQL, 아이디 생성에는 스노우플레이크라는 오픈소스 도구로 새롭게 데이터 분산 환경을 재구성했다. 그 작업물을 이번에 오픈소스로 공개했다.

제레미 콜과 데비 아르노 트위터 DBA와 DB개발자 팀원은 “이번에 공개한 MySQL 오픈소스는 로딩이 많은 데이터처리 엔진인 InnoDB 안에서 시스템을 모니터링하고 워크로드를 관리할 수 있으며, 서버 예상보다 오래 실행되는 쿼리를 취소할 수 있는 기능을 갖추고 있다”라며 “시스템 메모리 할당을 최적화할 수 있는 기능과, SSD 기반 시스템에도 최적화 됐다는 게 강점이다”라고 설명했다.

IT전문지 기가옴은 “MySQL 확장성 문제를 해결하기 위해 토쿠테크나 스케일베이스, 오라클MySQL이 작업한 사례는 있지만, 결과물을 완벽히 오픈소스로 공개한 것은 이례적인 일”이라며 “트위터가 공개한 오픈소스는 라이선스 비용이나 유지보수 지원 계약 없이 사용할 수 있다”라고 전했다.

트위터는 4월12일 ‘페르코나 라이브 MySQL 컨퍼런스‘에서 이번 오픈소스 공개에 대해 보다 자세히 설명할 예정이다. 공개된 오픈소스는 저자 이름만 제대료 표기해주면 코드를 수정한 후 공개하지 않고 상업적 이용이 가능한 BSD 라이센스를 따른다고 한다.

[이 게시물은 빅데이터님에 의해 2018-03-09 22:10:33 개발자토크에서 이동 됨]
게시글을 twitter로 보내기 게시글을 facebook으로 보내기 게시글을 Me2Day로 보내기 게시글을 요즘으로 보내기
 
 

전체 238 건
번호 제목 작성자 작성 조회
208 하둡으로 가는 길 | 제1부 기술과 훈련 빅데이터 01-11 1528
207 아파치 하둡, 마침내 정식 버전 출시 빅데이터 01-05 1359
206 주목! 9가지 오픈소스 빅 데이터 기술 (1) 빅데이터 06-12 2129
205 [적용사례] 네이버 라인은 왜 카카오톡보다 병목현상이 적을까? (6) 빅데이터 05-14 11300
204 어제 얘길하면서 많이 논의되었는 NoSQL에 대한 부분에 있어 참… (7) chiro 05-10 3113
203 No-SQL? Non-SQL? (4) 시나브로 04-30 3327
202 하둡을 활용해 스토리지의 한계를 극복하는 방법 리절트 04-20 1868
201 트위터, 빅데이터 처리 노하우 공개 빅데이터 04-10 2008
200 "하둡 전문가 어디 없소?"…속타는 기업들 (3) 빅데이터 04-10 2337
199 아파치, 하둡 관련 스쿱 프로젝트 전력 지원 빅데이터 04-03 3396
198    스쿱 사용자/개발자 가이드 번역본 (5) 전두엽 04-25 2446
197 DB툴 ‘토드’와 ‘NoSQL’이 만나면? (1) 빅데이터 04-01 2127
196 “몽고DB 쓰지 마세요”…왜? (4) 빅데이터 04-01 5219
195 빅데이터 응용 개발 경진대회 PDPARK 03-26 1538
194 "데이터 과학자가 되려면..." 빅데이터 03-19 2787
 1  2  3  4  5  6  7  8  9  10