빅데이터 이해하기
초보자를 위한 빅데이터 이해하기
실시간 분석 IoT 빅데이터 발표자료
데이터 사이언티스트의 역할
성공적인 빅데이터 활용 3대요소
R, 그리고 빅데이터 | R 시각화 1, 2, 3
하둡 플랫폼의 활용 | 이교수의 멘붕하둡
블록체인 이해하기
블록체인 2019
비트코인, 블록, 체인, 분산장
블록체인 비즈니스 모델
문과생 블록체인 이해하기 도서
스톡옵션 관련 정리 1
창업자 필수 성장통 13가지
블록체인 DApp 서비스 UX 개선을
[강의]빅데이터의 소스 유형 정리

빅데이터 활용방향과 인사이트 도출
데이터 3대 분석기법간 관계



 
작성일 : 15-11-17 16:17
mapreduce와 hive관련 초보개발자의 질문입니다.
 글쓴이 : 하둡초보개발…
조회 : 1,030  
현재 하둡 시스템을 구성하고 있는 초보 개발자입니다.

hive로 테스트 중인데 적재해야할 로그데이터가 비정형이라 hive로는 처리가 까다로운 것으로 알고 있습니다.

로그데이터가 json 형태이면 json SerDe 인터페이스를 이용하여 비정형 데이터의 까다로운 처리도 가능 한 것으로 알고 있는데 제가 사용할 데이터는 string 형식이라 맞지 않는것 같고..

제가 궁금한 부분은 비정형 데이터를 분석할 때는 hive를 안쓰는게 좋은 것인지, 아니면 mapreduce + hive 방식으로도 사용을 하는(예를 들어 mapreduce에서 비정형 데이터를 적재하고 클라이언트에서는 hive를 이용하여 access 하는 방식) 경우도 있나요?

질문이 이상하더라도 너그러이 이해해주시길 부탁드리며, 혹시라도 충고나 도움이 될만한 정보를 아시는 분이 계신다면 답변 부탁드리겠습니다.

감사합니다.

-초보개발자 올림


게시글을 twitter로 보내기 게시글을 facebook으로 보내기 게시글을 Me2Day로 보내기 게시글을 요즘으로 보내기
ygji 15-11-19 13:22
답변  
예전에 증권사 로그데이터를 HIVE처리하는 업무를 했었고, 비정형데이터를 먼저 전처리해서 하둡 또는 HIVE에서 처리 가능하게끔 변경후에 하둡에 올리는 방식으로 처리했었습니다.

로그 데이터가 JSON이라면 잘 구조화된 데이터이고 그러면, HBASE를 이용하는것도 하나의 방법입니다.
HBASE에 있는 데이터를 HIVE에서도 잘 처리합니다.
     
하둡초보개발… 15-12-07 10:54
답변  
답변 정말 감사드립니다. 참고하도록 하겠습니다.
 
 

전체 176 건
번호 제목 작성자 작성 조회
176 아주 기초적인 질문입니다. (1) 비틀비틀 07-05 2895
175 spark -> hbase 성능 질문 셔틀랜드 08-04 3805
174 Azkaban 병렬 스캐쥴 잡 등록 문의 우리집미니 03-07 5143
173 hive와 hbase에 관한 질문 (1) 하둡초보개발… 12-07 2452
172 hive 통계 배치 Tool 질문 (2) chosuky 11-23 2599
171 mapreduce와 hive관련 초보개발자의 질문입니다. (2) 하둡초보개발… 11-17 1031
170 하둡과 클라이언트 연동에 관한 초보 질문 (2) 하둡초보개발… 11-09 1429
169 하둡실행시에 jps치면 (1) 우아얌 11-03 1138
168    하둡실행시에 jps치면 (2) 우아얌 11-04 2017
167 데이터 처리 구조 구축 관련! hdfs, spark (1) 감자고구마 10-28 1798
166 하둡 실행이 안됩니다. (2) 우아얌 10-01 993
165    하둡 실행이 안됩니다. (1) 우아얌 10-03 801
164 HDFS 포맷, 실제 볼륨드라이브를 포맷? 아니면 특정 디렉토리를 … (1) 제임스윤 07-21 1603
163 고급 MapReduce 프로그램 책입니다. 2번째 (3) 태운아빠 05-06 2029
162 고급 MapReduce 프로그램 책입니다. (7) 태운아빠 05-06 2381
 1  2  3  4  5  6  7  8  9  10