﻿﻿스마트 기기와 SNS 덕분에 과거 어느 때보다 많은 데이터가 흘러 다니고 빠르게 쌓입니다. 다음 그림은 2013년에 인터넷에서 60초 동안 얼마나 많은 일이 벌어지는지를 나타낸 그림이다. Facebook에서는 1초마다 글이 4만 천 건 포스팅되고, 좋아요 클릭이 180만 건 발생합니다. 데이터는 350GB씩 쌓입니다. 이런 데이터를 실시간으로 분석하면 사용자의 패턴을 파악하거나 의사를 결정하는 데 참고하는 등 다양하게 사용할 수 있을 것입니다. 
빅데이터를 처리하는 프레임워크로 흔히 Hadoop MapReduce를 사용한다. MapReduce는 페타바이트 이상의 데이터를 여러 노드로 구성된 클라우드 환경에서 병렬 처리하는 기법으로, 함수형 프로그래밍에서 일반적으로 사용되는 Map과 Reduce 방식을 사용해 데이터를 처리한다. MapReduce는 대량 데이터를 분산 처리할 수 있는 좋은 기법이지만, 배치 방식으로 데이터를 처리하기 때문에 실시간으로 데이터를 조회하기 어렵다. 이런 단점을 극복하기 위해 최근 몇 년간 실시간 분산 쿼리나 스트리밍 처리 기법이 많이 연구되었다.
실시간 분산 쿼리는 클러스터를 구성하는 노드가 각자 쿼리를 처리하게 해(push down) 한 번에 처리할 데이터의 크기는 작게 하면서 이를 병렬 처리해 응답 시간을 실시간 수준으로 높이는 방식이다. Dremel의 논문을 기반으로 한 Cloudera의 Impala와 Apache Tez, 그리고 최근 공개된 Facebook의 Presto가 이 방식에 속한다.
스트리밍 처리는 끊임없이 들어오는 데이터를 유입 시점에 분석해 원하는 데이터 뷰로 미리 만드는 방식이다. 이 방식은 CEP(complex event processing)라고도 부르며, Twitter의 Storm과 Apache Spark가 이 방식에 속한다.
분산 환경에서 데이터를 단일 뷰로 제공하는 것은 쉽지 않다. 이런 환경에서 기본적인 분산 처리 방식을 살펴보면 다음과 같다.
클러스터를 구성하는 여러 노드가 있고, 노드는 각자 데이터를 일부분 가졌다고 하자. 여기서 데이터 구조는 여러 형태가 될 수 있지만 편의상 테이블이라 한다. 파티셔닝은 특정 키를 기준으로 이 테이블을 여러 노드로 분할해 저장하는 방식이다. 키를 범위로 나눠 저장하거나(범위 파티셔닝, range partitioning), 키 값을 해시 키로 사용해 수평적으로 데이터를 나눠 저장할 수 있다(해시 파티셔닝, hash partitioning). 파티셔닝은 노드 간의 키 중첩을 없애기 때문에 각 노드에서 파티션 키를 조인 키로 쓰는 경우 독립적인 조인 처리가 가능하다. 그림 2는 3개 노드로 데이터를 해시 파티셔닝한 후 조인하는 과정을 나타낸다.
하지만 파티션 키가 아닌 다른 키로 조인해야 한다면, 데이터를 조인 키 단위로 모으는 재분할(re-partitioning) 과정이 필요하다. 이 과정을 셔플(shuffle)이라 하는데, 셔플은 노드 간 데이터 전송을 많이 발생시키므로 꽤 부담이 된다. 만약 조인할 테이블들 중 매우 작은 크기의 테이블이 있다면, 굳이 셔플하지 않고도 그 테이블만 다른 모든 노드로 복제한 다음 각 노드에서 조인할 수 있다. 이런 방식을 broadcast join이라 한다.
데이터 집계(aggregation)는 두 단계로 나눠볼 수 있다. 개별 노드에서 각자 결과를 집계하고(local aggregation) 그 결과를 모아 전체 결과로 집계한다(global aggregation). 그루핑(group by) 또는 정렬(order by)도 집계 처리와 같이 두 단계로 수행한다. 각 노드의 수행 결과를 모아 처리하는 방식은 MapReduce와 유사하다.
이 책은 소프트웨어 개발의 측면에 집중하여 R프로그래밍을 설명했다. 기본적인 프로그래밍 방법부터, 통계, 선형회귀, 그래픽, 기계학습, 문서 분류 등의 주제를 다루고 있다. R사용자의 입장에서 가장 필요한 데이터 조작의 측면에 많은 분량을 할애하였고 가능한 코드가 독립적이게하고 결과를 항상 제시하여 읽는 것 만으로도 쉽게 이해할 수 있도록 저술하였다.
연관 프로젝트(Hadoop Web). Query 엔진. ZooKeeper: 분산. 코디네이터. NoSQL. Chukwa: 데이터. 수집 분석. Machine Learning. Library. BSP 기반 분산컴퓨팅.
숫자를 다룬다면 Excel
너무나 유명한 스프레드시트 프로그램입니다. 회사에서든 집에서는 숫자를 다루는 대부분의 작업을 엑셀로 합니다. 엑셀을 워드프로세스로 사용하는 것도 좋습니다. 엑셀도 다양한 함수와 VBA라는 프로그래밍 언어를 제공하고 있어 왠만한 데이터 분석은 엑셀만 이용하면 충분합니다.
스프레드시트 프로그램은 셀에 데이터를 입력하는 데 엑셀 2003에서는 약 1700만개(65536행 X 256열)를 입력할 수 있었지만, 엑셀 2007로 넘어오면서 이 개수가 약 172억개(1048576행 X 16384열)로 늘었습니다. 하지만 라인수가 몇 만 개만 되어도 리소스를 엄청 잡아먹어 불편한 점은 있습니다. 
쉽고, 빠르고, 강력한 파이썬
페이스북의 데이터 과학자 채용공고를 보면 이런 항목이 있습니다. 'Python 또는 PHP와 같은 최소한 하나의 스크립트 언어를 자유롭게 사용할 것(Fluency with at least one scripting language such as Python or PHP)'.
파이썬은 플랫폼이 독립적이고 동적타이핑이 가능한 대화형의 스크립트 언어입니다. 배우기 쉽고 강력해 스크립트 언어의 지존이라고 불립니다. 구글, NASA 같은 곳에서 사용하고 토렌트, 마야 같은 프로그램들이 내부적으로 파이썬을 이용하고 있습니다.
데이터 분석을 위해 파이썬을 사용하기 위해서 Ipython, Numpy, Scipy, Pandas, Matplotlib, Beautiful Soup 등 다양한 라이브러리들을 사용할 수 있습니다. 각 항목에 대한 링크는 제 오픈캐스트에 걸어 두었습니다.
파이썬 통합개발환경(IDE), Ipython Notebook
파이썬은 기본적으로 IDLE이라고 불리는 IDE를 제공합니다. 간단한 작업에 사용하기에는 불편한 점이 없지만, 작업이 커지면 가독성 있는 폰트사용, 소스코드 입력과 실행 등에 다소 불편한 점이 있어 좀 더 강력한 IDE를 찾게 됩니다. Wing IDE, Eclipse+Pydev, Ipython Notebook 등이 많이 사용됩니다.
데이터 분석 목적으로 파이썬을 사용하는 경우는 Ipython Notebook을 추천합니다. Ipython에서 제공하는 Qt Console과 Notebook을 함께 사용하면 데이터 분석을 위한 최적의 환경을 구성할 수 있습니다. 
R 프로그래밍 언어는 SPSS, SAS와 같은 통계 계산과 그래픽을 위한 오픈소스 프로그래밍 언어이자 패키지 입니다. 파이썬이 일반적인 사용목적을 위한 도구라고 하면 R은 통계계산에 특화된 프로그래밍 언어라 통계학자와 사회과학과 이공계열의 각 분야 연구자들이 주로 사용합니다. R역시 기본적으로 IDE환경을 제공하지만 RStudio라는 통합개발환경을 주로 사용합니다. 
데이터 분석은 분석 대상을 찾는 단계에서 레포팅 하는 단계까지 여러 프로세스로 구성됩니다. 전체 프로세스에서 시각화가 차지하는 부분도 상당합니다. 어쩌면 분석 자체 보다는 그 결과를 '어떻게 사용자에게 이해하기 쉽게 전달하느냐?'가 더 중요할 지도 모릅니다. 그러기 위해서는 데이를 보기좋게 꾸미는 것도 중요합니다. 일반적인 프로젝트에서는 별도의 디자이너가 이 작업 수행하게 됩니다. 하지만 간단한 포토샵과 일러스트레이터는 배워두면 유용하게 사용됩니다. 
최근에 수집되는 데이터는 기본적으로 대량입니다. 이러한 대량의 데이터를 다루기 위해서는 데이터를 체계적으로 정리하고 수집,보관한 뒤 필요한 데이터를 적절하게 뽑아서 사용할 수 있어야 합니다. 그래서 데이터베이스의 테이블을 설계하고, 쿼리를 자유롭게 사용하는 능력이 필요합니다. 테이블 설계과 쿼리를 사용하기 위한 도구도 다양하지만 저는 Exerd와 SQL Developer를 사용합니다.
데이터베이스 설계 나에게 맡겨, Exerd
Exerd는 토마토 시스템즈에서 개발한 이클립스 기반의 지능형 E-R 도구입니다. 개인사용자는 무료로 이용할 수 있습니다. 현재 Oracle, Microsoft SQL Server, IBM DB2, MySQL을 대상으로 리버스/포워드 엔지니어링과 물리적 특성 편집을 지원하고 있습니다. 초보자도 데이터베이스 설계를 직관적이고, 쉽고, 빠르게 할 수 있습니다. 
쿼리 이거 하나면 충분, Oracle SQL Developer
SQL Developer는 Oracle에서 제공하는 SQL 개발도구입니다. 오라클 데이터베이스와 MS Access에 대한 데이터베이스 접속을 지원합니다. 데이터베이스에서 여러가지 쿼리를 통해 자유자재로 데이터를 추출하고 가공할 수 있도록 도와줍니다. 
대용량 실시간 데이터와 배치 데이터를 다양한 분석 도구를 이용하여 쉽고 빠르게 분석할 수 있는 In-Memory Computing 기반의 고성능 빅데이터 
일반적으로 빅데이터 시스템을 얘기하자면 다음과 같이 구성할 수 있을 듯 싶다. 다양한 채널을 통한 대량의 데이터 수집 작업, 그리고 수집된 데이터를 분석하여 연관된 데이터끼리 분류하는 작업, 분류된 데이터를 기반으로 분석, 정리하여 2차 데이터를 만드는 작업, 2차 데이터를 분석하여 최종 결과물을 만드는 작업으로 구성할 수 있을 것이다. 물론 2차 데이터를 기반으로 3차 데이터를 만들 수도 있고 2차 데이터를 만들기 위해 분류된 데이터를 직접 분석하여(2차 데이터의 생성 없이) 최종 결과물을 만들 수도 있을 것이다. 어찌되었던 수집과 분석, 처리, 결과 생성이라는 4단계가 빅데이터 시스템의 구성이라고 볼 수 있을 것이다.
빅데이터 시스템이라고 얘기하면 가장 많이 언급되는 솔루션은 다름아닌 하둡(Hadoop)이다. 하둡은 하둡 파일 시스템을 통한 데이터 수집 및 저장, 맵리듀스를 이용한 데이터 처리를 진행한다. 빅데이터 시스템의 특징이라고 한다면 정형화된 데이터가 아닌 비정형 데이터를 하나의 채널이 아닌 다양한 채널을 통해 소량이 아닌 다량의 데이터를 수집하여 처리하는데 있는데 하둡은 정형 데이터 뿐만이 아니라 비정형 데이터도 빨리 저장하며 처리할 수 있으며 게다가 오픈소스로 제공되기 때문에 커스터마이징 요소가 많아서 많은 빅데이터 솔루션 구축 기업들이 쉽게 접근해서 사용하고 있다. 그래서 빅데이터 솔루션이라고 한다면 대부분 하둡을 많이 얘기하며 많은 사람들이 그렇게 또 인식하고 있다.
하지만 앞서 얘기했던 것처럼 빅데이터 시스템의 구성이 수집과 분석, 처리, 결과 생성이라는 4단계로 구성된다고 했을 때 하둡은 수집과 처리를 맡아서 처리하는 하나의 파트라고 할 수 있을 것이다. 수집과 처리 사이에는 분석이라는 단계가 있는데 아쉽게도 빅데이터의 전문가라고 얘기하는 사람들이나 실제 프로젝트를 발주하려는 사람들은 단순히 하둡만 도입하면 빅데이터 시스템을 만들 수 있을 것이라고 생각하고 얘기하고 다니는 것을 보게 된다. 물론 다량의 데이터를 수집하고 저장하며 저장된 데이터를 빨리 처리하는 기술이 중요한 것은 사실이지만 어떤 기준으로 그 데이터를 분류하고 처리하게 할 것인가를 알려주는 것이 다름아닌 분석의 단계일진데 그저 데이터를 모으고 처리만 하면 된다고 얘기하는 사람들이 많고 실제로 프로젝트에서 진행되는 모습을 보면 그렇게 접근을 했다가 실패하는 빅데이터 관련 프로젝트들도 많은 것을 보게 된다. 어쩌면 빅데이터 시스템의 핵심은 수집이나 저장, 처리, 결과물 생성보다는 수집, 저장된 데이터를 어떻게 분류하고 데이터간의 연관관계를 찾는지를 연구하는 분석이 아닐까 하는 생각을 해본다. 데이터를 아무리 많이 수집을 해도 그 데이터들 사이의 연관관계를 찾지 못하면 그저 쓰래기 데이터들만 수집하고 저장한 것 밖에는 안된다. 저장소 낭비에 불과하다는 얘기다. 수집된 데이터들 사이의 연관관계를 찾아내는 분석의 단계가 무엇보다도 중요하다.
앞서 얘기했던 것처럼 한국의 빅데이터 시장은 수집과 저장, 그리고 빠른 처리에만 신경을 써왔다는 생각이 든다. 하둡 뿐만이 아니라 오라클, IBM, EMC 등의 다양한 밴더사들이 내놓은 빅데이터 시스템들도 어떻게 보면 하둡처럼 빠른 수집, 저장 및 처리를 내세운 솔루션들이며 이들을 도입하는 것으로 빅데이터 시스템을 도입했다고 생각하는 경우가 많다. 실제로 더 중요한 분석을 등한시 한다는 얘기다. 그리고 그 결과는 앞서 애기했던 것처럼 실무에 적용되지 못하고 그냥 방치되는 솔루션으로 전락하던지 아니면 구축과정 중에서 실패로 끝나는 상황이다.
그나마 최근에는 분석에 대한 이야기들이 나오고 있다. 수집이나 저장, 처리는 어떻게 보면 시스템적으로, 기술적으로 커버할 수 있지만 분석의 경우는 기술적으로, 시스템적으로 처리하기가 어렵다. 실제로 빅데이터 시스템에서 분석의 과정은 해당 빅데이터 시스템의 최종 결과물이 의미하는 내용에 대해서 잘 이해하는 사람이 수집된 데이터들을 보고 연관관계 및 연결성을 추측하고 몇번의 데이터 연관관계 및 연결성을 테스트하는 등 복잡한 단계를 지속적으로 반복해야 하는 힘든 과정이라고 할 수 있다. 결국 기술이 아닌 실제 그 실무에 대해서 풍부한 경험이 있어야 하며 기술에 대해서도 이해도가 높아야 하고 데이터간의 연관관계, 상관관계를 파악하기 위한 직관성, 통찰력, 분석력 등이 필요하다. 이런 능력은 단순히 시스템의 성능 향상이나 알고리즘으로 해결되는 것은 아니고 평소에 데이터에 대한 해석 및 분석 업무를 하거나 공부를 함으로 얻어지는 능력이라고 봐야 할 것이다. 국내의 빅데이터 시장에서 부족한 것은 바로 이런 분석 능력을 지닌 분석가가 부족하다는 점이다.
해외의 경우에는 단순히 하둡을 도입하여 데이터를 수집, 저장하고 처리하는데에 중점을 두지 않고 저장된 데이터를 어떻게 분류하고 연관관계, 상관관계를 도출하여 의미있는 결과물을 얻어내기 위한 키워드를 만들어내는 분석에 큰 비중을 두고 꾸준히 분석가들을 발굴하여 빅데이터 시스템 구축에 투입하고 있다. 그렇기 때문에 지금의 해외에서 인기있는 서비스들에는 이런 빅데이터 시스템이 잘 구축되고 적용될 수 있는 것이다. 국내에도 이런 분석가들이 지속적으로 발굴되고 키워져와야 하는데 아쉽게도 세계적인 추세에 좀 늦어지고 있다는 생각이 든다.
그래도 앞서 얘기했던 것처럼 분석, 분석가에 대한 이야기들이 점점 나오고 있다는 것은 고무적인 일이다. 늦었더라도 지금부터 꾸준히 분석가를 다양한 분야에 맞춰서 발굴하고 키운다면 수년 안에 한국의 빅데이터 시장에도 의미있는 빅데이터 솔루션, 시스템들이 만들어지고 실제 업무에 도입되어 사용되지 않을까 하는 생각이 든다. 단순히 시스템만으로 해결하는 것이 아닌 실제로 그 분야의 대해서 분석할 수 있는 분석가의 존재가 본격적으로 빛을 발할 때라는 얘기다. 하둡이 빅데이터의 전부인 것 마냥 얘기하는 시대가 아닌 그 데이터를 어떻게 분석하는지를 연구하는 분석가의 존재가 빅데이터의 성공 여부를 결정짓는 시대가 이제부터 본격적으로 한국에서도 진행될 것이라고 생각이 든다.
빅데이터의 숨은 가치
머신 데이터(machine data)는 빅데이터 중에서도 가장 성장 속도가 빠르고 복잡한 분야 중 하나입니다. 또한 트랜잭션, 소비자 행태, 센서 판독값, 기계 동작, 보안 위협, 부정행위 등에 대한 정확한 기록이 포함된 가장 가치 있는 데이터이기도 합니다. Splunk® 소프트웨어를 사용하면 모든 머신 생성 데이터의 숨은 가치를 발견할 수 있습니다.
오픈소스 기반의 통계언어 R과 빅 데이터 분석 - Data Mining
금융업에서 빅데이터는 어디에 사용될까요? 
상품개발, 마케팅활용, 신용평가, 리스크관리등에 활용이 되고 있네요. 
아래에 삼성화재, 현대해상 등에서 어떻게 빅데이터가 활용되고 있는지 사례가 있습니다.
갑작스런 도로위험상황, 여러분들도 많이 겪어보셨죠? 특히 밤에는 어두워서 앞이 잘 안보이기 때문에 이런 위험상황에 쉽게 노출되는 경우가 많습니다. 이럴 때마다 "왜 이런 상황을 미리 알려주지 않는거지? 미리 알 수 있는 방법이 없나?" 라고 생각하시는 분들이 있으셨을 텐데요. 
이런 불편한 점들을 빅데이터로 해결하고 있어 많은 화제가 되고 있습니다. 교통사고정보, 도로위험정보는 물론 대중교통에도 빅데이터를 통해 해결하고 있다고 하는데요. 우리의 생활을 편리하고 좀 더 똑똑하게 해주는 빅데이터가 어떻게 바꾸고 있는지 한번 확인해 보겠습니다
'똑똑한 행정' 빅데이터로 모두 해결, 시내버스 운행 및 산불예보도 개선 
새내기 대학생 강수원씨는 학교 근처에서 자취할 예정이다. 원룸을 알아보기 위해 주택지를 돌아다니면서 가장 걱정되는 점은 밤길 안전문제였다. 내가 매일밤 지나다녀야 하는 골목길에 CCTV는 충분히 설치되어 있을까?
경기도 수원시는 주택밀집지역, 학교, 하천, 산책로를 대상으로 CCTV/보안등 위치, 인구밀집도 등 빅데이터를 분석하여 안전사각지대를 도출하고 이로부터 향후 도입될 CCTV 설치 장소 선정 등에 활용하여 시민안전을 위해 선제적으로 대응한다.
정부가 보유한 빅데이터가 ‘똑똑한 행정’ 구현에 큰 역할을 하고 있습니다. 특히 CCTV·도로위험정보 등 안전 분야, 대중교통 등 국민편의 분야에서 국민 ‘삶의 질’을 높이는 데 크게 기여하고 있는 것으로 나타났는데요.
지난 10일 행정자치부는 정부3.0 “빅데이터를 활용한 과학적 · 미래지향적 행정구현” 추진 과제로 중앙부처 및 지방자치단체의 수요조사를 받아 11개 빅데이터 분석 과제를 수행하고 10일 보고회를 가졌습니다.
이번 보고회에서 특징적으로 살펴볼 것이 몇 가지가 있었습니다. 먼저 수원시 사례였는데요, 
오늘날 IT 시장의 주인공은 단연 빅데이터다. 빅데이터는 침입 감지에서 사기 예측, 나아가 항암치료 등의 다양한 활동들에 적용 가능한 솔루션으로 동작하면서 시장의 환호를 자아내고 있다. 가격적 측면에서도 거품이 걷혀가는 모습을 보여주고 있다.
하지만 (다양한 형태의 대량의 데이터를 고속으로 수집한다는 설명으로 정의가 가능할) 빅데이터는, 모든 문제에 대한 만병통치약이 아니다. 빅데이터를 둘러싼 이런저런 미신들은 시장 곳곳을 떠돌고 있다. 이런 미신을 순진하게 믿어버린다면, 기업은 나아갈 방향성을 잃거나 시간과 돈을 낭비할 것이다. 또는 시장 경쟁력을 상실하고 기업 평판에 타격을 입을 위험이 있다. 빅데이터를 둘러싼 대표적인 미신 10가지를 살펴보자.
미신 1: 데이터 과학자만이 빅데이터를 다룰 수 있다.
미신 2: 데이터가 클수록 가치도 커진다
 미신 3: 빅데이터는 대기업을 위한 것이다
 미신 4: 일단 수집하고, 분류는 다음에 하라
 미신 5: 모든 데이터는 동등하다
 미신 6. 예측은 구체적일수록 더 좋다
 미신 7: 빅데이터는 곧 하둡(Hadoop)이다
 미신 8: 최종사용자은 빅데이터에 직접적으로 액세스할 필요가 없다
 미신 9: 빅데이터는 큰 문제를 위한 것이다
 미신 10: 빅데이터 거품, 언젠가는 꺼질 것이다
미신 1: 데이터 과학자만이 빅데이터를 다룰 수 있다
데이터 과학자는 빅데이터로 모든 것을 가능케 하는 마법사가 아니다.
펜 메디신(Penn Medicine)의 데이터 애널리틱스 사업부 선임 이사 패트 패럴은 “기업이 우선적으로 필요로 하는 정보가 무엇인지도 모르는 상황에서 데이터 과학자에게 빅데이터로부터 정보를 발굴해낼 것을 기대하는 것은 앞뒤가 맞지 않는 일이다. 올바른 빅데이터 활용을 위해서는 업종에 익숙하고, 전문 지식 역시 갖추고 있으며, 그 곳에 존재하는 문제와 이를 해결하는데 필요한 시각을 갖춘 전문가가 필요하다”고 말했다.
예를 들어, 의료 시스템과 의과 대학을 모두 갖추고 있는 펜 메디신의 경우에는 오래 전부터 데이터 의료 시스템을 통한 데이터웨어하우스 임상 데이터 수집 활동을 진행해왔다. 그리고 의과 대학 내에서는 새로운 기술을 통해 인간 게놈 시퀀싱 과정을 진행하고 있다. 게놈 시퀀싱 활동에는 지금까지 시스템을 통해 수집된 막대한 데이터가 활용된다.
패럴은 “(그것을 발굴하지 못했던 과거에도) 우리는 데이터가 귀중한 자산임을 이해하고 있었다. 그리고 드디어 컴퓨팅의 힘을 이용해 여기에 접근할 수 있게 되었다. 데이터 애널리틱스와 의약 산업에 대한 전문 지식이 합쳐져 예측적 의료의 새로운 장이 열린 것이다”고 말했다.
SGA는 IBM의 빅데이터 기반 보안분석솔루션인 큐레이더를 적용한 통합보안관제솔루션 개발할 예정입니다. 큐레이더는 모든 IT시스템에서 생성되는 로그를 분석해 보안위협을 탐지하는 보안정보이벤트관리(SIEM), 위험관리, 로그관리, 네트워크 행동분석, 보안이벤트 관리 등을 하나로 합친 것이네요
근래 빅데이터 플랫폼 하둡과 운영체제 리눅스의 사용확대에 따라 오픈소스의 관심과 활용도가 아주 높아졌는데요..(현재는 구글에 의해 클로즈되어 가고 있지만 최초에 안드로이드 또한 완전 오픈소스였습니다.) 
오픈소스 라이센스에 대해 정리된 문서를 올립니다.
오픈소스 R (RA) 기반 빅데이터 분석 컨설팅
기존 데이터 마이닝을 위해 오픈소스 통계패키지 R을 많이 사용하고 있습니다
빅데이터 시대를 맞이하여 R의 활용도는 더욱 커지고 있지요.
탐 크루즈의 <마이너리티 리포트>란 영화를 본 적이 있는가? 그 영화에서 사람들이 쇼핑센터를 지날 때 보면, 고객의 동공을 스캔해서 인식한 광고판이 각각의 사람에게 지금 당장 필요한 물건을 파악하여 사라고 말하며 호객을 한다. 이러한 마케팅의 뒤에는 고객의 기호도, 감정상태, 소비 패턴 등의 저장된 빅데이터를 활용한 고객 분석 기법이 존재한다. 
빅데이터란 일차적으로 데이터의 양이 방대해 종래의 방법으로는 수집, 저장, 검색, 분석하기 어려운 것을 말한다. 이차적으로는 그런 큰 데이터를 여러 기법을 이용해 유의미한 정보로 만들어내는 과정까지를 포함한다. 2011년 하반기부터 우리나라에서도 무한경쟁의 세상을 헤쳐 나갈 새로운 블루오션으로 빅데이터란 말이 대유행하기 시작했다. 삼성경제연구소는 2013년 10대 트렌드의 하나로 빅데이터를 지목하며 이것이 미래의 성장 동력이 될 거라고 그 중요성을 강조했다. 
그런데 사실상 빅데이터는 오래전부터 우리 삶에 이미 들어와 있는 매우 실용적인 개념이라고 이 책의 저자는 말한다. 또한 빅데이터 시대에 해독능력을 위한 통계적 사고를 강조한다. 모든 분야에서 데이터를 모아 분석해 가장 올바르고 빠른 답을 알려주는 실용적인 학문인 통계는 과학적 의사결정의 근거가 되기에 현대 비즈니스맨이 지녀야 할 최강의 무기라는 것이다.
이 책은 일본에서 통계 관련 서적으로는 이례적으로 출간 3개월 만에 40만 부가 팔리는 이례적인 현상을 불러일으키며 상반기 경제경영 분야 베스트셀러 1위에 올랐다. 문제 해결에 있어서의 ‘최선의 척도’로 통계의 역할을 새롭게 인식한 이 책은 통계학을 공부하려는 사람을 위한 책이 아니라, 지금 이 순간 당신의 업무에, 기업에, 속한 공동체에 업무 비용을 줄이고 창조적인 경영을 계획할 수 있게 하는 최고의 활용서이다.
