카테고리 없음

[도서후기] "빅데이터 활용서Ⅰ" - R을 이용한 중·고급 데이터 분석의 바이블 -

사륜 구동 2014. 11. 12. 23:25
빅데이터 활용서 1 빅데이터 활용서 1
김경태, 안정국, 김동현 | 시대에듀 | 20150115
평점
상세내용보기
| 리뷰 더 보기 | 관련 테마보기

[도서후기] "빅데이터 활용서Ⅰ"

- R을 이용한 중·고급 데이터 분석의 바이블 -

지은이 : 김경태, 안정국, 김동현

발행처 : 시대에듀                     

인쇄일 : 2014년 9월 30일​ 초판

도서가 : 27,000원                    

 

 

빅데이터(Big Data), 최근 들어 많이 접하게 되는 용어이다. 그런데 개인적으로 이것이 정확히 뭘 말하는건지는 잘 몰랐다. 말 그대로 엄청난 양의 정보들을 모아둔걸 빅데이터라 한다고 생각했었을 뿐이다. 그런데 마침 <빅데이터 활용서Ⅰ> 이란 책을 접할 기회가 생겨 빅데이터가 뭔지, 빅데이터 분석이란건 어떤건지 제대로 한번 알아 보고자 했다. 이번 접한 책은 읽어 보니 개념설명서라기 보다는 현장에서 직접 업무를 행하는 실무자들이 실전에서 활용할 수 있도록 저자들의 경험과 사례들을 가지고 저술된 실무적인 서적이었다.​ 관련 업무를 하시는 분들에겐 활용도가 높은, 아주 요긴한 책일거란 생각이 들었다.

책은 좀 큰 편인데, 들고 다니면서 보는 책이라기 보다는 업무를 할 때 옆에 놓고 필요할 때마다 찾아보는 책일 것이기에 별 상관은 없을 것 같다. 워드나 엑셀, 포토샵 같은 프로그램 해설 책자들을 생각함 되시겠다.

 

일단 <R>이 뭔지를 찾아 보았다. <R>은 프로그래밍 언어의 한 종류로 통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경이라고 한다. 뉴질랜드 오클래드 대학의 로스 이하카와 로버트 젠틀맨에 의해 시작되어 현재는 R 코어 팀이 개발하고 있는 "R"은 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있단다. 또한 패키지 개발이 용이하여 통계학자들 사이에서 통계 소프트웨어 개발 용도로 많이 쓰이고 있다고 한다. 하긴 내가 처음 프로그래밍 언어로 코볼이란걸 배웠던게 20여년전 일이니 그동안 이 분야에도 많은 발전이 있었을게 당연한 얘기일게다..

 

책은 3명의 빅데이터 분석 전문가들이 공동으로 저술했다. 각각 저자들의 경력이 다양한데 데이타베이스분석 컨설턴트, 회계사, 신평사와 같이 빅데이터와 관련된 현업에서 실제 빅데이터 분석업무에 경력을 쌓은 사람들이 저술하였으니 전문적이고도 실무적인 내용이라는게 이해가 된다.

 

 

 

책은 <프롤로그>, <머릿말>, <1장. R을 이용한 빅데이터 분석 이론 및 실습>, <2장. Twitter Data를 활용한 기업평판 분석>, <3장. 텍스트 데이터를 활용한 거짓식별>, <4장. 자동차 이미지 식별>, <5장.코호트 DB를 이용한 질병 예측>, <6장. 원/달러 환율 예츩>, <7장. 소셜 네트워크 분석을 결합한 나스닥 주가예측>, <8장. 상장폐지 예측 모델>, <책을 마치며>로 구성되어 있다.  목차를 처음 보았을 때는 '나스닥 주가예측'과 '상장폐지 예측모델'에 관심이 갔었다. 그런데 이해하기엔 너무나 전문적이고 실무적인 내용들이었다...

 

 


 

 

<프롤로그>는 한 페이지에, 간단한 문장으로 되어 있는데 이 책의 성격을 분명하게 말하고 있다. 한마디로 실습서에 가까운 책이란걸 말이다.. 근데 마이닝기법이 뭘 말하는건지 통 모르겠다.. 그래서 알아봤다. 데이터마이닝(data mining)이란 <많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정>을 말한단다. 이것은 직장인들이면 PC를 통해 하고 있는 업무인 자료분석, 최적대안 도출, 의사결정 정보 제공 같은 업무를 말하는 줄 알았다. 그런데 책을 좀 더 읽어 나가니 그렇게 단순하게 생각할 분야가 아니었다..

 



 

 

<머릿말>에는 책을 저술한 저자 1명이 개인 소감들을 쓰고 있다. 빅데이터 활용서라는 제목의 실무적인 책자답게 DB와 관련된 이야기들이 많이 나오고 있다.

 


 

 

책에서 개념 설명은 1장 1~2절에서 나오고 있다. 그 이후로는 프로그램 언어와 차트, 도표들과 같은 실무적인 내용으로 채워져 있는데 마치 프로그래머 수험서를 보는 듯한 착각이 들기도 했다. 이 부분은 전문적인 부분이기에 나와 같이 이 분야에 대해 접할 기회가 없는 문외한의 경우에는 이해하기가 좀 어려운 내용들이었다.. 나의 경우에는 프로그래밍 언어로 학부시절 전산학개론 강좌에서 들었던 코볼, 파스칼, 포트란, 베이직, C 란거 말고는 명칭 조차 들은적 없다 보니 더욱 그러했다..


 




 

 

<책을 마치며>에는 책의 전반적인 사항을 다시 한번 요약 정리하고 있다. 책에 기술한 내용들은 저자가 실제 작업한 내용과 워크숍을 통해 검증된 내용들이라고 한다.

 

 

 

 

'빅데이타'가 뭔지, 'R'이 뭘 말하는건지 잘 모르는 상태에서 이 분야에 대해 알아 보기엔 나의 기본 지식 수준이 너무 부족했다. 'R'이 프로그래밍 언어의 한 종류란 것 조차 몰랐으니 말이다... "R을 이용한 중고급 데이터 분석"이란 말을 보고 단순히 개념서적일거라 섣부르게 판단한 나의 생각에 화가 나기도 했지만, 개념 설명 부분만큼은 잘 모르던 분야의 지식을 쌓는데 많은 도움이 되었다. 이 책은 단순히 빅데이타 분석이란게 뭔지 궁금한 사람에게는 권할 만한 수준의 책은 아니지만, 빅데이타분석, 데이타마이닝이란 업무를 하는 분에게는 많은 도움이 될 것이라 생각된다.

  

 

 

작가
김경태, 안정국|김동현
출판
시대에듀
발매
2015.01.15

 



이글은 "인터파크도서"에서 작성되었습니다.