메뉴 건너뛰기



도서목록

분야별도서검색

분야별도서검색 경영학 회계학 무역학 경제학 관광학 통계학 전산정보학 비서학 문헌정보 일반교양

도서상세검색

신간도서

현재 페이지 위치 : Home > 도서목록 > 신간도서
확대보기
웹 스크레이핑과 데이터분석
  • 저자 : 곽기영
  • 발행일 : 2018-8-25
  • ISBN : 978-89-86248-651-6 93000
  • 정가 : 35,000원
  • 기타 : 678페이지 / 국배변형판 / 양장
머리말

월드와이드웹(World Wide Web)은 이미 데이터분석에 이용할 수 있는 유용한 데이터로 차고 넘친다. 과거에는 데이터 부족이 문제였다면 지금은 오히려 데이터 과잉이 문제일 수 있다. 다양한 형식, 다양한 구조, 다양한 기술로 복잡하게 얽혀 있는 데이터를 어떻게 효과적이고 효율적으로 확보할 수 있느냐가 더 중요한 이슈가 되고 있다. 어떤 데이터는 단순한 형식의 정형화된 텍스트로 저장되어 있어 비교적 쉽게 분석에 활용할 수 있는 반면, 어떤 데이터는 비정형적 구조로 인해 좀 더 복잡한 기술과 절차가 요구되기도 한다. 웹사이트상에 게시된 비구조화된 데이터로부터 분석을 위해 필요한 구조화된 데이터를 추출하는 과정을 웹 스크레이핑(web scraping)이라고 한다. 이 책은 웹상에 다양한 방식으로 저장된 데이터를 R을 이용하여 자동으로 수집하는 체계적인 방법을 소개한다.
이 책은 다음과 같은 특징을 갖는다. 첫째, 웹 스크레이핑 과정에 필요한 기반기술을 가능하면 특정 프로그래밍 언어와 독립적으로 설명하려고 노력하였다. 이 책은 비록 R을 바탕으로 웹 스크레이핑 과정을 소개하고 있기는 하지만 웹 스크레이핑의 중요한 개념적?기술적 요소는 어느 언어나 도구를 사용하더라도 공통적인 이해가 필요한 부분이라고 믿고 있기 때문이다. 둘째, 가능한 여러 분야의 사례를 포함하였다. 웹 스크레이핑의 어려움 중의 하나는 데이터 추출 과정에 매우 많은 경우의 수가 존재한다는 것이다. 따라서 모든 문제를 해결할 수 있는 만병통치약과 같은 단일 접근법은 존재하지 않는다. 갖가지 형태의 웹사이트로부터 여러 방식의 데이터 추출 과정을 접해봄으로써 이러한 어려움을 어느 정도 극복할 수 있을 것이다. 셋째, 단순히 데이터 수집에 그치지 않고 가능하면 데이터분석과 시각화 과정을 함께 경험해볼 수 있도록 하였다. 이 책은 웹 스크레이핑 방법을 소개하는 것이 주목적이긴 하지만 데이터 수집은 궁극적으로 분석을 목적으로 한다는 것을 간과할 수는 없다. 따라서 수집한 데이터를 이용하여 가능한 범위 내에서 머신러닝, 텍스트 마이닝 및 토픽모델링, 네트워크분석, 시계열분석 등의 데이터분석을 수행하였다. 또한 다양한 관점에서 데이터를 시각화하여 분석 과정에 풍부함을 더할 수 있도록 하였다. 그러나 이 책의 주목적이 웹 스크레이핑이라는 점을 고려하여 데이터분석과 시각화는 수집한 데이터의 특성을 이해하는 수준에서 최소화하였으며 그에 대한 설명도 제한적인 수준에서 그쳤다. 그래서 이 책에서 보다 깊이 소개하지 못한 데이터분석 기법들은 필자의 다른 책에서 다루는 것으로 미룰 수밖에 없었다.
이 책을 집필하고 출간하기까지는 많은 사람들의 도움이 있었다. 도서출판 청람의 이수영 대표는 이 책이 출판될 수 있도록 아낌 없는 지원을 하였으며, 편집부는 편집과 관련된 전문적 의견을 제시하여 필자가 내용을 가다듬는 데 보다 집중할 수 있도록 도움을 주었다. 집필 과정에서 의지할 수 있는 가족이 없었다면 이 책의 출간은 더욱 오랜 시간이 걸렸을지도 모른다. 끝으로 아내와 아들, 딸에게 고마움을 전한다.

2018년 8월
곽기영
Chapter 1 웹 스크레이핑 개요
Chapter 2 파일 다운로드
Chapter 3 텍스트 패턴매칭
Chapter 4 XPath
Chapter 5 CSS 선택자
Chapter 6 JSON
Chapter 7 API
Appendix A ggplot2 그래픽
곽기영
곽기영 교수(kykwahk@kookmin.ac.kr)는 국민대학교 경영대학과 비즈니스IT전문대학원에 재직 중이다. 서울대학교 경영대학을 졸업하였으며 KAIST에서 석사 및 박사 학위를 취득하였다. 한국경영학회, 한국경영정보학회, 한국경영과학회, 한국지식경영학회, 한국지능정보시스템학회, 한국정보시스템학회, 한국기술이전사업화학회, 디지털산업정보학회 등으로부터 논문상을 수상하였다. ?통계데이터분석?, ?소셜네트워크분석?, ?R 기초와 활용? 등의 저서를 출간하며, 통계 및 데이터분석 분야에서 활발한 저술 활동을 하고 있다. 삼성SDS에서 정부기관 및 기업들을 상대로 정보전략계획, 비즈니스 프로세스 리엔지니어링, e-비즈니스 등과 관련된 프로젝트를 수행하며 IT 컨설턴트로 재직한 경험이 있으며 CISA(Certified Information Systems Auditor), PMP(Project Management Professional), CGEIT(Certified in the Governance of Enterprise IT) 등의 국제자격
을 보유하고 있다.