메뉴 건너뛰기



도서목록

분야별도서검색

분야별도서검색 경영학 회계학 무역학 경제학 관광학 통계학 전산정보학 비서학 문헌정보 일반교양

도서상세검색

분야별도서

현재 페이지 위치 : Home > 도서목록 > 분야별도서
확대보기
SPSS, R, Python을 활용한 Kaggle 데이터 전략 실무 연습
  • 저자 : 김광용 정성원 이성택 이재모 임은택
  • 발행일 : 2022-4-15
  • ISBN : 978-89-5972-875-6 93000
  • 정가 : 28,000원
  • 기타 : 452페이지 / 4X6배판 / 반양장
머리말

2018년 정보화진흥원의 보고서에서는 데이터 수집, 저장, 가공, 분석 및 활용하는 과정에서 데이터를 활용함으로써 기업의 새로운 시장 확보, 새로운 고객 확보, 기업 내ㆍ외부 프로세스 최적화와 공공에서의 사회적 서비스 비용 감소, 시민 맞춤형 공공서비스 개발 등 사회 전반에 걸친 분야에 영향을 미칠 것으로 보았다.
기존 경제 시스템을 주도하던 자원은 점차 고갈되고 거래를 통해 부가가치를 창출하는 과정에서 점차 소진되는 특성을 가지고 있는 것과 달리, 4차 산업혁명의 핵심 자원인 데이터는 수집을 통한 생산 이후에도 고갈의 염려 없이 생산이 가능할 뿐만 아니라 데이터의 거래, 데이터를 활용한 부가가치를 창출하는 과정에서 소진의 염려가 없이 지속적으로 사용할 수 있다는 장점을 가지고 있다. 그렇기 때문에 자원의 보유(데이터의 수집과 저장)도 중요하지만 더 중요한 것은 보유한 데이터를 활용하여 새로운 기술과 서비스, 창의적 비즈니스 모델을 창출해낼 수 있는 전략적인 경험과 창의적 사고 능력이 중요해진 것이다.
데이터를 이용하여 혁신적인 가치를 창출하는 데이터 과학자는 4차 산업혁명의 중요한 인력으로 평가받고 있다. 이러한 데이터 과학자가 보유해야 하는 역량에는 조금씩 차이가 존재할 수 있겠지만 데이터 수집 및 관리와 같은 컴퓨팅 능력, 통계 및 데이터 분석 알고리즘 이해 및 시각화와 같은 데이터 분석 능력, 데이터를 활용하고자 하는 분야의 도메인 지식이 필요하며, 기업에서는 또한 이러한 능력을 갖춘 인재를 영입하기 위해 많은 비용을 사용하고 있다. 이러한 분위기 속에서 시중의 많은 데이터 분석과 데이터 과학에 대한 교재는 주로 데이터 분석 코드와 알고리즘에 관한 책을 쏟아내고 있다.
그러나 이러한 변화에도 불구하고 21년 정보통신정책연구원이 국내의 152개의 기업을 대상으로 AI 수요에 대한 설문조사를 한 결과, 기업은 사업 구체화, 문제정의, AI에 대한 이해, 도메인과 AI 기술의 결합, 모델 고도화를 위한 인재의 부족으로 인해 AI 도입을 꺼릴 뿐만 아니라 도입 후에도 많은 어려움을 겪고 있다는 결과를 보여주고 있다. 이에 대한 대응으로 클릭만으로 머신러닝(Machine Learning: ML) 모델을 활용하여 분석이 가능한 Auto ML 서비스뿐만 아니라, AI 기술을 기반으로 데이터의 수집과 관리, 운영 및 활용을 원활하게 할 수 있는 데이터플랫폼 서비스들이 등장함으로써 점차 범용적인 데이터 분석과 AI 모델의 활용이 가능할 것으로 예상하고 있다.
따라서 향후 비즈니스 환경에서 점차 보편적인 데이터 분석이 가능해진다면 도메인지식과 전략적으로 데이터를 바라볼 수 있는 창의적인 사고를 바탕으로 문제를 정의하고 해결해가는 과정에 대해 이해하고 연습할 필요가 있다. 그러나 앞서 말한 것과 같이 시중의 많은 교재들은 데이터 분석을 위한 코드에 집중하고 있다. 본 교재에서는 코딩에 대하여 데이터 분석을 하는 첫 페이지에 QR코드를 통해서 R 또는 Python을 활용하여 교재의 분석내용을 구현한 코드를 제공하긴 하지만 데이터 분석을 위한 코딩에 대해서는 이야기하지 않는다. 가장 중요한 것은 데이터가 주어졌을 때 어떻게 문제를 정의하고, 문제를 해결하기 위한 과정을 연습해보고 경험을 하는 것이라고 보기 때문이다.
본 교재에서는 데이터 분석 경험이 많지 않은 독자들을 대상으로 R 또는 Python이 아닌 통계분석 소프트웨어인 SPSS를 활용하여 분석을 실시한다. SPSS는 클릭을 통해 빈도분석, 통계적 검증을 위한 t검정, 교차분석, 상관분석, 회귀분석뿐만 아니라 의사결정나무, 단층 신경망 등의 ML 기법까지 사용 가능하기 때문에 코딩을 사용한 데이터 분석이 낯선 학생들에게 가장 적합한 툴이라고 판단하였다.
데이터 분석을 위해서는 어떻게 문제를 정의하고, 문제를 해결하기 위해 어떠한 데이터를 수집하고 사용해야 할지 판단하는 것이 시작점이지만, 교재를 통해 데이터 수집까지 다루기엔 한계가 있기 때문에 본 교재에서는 Kaggle이라는 빅데이터 분석 커뮤니티에서 공개된 데이터를 활용한다. 2장에서는 Kaggle에서 공개된 데이터를 통해 어떻게 문제에 접근하고 분석이 가능한지 예제를 보여줌으로써 교재의 방향성을 설명하고자 하였다. 3~6장까지는 이진분류, 연속변수 예측, 현황분석, 이상탐지라는 큰 주제하에서 Kaggle에서 수집한 데이터를 분석 목적에 맞춰 분리하여 비슷한 문제를 해결하기 위해 어떻게 데이터를 바라보았는지, 어떤 분석을 사용하고 어떻게 결론을 내리고 있는지 보여주고자 하였다.
본 교재를 활용하여 코딩에 대하여 겁내지 않고 자신의 경영학적 또는 다양한 도메인 지식을 활용하여 문제를 파악하고, 문제를 해결하기 위해 데이터를 어떻게 분석하고 결론을 내는지에 대한 체험하는 과정을 통하여, 데이터 활용에 대한 전략적 사고와 창의적 사고 능력을 겸비한 많은 인재들이 양성될 수 있기를 희망한다.

저자 일동
Chapter 1 데이터 과학과 Kaggle 활용
Chapter 2 Kaggle(telco churn data) 활용 실습 사례
Chapter 3 Kaggle 데이터를 활용한 이진 분류 예측
Chapter 4 Kaggle 데이터를 활용한 연속변수 예측
Chapter 5 Kaggle 데이터를 활용한 현황 분석
Chapter 6 Kaggle 데이터를 활용한 이상탐지
김광용
[학력]
조지아주립대학 경영학박사 MIS 전공(1995)
[경력]
메타버스 감성혁신포럼 의장(2021~현재)
숭실대학교 경영학부 교수, SNS마케팅 연구소장(1996~현재)
한국 IT서비스학회 회장, 한국 글로벌경영학회 회장(2014~2016, 2020)
[수상]
옥조근정훈장(2021)
Marquis Who’s Who in the World, Albert Nelson Lifetime Achiever(Data Analysis 분야)(2017)
Top 100 Educators in the World(세계 100대 교육자) 영국 국제인명센터 IBC 등재(2015)
[연구실적]
빅데이터분석분야 국내외 저널 약 150여 편 논문발간

정성원
[학력]
숭실대학교 일반대학원 IT정책경영학과 공학박사(2019.8)
중앙대학교 일반대학원 통계학과 경제학석사(1990.2)
[경력]
㈜데이타솔루션 빅데이터 러닝센터 총괄상무(1990.7~현재)
[연구실적]
대학도서관 시범평가 정량지표 점수 산출 방식 및 만족도 조사 추진 방법에 대한 통계적 검토(2020)
데이터 활용역량 진단 및 평가 ? 개인 자가진단 모델을 중심으로(2020)
벡터공간모델을 활용한 상품추천 알고리즘에 관한 실증연구(2019)
데이터과학자의 이직의도에 미치는 요인에 관한 연구(2019)
Measuring Similarity of Travel Blog Documents(2019)

이성택
[학력]
숭실대학교 공학박사 IT서비스경영 전공(2018)
[경력]
용인대학교 AI학부 교수(2020~현재) / 교수학습지원센터장(2022~현재)
(사)한국융합보안학회 이사(2020~현재)
(사)글로벌경영학회 이사(2019~2020)
기업·기술가치평가사(2018~현재)

이재모
[학력]
숭실대학교 경영학박사 MIS 전공(2018)
[경력]
와이더플래닛 팀장(2021~2022)
롯데멤버스 매니저(2020~2021)
지티씨솔루션 책임(2018~2019)
티몬 매니저(2016~2017)

임은택
[학력]
숭실대학교 일반대학원 경영학과 MIS 전공 석사(2019.2)
[경력]
SNS마케팅연구소 연구원(2019.2~현재)
[연구실적]
The Detection of Brand Identity and Image Using Semantic Network Analysis(2022)
(기상청) 기상융합서비스 정책 및 운영체제 개선을 위한 비즈니스모델 조사·분석(2021)
The Effects of Product’s Visual Preview and Customer Review on Sale Performance in Mobile Commerce(2021)
The Effects of Product’s Visual Preview on Customer Attention and Sales Using Convolution Neural Networks(2021)
A Study on the Factors Affecting Usage Intention of Digital Twin Technology in Product Design(2019)