
미래 예측의 과학적 방법론 머신러닝을 활용한 예측분석론
Description
책소개
이 책은 크게 세 가지 내용을 담고 있습니다.
첫째, 예측분석의 이론적 기반과 역사적 발전 과정을 살펴봅니다.
이를 통해 독자들은 예측이 단순히 최근의 기술 트렌드가 아니라, 과거부터 축적되어 온 과학적 탐구의 연장선임을 이해할 수 있을 것입니다.
둘째, 머신러닝의 다양한 알고리즘에 관해 설명합니다.
회귀분석, 의사결정나무, 랜덤 포레스트, 신경망 등 대표적인 기법들을 알기 쉽도록 설명하며, 독자들이 직접 실무에 적용하는 능력을 기를 수 있도록 안내합니다.
셋째, 예측분석과 데이터 분석이 실제 사회와 산업 현장에서 어떻게 활용되고 어떤 영향을 미칠 수 있는지를 논의합니다.
이를 통해 예측이 단순히 학문적 연구를 넘어 사회 문제 해결에 이바지할 수 있음을 강조합니다.
특히 이 책은 학문적 엄밀성과 실무적 실용성의 균형을 추구합니다.
학부 또는 대학원 학생들에게는 체계적 교재로, 연구자들에게는 응용 사례의 지침서로, 현업 실무자들에게는 실질적 도구로서 기능할 수 있기를 바랍니다.
첫째, 예측분석의 이론적 기반과 역사적 발전 과정을 살펴봅니다.
이를 통해 독자들은 예측이 단순히 최근의 기술 트렌드가 아니라, 과거부터 축적되어 온 과학적 탐구의 연장선임을 이해할 수 있을 것입니다.
둘째, 머신러닝의 다양한 알고리즘에 관해 설명합니다.
회귀분석, 의사결정나무, 랜덤 포레스트, 신경망 등 대표적인 기법들을 알기 쉽도록 설명하며, 독자들이 직접 실무에 적용하는 능력을 기를 수 있도록 안내합니다.
셋째, 예측분석과 데이터 분석이 실제 사회와 산업 현장에서 어떻게 활용되고 어떤 영향을 미칠 수 있는지를 논의합니다.
이를 통해 예측이 단순히 학문적 연구를 넘어 사회 문제 해결에 이바지할 수 있음을 강조합니다.
특히 이 책은 학문적 엄밀성과 실무적 실용성의 균형을 추구합니다.
학부 또는 대학원 학생들에게는 체계적 교재로, 연구자들에게는 응용 사례의 지침서로, 현업 실무자들에게는 실질적 도구로서 기능할 수 있기를 바랍니다.
목차
머리말 / 06
1.
예측 분석 왜 중요한가?
1.1.
용어 속의 의미 / 16
1.2.
애널리틱스(analytics)와 애널리시스(analysis)의 차이 / 20
1.3.
데이터 마이닝(data mining)은 어디에 위치하는가? / 20
1.4.
애널리틱스와 데이터 사이언스가 갑자기 주목받는 이유 / 21
1.5.
애널리틱스의 응용 분야 / 24
1.6.
애널리틱스의 주요 도전 과제 / 25
*요약 / 31
2.
비즈니스 분석에 대한 분류 체계
*요약 / 48
3.
예측 분석과 데이터 마이닝
3.1.
데이터 마이닝이란 무엇인가? / 55
3.2.
데이터 마이닝이 아닌 것은 무엇인가? / 58
3.3.
일반적인 데이터 마이닝 응용 분야 / 60
3.4.
데이터 마이닝으로 발견할 수 있는 패턴의 종류 / 66
3.5.
데이터 마이닝의 학습 방식 분류 / 68
3.6.
데이터 마이닝의 그늘: 개인정보 침해 문제 / 73
*요약 / 78
4.
예측 분석을 위한 표준화된 절차
4.1. KDD(Knowledge Discovery in Databases) 프로세스 / 81
4.2. CRISP-DM: 범용 데이터 마이닝 표준 프로세스 / 82
4.3. SEMMA / 94
4.4. SEMMA와 CRISP-DM의 비교 / 99
4.5.
데이터 마이닝을 위한 식스 시그마(Six Sigma) / 100
4.6.
어떤 방법론이 가장 우수한가? / 103
*요약 / 103
5.
예측 분석을 위한 표준화된 절차
5.1.
데이터 분석에서의 데이터의 본질 / 107
5.2.
범주형 데이터와 수치형 데이터의 특성 / 108
5.3.
분석을 위한 데이터 전처리 / 113
5.4.
데이터 마이닝 기법 / 121
5.5.
분류기법 개요 / 137
5.6.
데이터 마이닝과 예측 분석에 대한 오해와 현실 / 160
*요약 / 164
6.
머신러닝 모델의 학습
6.1.
회귀와 분류 모델 / 166
6.2.
비용 함수와 머신러닝 모델의 학습 / 170
6.3.
최대 우도 추정 / 172
6.4.
경사 기반 학습 / 174
6.5.
회귀 및 분류 과업에서의 성능 평가 / 179
*요약 / 182
7.
예측 분석을 위한 표준화된 절차
7.1.
나이브 베이즈(Naive Bayes) / 187
7.2.
k-최근접 이웃(k-Nearest Neighbor: k-NN) / 193
7.3.
인공신경망(Artificial Neural Networks: ANN) / 199
7.4.
서포트 벡터 머신(Support Vector Machines: SVM) / 205
7.5.
선형 회귀 / 211
7.6.
로지스틱 회귀 / 218
7.7.
시계열 예측(Time-Series Forecasting) / 220
*요약 / 222
8.
텍스트 분석, 토픽 모델링, 감성 분석
8.1.
자연어 처리(Natural Language Processing: NLP) / 231
8.2.
택스트 마이닝 프로세스 / 238
8.3.
토픽 모델링(topic modeling) / 248
8.4.
감정 분석(Sentiment Analysis) / 253
*요약 / 264
1.
예측 분석 왜 중요한가?
1.1.
용어 속의 의미 / 16
1.2.
애널리틱스(analytics)와 애널리시스(analysis)의 차이 / 20
1.3.
데이터 마이닝(data mining)은 어디에 위치하는가? / 20
1.4.
애널리틱스와 데이터 사이언스가 갑자기 주목받는 이유 / 21
1.5.
애널리틱스의 응용 분야 / 24
1.6.
애널리틱스의 주요 도전 과제 / 25
*요약 / 31
2.
비즈니스 분석에 대한 분류 체계
*요약 / 48
3.
예측 분석과 데이터 마이닝
3.1.
데이터 마이닝이란 무엇인가? / 55
3.2.
데이터 마이닝이 아닌 것은 무엇인가? / 58
3.3.
일반적인 데이터 마이닝 응용 분야 / 60
3.4.
데이터 마이닝으로 발견할 수 있는 패턴의 종류 / 66
3.5.
데이터 마이닝의 학습 방식 분류 / 68
3.6.
데이터 마이닝의 그늘: 개인정보 침해 문제 / 73
*요약 / 78
4.
예측 분석을 위한 표준화된 절차
4.1. KDD(Knowledge Discovery in Databases) 프로세스 / 81
4.2. CRISP-DM: 범용 데이터 마이닝 표준 프로세스 / 82
4.3. SEMMA / 94
4.4. SEMMA와 CRISP-DM의 비교 / 99
4.5.
데이터 마이닝을 위한 식스 시그마(Six Sigma) / 100
4.6.
어떤 방법론이 가장 우수한가? / 103
*요약 / 103
5.
예측 분석을 위한 표준화된 절차
5.1.
데이터 분석에서의 데이터의 본질 / 107
5.2.
범주형 데이터와 수치형 데이터의 특성 / 108
5.3.
분석을 위한 데이터 전처리 / 113
5.4.
데이터 마이닝 기법 / 121
5.5.
분류기법 개요 / 137
5.6.
데이터 마이닝과 예측 분석에 대한 오해와 현실 / 160
*요약 / 164
6.
머신러닝 모델의 학습
6.1.
회귀와 분류 모델 / 166
6.2.
비용 함수와 머신러닝 모델의 학습 / 170
6.3.
최대 우도 추정 / 172
6.4.
경사 기반 학습 / 174
6.5.
회귀 및 분류 과업에서의 성능 평가 / 179
*요약 / 182
7.
예측 분석을 위한 표준화된 절차
7.1.
나이브 베이즈(Naive Bayes) / 187
7.2.
k-최근접 이웃(k-Nearest Neighbor: k-NN) / 193
7.3.
인공신경망(Artificial Neural Networks: ANN) / 199
7.4.
서포트 벡터 머신(Support Vector Machines: SVM) / 205
7.5.
선형 회귀 / 211
7.6.
로지스틱 회귀 / 218
7.7.
시계열 예측(Time-Series Forecasting) / 220
*요약 / 222
8.
텍스트 분석, 토픽 모델링, 감성 분석
8.1.
자연어 처리(Natural Language Processing: NLP) / 231
8.2.
택스트 마이닝 프로세스 / 238
8.3.
토픽 모델링(topic modeling) / 248
8.4.
감정 분석(Sentiment Analysis) / 253
*요약 / 264
책 속으로
1.
예측 분석 왜 중요한가?
이 책의 핵심 주제인 예측 분석(predictive analytics)은 비즈니스 분석(business analytics)에 있어서 매우 중요한 역할을 한다.
예측 분석의 주요 목적은 앞으로 발생할 사건과 상황을 미리 파악하여, 의사결정자들이 다가오는 기회를 적시에 포착하거나, 어떠한 문제가 발생하기 전에 이를 예방하거나 그 영향을 최소화하도록 돕는 것이다(Dada et al., 2024).
예측 분석은 과거에 일어난 일을 중점적으로 분석하는 기술인 기술적 분석(descriptive analytics)과 앞으로 어떤 결정을 내려야 할지를 선제적으로 안내하는 처방적 분석(prescriptive analytics) 사이에 위치한다.
예측 분석은 기술적 분석이 제공하는 과거의 정보나 패턴을 바탕으로 미래에 일어날 가능성이 높은 결과를 산출하고, 이는 처방적 분석을 위해 사용되고 최적의 의사결정을 위한 인사이트(insight)를 제공하게 된다.
비즈니스 인텔리전스(business intelligence)와 비교했을 때, 비즈니스 분석은 비교적 최근에 등장한 용어로 실제 산업 현장에서 빠르게 주목 받고 있다(Adaga et al., 2024).
일반적으로 분석(analytics)이란 복잡한 수학적 모델, 다양한 데이터, 전문가의 지식을 활용하여 의미 있는 인사이트를 발견하고 이를 바탕으로 정확하고 시의적절한 의사결정을 지원하는 기술이다.
다시 말해, 분석은 의사결정과 문제 해결을 위한 모든 과정이라고 할 수 있다.
오늘날은 방대한 양의 데이터가 존재하는 데이터 홍수의 시대이며, 대량의 다양하고 복잡한 데이터를 선별하고 처리하는 분석은 더욱 중요해지고 있다.
실제로 예측 분석은 데이터 중심으로 이루어지는 경우가 많지만 데이터 없이도 실행되는 분석 프로젝트들도 존재한다.
이들은 데이터 기반이 아닌, 프로세스 기술이나 전문가 지식에 의존하여 수학적 모델이나 기호 기반 모델(예: 최적화, 시뮬레이션, 전문가시스템, 사례 기반 분석 등)을 활용한다.
따라서 어떠한 분석이 실제로 데이터에 기반했는지를 명확히 구분하고자 ‘데이터 분석(data analytics)’이라는 보다 구체적인 용어가 등장하게 되었다.
한편 비즈니스 분석은 이러한 분석 도구, 기법, 원리를 복잡한 비즈니스 문제에 적용하는 것을 의미한다(김수경, 2024).
특히 조직은 데이터가 풍부한 분야에서 분석 기법을 적용해 다음과 같은 방식으로 성과를 설명하고, 예측하며, 최적의 해법을 찾고 있다.
·고객과의 관계 개선(고객 확보, 유지, 가치 증대 등)
·부정 거래나 바람직하지 않은 행동/결과를 탐지하여 비용 절감 및 성과 개선
·제품 및 서비스 기능과 가격을 개선하여 고객 만족도와 충성도를 높이고 수익성 향상
·특정한 상품이나 서비스 수요를 예측하여 재고 소진을 사전에 예방하여 운영의 수월성 달성
·마케팅 및 광고 캠페인을 최적화하여 최소한의 비용으로 더 많은 고객에게 정확한 메시지 전달
·시뮬레이션과 최적화를 통해 효율적인 운영 관리 및 자원 배분을 추구하며 비용 절감
·고객 대응 과정에서 직원이 보다 빠르고 정확하게 의사결정을 내릴 수 있도록 정보와 통찰 제공
최근 들어 분석이라는 용어는 그 인기가 급속히 높아지면서 이전에 널리 사용되던 다양한 용어들을 대체하고 있다.
예를 들어, ‘비즈니스 인텔리전스’는 ‘비즈니스 분석’으로, ‘고객 인텔리전스’는 ‘고객 분석’으로, ‘웹 마이닝’은 ‘웹 분석’으로, ‘지식 발견’은 ‘데이터 분석’으로 바뀌고 있다.
분석이라는 단어가 점점 더 널리 쓰이면서 ‘데이터 과학’, ‘빅데이터 분석’, ‘응용 머신러닝’ 등 다양한 새로운 용어들도 등장하여 용어 체계가 더욱 복잡해지고 있다.
이러한 용어의 빠른 변화는 기업이 비즈니스 분석을 통해 창출할 수 있는 가치에 대한 관심이 점점 커지고 있다는 증거이기도 하다.
1.1.
용어 속의 의미
신조어들이 끊임없이 생겨남에 따라, 다양한 용어 간의 개념적 유사성과 차이점을 구분하기가 점점 어려워지고 있다는 점도 주지의 사실이다.
특히 자주 혼동되는 용어로는 ‘비즈니스 인텔리전스’, ‘비즈니스 분석’, ‘데이터 과학’이 있으며, 이 외에도 ‘빅데이터’, ‘머신러닝’, ‘자연어 처리(NLP)’ 등도 널리 사용되고 있다.
이러한 복잡한 용어 체계를 정리하기 위해 간단한 개념도(그림 1.1)를 제시한다.
이 개념도에 따르면, ‘비즈니스 인텔리전스’는 ‘비즈니스 분석’ 안에 완전히 포함되어 있으며, 이는 곧 ‘비즈니스 인텔리전스’가 ‘비즈니스 분석’의 기술적 분석 단계라는 것을 의미한다.
또한 ‘비즈니스 분석’은 다시 ‘데이터 과학’에 부분적으로 포함되어 있다.
이는 ‘비즈니스 분석’이 데이터를 사용하는 분석 방법뿐만 아니라, 비즈니스 프로세스나 전문가 지식의 표현과 활용을 기반으로 한 분석 방법도 포함하기 때문이다.
[그림 1.1]에 표시된 용어 중, 빅데이터, 머신러닝, 자연어 처리는 세 가지 핵심 용어, 데이터 과학, 비즈니스 분석, 비즈니스 인텔리전스를 가능하게 하는 기술을 의미한다.
빅데이터라는 용어는 때때로 빅데이터 분석을 지칭하기도 하지만, 올바른 정의는 정보의 양(volume), 다양성(variety), 속도(velocity)에 기반한다(Ayyalasomayajula, 2025).
이러한 특성은 비즈니스 분석과 데이터 과학의 능력을 기존과는 차원이 다른 방식으로 끌어올리고 있다.
비즈니스 인텔리전스가 구조화된 데이터(데이터베이스나 엑셀 시트의 행과 열 형태로 저장된 데이터)를 다루지만, 비즈니스 분석과 데이터 과학은 구조화된 데이터와 비구조화된 데이터 모두를 처리한다.
빅데이터는 구조화된 데이터뿐만 아니라 텍스트와 멀티미디어 등으로 구성된 비구조화된 데이터까지 포함하며, 이는 분석과 데이터 과학 분야에 새로운 가치를 창출하고 있다.
예측 분석 왜 중요한가?
이 책의 핵심 주제인 예측 분석(predictive analytics)은 비즈니스 분석(business analytics)에 있어서 매우 중요한 역할을 한다.
예측 분석의 주요 목적은 앞으로 발생할 사건과 상황을 미리 파악하여, 의사결정자들이 다가오는 기회를 적시에 포착하거나, 어떠한 문제가 발생하기 전에 이를 예방하거나 그 영향을 최소화하도록 돕는 것이다(Dada et al., 2024).
예측 분석은 과거에 일어난 일을 중점적으로 분석하는 기술인 기술적 분석(descriptive analytics)과 앞으로 어떤 결정을 내려야 할지를 선제적으로 안내하는 처방적 분석(prescriptive analytics) 사이에 위치한다.
예측 분석은 기술적 분석이 제공하는 과거의 정보나 패턴을 바탕으로 미래에 일어날 가능성이 높은 결과를 산출하고, 이는 처방적 분석을 위해 사용되고 최적의 의사결정을 위한 인사이트(insight)를 제공하게 된다.
비즈니스 인텔리전스(business intelligence)와 비교했을 때, 비즈니스 분석은 비교적 최근에 등장한 용어로 실제 산업 현장에서 빠르게 주목 받고 있다(Adaga et al., 2024).
일반적으로 분석(analytics)이란 복잡한 수학적 모델, 다양한 데이터, 전문가의 지식을 활용하여 의미 있는 인사이트를 발견하고 이를 바탕으로 정확하고 시의적절한 의사결정을 지원하는 기술이다.
다시 말해, 분석은 의사결정과 문제 해결을 위한 모든 과정이라고 할 수 있다.
오늘날은 방대한 양의 데이터가 존재하는 데이터 홍수의 시대이며, 대량의 다양하고 복잡한 데이터를 선별하고 처리하는 분석은 더욱 중요해지고 있다.
실제로 예측 분석은 데이터 중심으로 이루어지는 경우가 많지만 데이터 없이도 실행되는 분석 프로젝트들도 존재한다.
이들은 데이터 기반이 아닌, 프로세스 기술이나 전문가 지식에 의존하여 수학적 모델이나 기호 기반 모델(예: 최적화, 시뮬레이션, 전문가시스템, 사례 기반 분석 등)을 활용한다.
따라서 어떠한 분석이 실제로 데이터에 기반했는지를 명확히 구분하고자 ‘데이터 분석(data analytics)’이라는 보다 구체적인 용어가 등장하게 되었다.
한편 비즈니스 분석은 이러한 분석 도구, 기법, 원리를 복잡한 비즈니스 문제에 적용하는 것을 의미한다(김수경, 2024).
특히 조직은 데이터가 풍부한 분야에서 분석 기법을 적용해 다음과 같은 방식으로 성과를 설명하고, 예측하며, 최적의 해법을 찾고 있다.
·고객과의 관계 개선(고객 확보, 유지, 가치 증대 등)
·부정 거래나 바람직하지 않은 행동/결과를 탐지하여 비용 절감 및 성과 개선
·제품 및 서비스 기능과 가격을 개선하여 고객 만족도와 충성도를 높이고 수익성 향상
·특정한 상품이나 서비스 수요를 예측하여 재고 소진을 사전에 예방하여 운영의 수월성 달성
·마케팅 및 광고 캠페인을 최적화하여 최소한의 비용으로 더 많은 고객에게 정확한 메시지 전달
·시뮬레이션과 최적화를 통해 효율적인 운영 관리 및 자원 배분을 추구하며 비용 절감
·고객 대응 과정에서 직원이 보다 빠르고 정확하게 의사결정을 내릴 수 있도록 정보와 통찰 제공
최근 들어 분석이라는 용어는 그 인기가 급속히 높아지면서 이전에 널리 사용되던 다양한 용어들을 대체하고 있다.
예를 들어, ‘비즈니스 인텔리전스’는 ‘비즈니스 분석’으로, ‘고객 인텔리전스’는 ‘고객 분석’으로, ‘웹 마이닝’은 ‘웹 분석’으로, ‘지식 발견’은 ‘데이터 분석’으로 바뀌고 있다.
분석이라는 단어가 점점 더 널리 쓰이면서 ‘데이터 과학’, ‘빅데이터 분석’, ‘응용 머신러닝’ 등 다양한 새로운 용어들도 등장하여 용어 체계가 더욱 복잡해지고 있다.
이러한 용어의 빠른 변화는 기업이 비즈니스 분석을 통해 창출할 수 있는 가치에 대한 관심이 점점 커지고 있다는 증거이기도 하다.
1.1.
용어 속의 의미
신조어들이 끊임없이 생겨남에 따라, 다양한 용어 간의 개념적 유사성과 차이점을 구분하기가 점점 어려워지고 있다는 점도 주지의 사실이다.
특히 자주 혼동되는 용어로는 ‘비즈니스 인텔리전스’, ‘비즈니스 분석’, ‘데이터 과학’이 있으며, 이 외에도 ‘빅데이터’, ‘머신러닝’, ‘자연어 처리(NLP)’ 등도 널리 사용되고 있다.
이러한 복잡한 용어 체계를 정리하기 위해 간단한 개념도(그림 1.1)를 제시한다.
이 개념도에 따르면, ‘비즈니스 인텔리전스’는 ‘비즈니스 분석’ 안에 완전히 포함되어 있으며, 이는 곧 ‘비즈니스 인텔리전스’가 ‘비즈니스 분석’의 기술적 분석 단계라는 것을 의미한다.
또한 ‘비즈니스 분석’은 다시 ‘데이터 과학’에 부분적으로 포함되어 있다.
이는 ‘비즈니스 분석’이 데이터를 사용하는 분석 방법뿐만 아니라, 비즈니스 프로세스나 전문가 지식의 표현과 활용을 기반으로 한 분석 방법도 포함하기 때문이다.
[그림 1.1]에 표시된 용어 중, 빅데이터, 머신러닝, 자연어 처리는 세 가지 핵심 용어, 데이터 과학, 비즈니스 분석, 비즈니스 인텔리전스를 가능하게 하는 기술을 의미한다.
빅데이터라는 용어는 때때로 빅데이터 분석을 지칭하기도 하지만, 올바른 정의는 정보의 양(volume), 다양성(variety), 속도(velocity)에 기반한다(Ayyalasomayajula, 2025).
이러한 특성은 비즈니스 분석과 데이터 과학의 능력을 기존과는 차원이 다른 방식으로 끌어올리고 있다.
비즈니스 인텔리전스가 구조화된 데이터(데이터베이스나 엑셀 시트의 행과 열 형태로 저장된 데이터)를 다루지만, 비즈니스 분석과 데이터 과학은 구조화된 데이터와 비구조화된 데이터 모두를 처리한다.
빅데이터는 구조화된 데이터뿐만 아니라 텍스트와 멀티미디어 등으로 구성된 비구조화된 데이터까지 포함하며, 이는 분석과 데이터 과학 분야에 새로운 가치를 창출하고 있다.
--- 본문 중에서
GOODS SPECIFICS
- 발행일 : 2025년 09월 26일
- 쪽수, 무게, 크기 : 227쪽 | 153*225*20mm
- ISBN13 : 9791194716259
- ISBN10 : 1194716253
You may also like
카테고리
한국어
한국어