- 기본 숙제: Ch.04(04-1) 2번 문제 풀고, 풀이 과정 설명하기
- 추가 숙제: Ch.04(04-2) 과대적합/과소적합 손코딩 코랩 화면 캡처하기
Chapter 04 다양한 분류 알고리즘 - 럭키백의 확률을 계산하라
04-1 로지스틱 회귀 176~198
- 다중 분류 multi-class classification
: 타깃 데이터에 2개 이상의 클래스가 포함된 문제
- 로지스틱 회귀 logistic regression
: 선형 방정식을 사용한 분류 알고리즘으로 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률을 출력
- 시그모이드 함수 sigmoid function
: 시그모이드 함수/로지스틱 함수. 선형 방정식의 출력을 0과 1 사이의 값으로 압축하여 이진 분류를 위해 사용, 이진 분류일 경우 시그모이드 함수의 출력이 >0.5 이면 양성 클래스, 0.5 > 이면 음성 클래서
- 불리언 인덱싱 boolean indexing
: 넘파이 배열은 True, False 값을 전달하여 행을 선택할 수 있으며 이를 불리언 인덱싱이라고 함
- 소프트맥스 함수 softmax function
: 여러 개의 출력값을 0~1 사이로 압축하고 전체 합이 1이 되도록 만들며 이를 위해 지수 함수를 사용하여 정규화된 지수 함수 라고도 함
04-2 확률적 경사하강법 200~217
- 확률적 경사 하강법 stochastic fradient descent
: 훈련 세트에서 랜덤하게 하나의 샘플을 선택하여 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘
- 에폭 epoch
: 확률적 경사 하강법에서 훈련 세트를 한 번 모두 사용하는 과정
- 미니배치 minibatch gradient descent
: 1개가 아닌 여러 개의 샘플을 사용해 경사 하강법을 수행하는 방법. 실전에서 많이 사용
- 배치 경사 하강법 batch gradient descent
: 한 번에 전체 샘플을 사용하는 방법으로 전체 데이터를 사용하므로 가장 안정적인 방법이지만 그만큼 컴퓨터 자원을 많이 사용함. 또 어떤 경우는 데이터가 너무 많아 한 번에 전체 데이터를 모두 처리할 수 없을지도 모름
- 손실함수 loss function
: 알고리즘이 얼마나 엉터리인지 측정하는 기준
- 로지스틱 손실 함수 logistic loss function
: 양성 클래스 일 때 손실은 -log(예측확률)로 계산하며, 1 확률이 1에서 멀어질수록 손실은 아주 큰 양수가 됨.
음성 클래스 일 때 손실은 -log(1-예측확률)로 계산. 예측확률이 0에서 멀어질수록 손실은 아주 큰 양수가 됨.
- 크로스엔트로피 손실 함수 cross-entropy loss function
: 다중분류에서 사용하는 손실 함수
- 힌지 손실 hinge loss
: SVM 을 위한 손실 함수로 널리 사용하는 머신러닝 알고리즘 중 하나. SGDClassifier 가 여러 종류의 손실 함수를 loss 매개변수에 지정하여 다양한 머신러닝 알고리즘을 지원