텐서플로우 vs 케라스
원래 tensorflow로 하다가
keras가 만들어짐 ... 더 쉽게 만든 api
# x, y 를 넣어줄 공간, placeholder 라고 함
# float32 TensorFlow에서는 32비트 소수점을 많이 씀
w : 웨이트
b : 바이어스
placeholder 가 아닌 variable initialize 로 해줌 초기화
랜덤 이니셜라이즈
csv : comma separated values 의 약자, 콤마로 구분되어있는 값들이다.
논리 회귀
선형 회귀로 풀기 힘든 문제의 등장
이제 그것을 논리 회귀로 푼다.
전처리 pre-processing <= 중요한 과정 머신러닝에서 70, 80% 차지함
논리회귀로 classification 문제를 풀 수 있다.
Logistic function 다른말로 # SIgmoid function #
logistic regretion
50% 가 넘으면 통과라고 하자
임계치 = Threshold 50% , 더 높일 수도 있어 , 예를 들면 80% 넘으면 통과 pass
cross entropy 손실함수 논리회귀에서의
확률분포 그래프에서의 차이를 줄이는 방향으로 학습을 하게 되는데
그 손실함수가 바로 cross entropy
케라스에서 이진 논리회귀의 경우 binary_crossentropy 손실함수를 사용한다.
다항 논리 회귀
다항 논리 회귀
one hot encodin 출력값을 이쁘게 <= 컴퓨터에게
여러개의 항을 0과 1로만 표현한다 .
softmax function
단항 논리 회귀에서는 0과 1로 표현했지만 여기서는 softmax를 씀
비슷한 가중치를 만들어주면서 다 더했을때 1이 됨
차이를 줄여주는 함수 cross entropy
0 1 2 가 됨 라벨이
케라스에서는 categorical_acrossentropy 라는 손실함수를 사용
SVM support vector machine
강아지면 0 고양이면 1
classifier : 분류문제를 푸는 모델
선을 잘 긋는 방법을 SVM
margin이 클수록 svm의 성능이 좋은것이다.
KNN
k- Nearest Neighbors
개체로부터 가까운 애가 누구냐?
예를 들어 강아지 2마리가 가깝다. 얘는 강아지다.
Decision Tree
스무고개풀이
이걸 여러개 합친것이 Random forest
decision tree 가 여러개 있음 그걸 합친다음
majority voting 투표를 하는 것
전처리
preprocessing
예외 데이터 제외
아웃라이어 제거
필요한 데이터 정제
정규화 normalization
데이터를 0과 1사이로 만든다
표준화 standardization
데이터의 분포를 정규분포로 만들어준다.
평균을 0으로 편차를 1로 만들어 준다.
최저점으로 수렴하는 속도가 빨라지다 로컬 미니멈에 빠질 가능성을 줄여준다.