반응형

Data 96

5.차원축소를 이용한 데이터 압축

특성 추출(feature extraction):원본 특성 중에서 가장 중요한 일부 추출( 데이터 압축) 저장 공간 절약학습 알고리즘 계산 효율성 향상 예측 성능 향상 >특성 선택 알고리즘 이용:전진선택법,후진소거법,양방향 선택법 5 장 . 차원축소(dimension reduction): 데이터의 특성들을 새로운 특성으로 변환하면서 원본 특성 유지 1. 선형 변환 기법 비지도 학습: PCA 주성분 분석 (find patter without reference) 지도 학습: LDA선형 판별분석 2. 비선형 변환 기법 커널 PCA(Kernel Principal Component Analysis, KPCA) 5. 1. 비지도 학습 : 주성분 분석 (Principal Component Analysis,PCA) 분산..

Data/ML 2021.06.13

4. 데이터 전처리

1. 누락된 데이터 (Not a Number, NaN) , NULL(모르는 값)) 원인 : 데이터 수집 과정 오류, 측정 방법 적용 불가 빈 값(blank), 예약된 문자열로 대체 특히 수치 계산에서 누락데이터는 계산 불가한 경우도 있어 처리 필요. 식별 : isnull.sum() null값인 경우 boolean 으로 리턴하여 True값 총 갯수 리턴(누락값 갯수) 처리 특정 행/열 제외 :( 제거시 필요한 중요한 정보 잃음 dropna(axis= 0(행),1(열),how='all', thresh= , subset[ '열이름' ] ) axis=0 해당 행제거, 1 해당 열제거 (Default: axis= 0) how='all' 모든 값이 NaN인 행 제거 thresh= 임계값(실수, threshold) ..

Data/ML 2021.06.12

3.사이킷런을 타고 떠나는 머신 러닝 분류 모델 투어

4. 서포트 벡터 머신(Support Vector Machine)을 사용한 최대 마진 분류 keywords: Margin, Penalty, Mapping(kernel) 마진 (margin): 클래스를 구분하는 초평면과 이 초평면에서 가장 가까운 훈련 샘플 사이의 거리 서포트 벡터(Support vectors): 초평면(hyperplane, 3차원 속의 평면을 일반화하여 부름)에서 가장 가까운 샘플들 페널티 (Penalty ξ): applied for each contaminant error inside the margin and the sum of all such errors is minimized to get the best separation.( tolerance for misclassificatio..

Data/ML 2021.06.11

2. 간단한 분류 알고리즘 훈련

이전 간단한 분류 알고리즘 훈련-part1에서는 선형 분류기 중 하나인 퍼셉트론과 가중치를 업데이트 하는 방식으로 학습 규칙에 대해서 알아보았고 이번에는 퍼셉트론의 향상된 버전인 적응형 선형 뉴런(아달린)에대해서 공부하겠습니다. 2.3 적응형 선형 뉴런과 학습의 수렴 적응형 선형 뉴런(ADAptiv Linear NEuron, ADALINE) 아달린 Bernard Widrow & Tedd Hoff가 적응형 선형결합기와 양자의 회로를 직렬로 접속한 것입니다. 초기 가중치와 입력값들의 선형결합에 대한 값은 동일하며 임계 함수를 이용하여 분류하는것은 동일합니다. 하지만 이전에 퍼셉트론은 값을 1과 -1 로 나누는 계단 함수를 사용하여 가중치를 업데이트하여 이진 분류하였다면 적응형 선형 뉴런은 선형 활성화 (역속..

Data/ML 2021.06.09

머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로 목차

세바스찬 라시카, 바히드 미자리리 저/박해선 역 컴퓨터는 데이터에서 배운다 간단한 분류알고리즘 훈련1, 2 사이킷런을 타고 떠나는 머신 러닝 분류 모델 투어 좋은 휸련 세트 만들기 : 데이터 전처리 차원 축소를 사용한 데이터 압축 모델 평가와 하이퍼파라미터 튜닝의 모범 사례 다양하 모델을 결합한 앙상블 감성 분석에 머신 러닝 적용 웹 애플리케이션에 머신 러닝 모델 내장 회귀분석으로 연속적 타깃 변수 예측 레이블되지 않는 데이터 다루기 :군집분석 다층 인공신견망을 밑바닥 부터 구현 텐서플로를 사용하여 신경망 훈련 텐서플로의 주요 특징 심층 합성곱 신경망으로 이미지 분류 순환 신경망으로 시퀀스 데이터 모델링 책과 함께 계속해서 github도 참고할 예정 : 해선님 github : https://github...

Data/ML 2021.06.08

1. 컴퓨터는 데이터에서 배운다.

1.1 데이터를 지식으로 바꾸는 지능적인 시스템 구축 머신러닝,딥러닝, 인공지능(AI) 모두들 뉴스에서 많이 들어 보았을 것입니다. 최근에 은퇴한 프로기사 이세돌 씨 께서 한돌(NHN)에 패배하고 과거에 AlphaGo에게 패배하게 되면서 인공지능의 발전과 무궁한 가능성 때문에 큰 주목을 받게 되었습니다. 이외에도 앞의 세 가지 단어는 자주 synonym으로 쓰이는 경우가 많지만 딥러닝이 가장 하위 카테고리에 속하게 됩니다. 위의 그래프처럼 Artificial Inteligence (인공지능)는 새로운 개념이 아닌 이전 부터존재하는 학문으로 이것의 정의는 John McCarthy 의 'thinking machine'에서 현대에 와서는 기계가 인간의 지능을 어떻게 구현해 내는지에 대한 컴퓨터과학(comput..

Data/ML 2021.06.07
반응형