반응형

머신러닝 교과서 with 파이썬 7

10.회귀 분석(Regression Analysis)

지도학습 : 회귀분석(Regression Analysis) 1) 선형 회귀(Linear Regression): 연속형 관측값을 이용하여 연속형 수치 데이터를 선형 모델링통해 예측 가정: 반응변수와 독립변수와의 관계가 선형임을 가정(선형성,Linearity) (1) 단순 선형 회귀(Simple Linear Regression) 하나의 설명/독립변수(explanatory variable x),하나의 반응/종속변수y사이의 관계 모델링, 특성과 타깃사이의 회귀 직선 관계를 나타내는 선형 방정식의 가중치 학습하여 예측 β0 or w0: 절편(intercept) β1 or w1: slope 특성x의 가중치 잔차(Residuals): 실제 관측값과 예측값의 차이 Regression line: 주어진 관측값에서 가장 ..

Data/ML 2021.06.23

8. 감정분석

8. 감정분석 자연어 처리(Natural Language Processing, NLP) :컴퓨터에서 대량의 자연어 데이터 처리하고 분석하도록 프로그래밍 의견분석(Opinoion mining) or 감성 분석(sentiment analysis) - 정서적 상태(감정)와 주관적인 정보(의견)를 체계적으로 식별, 추출, 정량화 및 연구하기 위해 자연어 처리, 텍스트 분석, 전산 언어학 및 생체 인식을 사용 - 특정 주제에 글쓴이의 성향에 따라 텍스트를 극성(감성,의견) 분류하는 방법 응용 :사용자 추천시스템 (의견 ,선호도 기반 ) • 텍스트 데이터의 정제와 준비 : BOW model: 특성 벡터 인코딩, tf-idf사용 적합성 기준 단어 빈도에 가중치 부여 • 텍스트 문서로부터 특성 벡터 구축 • 로지스틱 ..

Data/ML 2021.06.15

6. 모델 평가와 하이퍼파라미터 튜닝(미세조정)

Pipeline으로 효율적 워크플로 : 여러개의 변환기와 분류기를 모델 연결 모델 성능 평가 : K겹 교차 검증, Holdout 학습곡선과 검증 곡선: 과대적합/과소적합 분석 ML 세부 튜닝 : 그리드 서치 성능 평가 지표 : 이진 분류: 정확도, 재현율, 정밀도, F-1 점수, ROC, ROC AUC 다중 분류: 마이크로,마크로 평균 정밀도 불균형한 클래스 6.1 Pipeline으로 효율적인 워크플로 Pipeline: meta-estimator, 여러개의 개별 변환기와 추정기를 감싼 Wrapper (연결) fit method호출시 데이터가 중간단계에 있는 모든 변환기의fit, transform차례로 거쳐 추정기 객체에 도달,학습 predict 변환기: 입력에 대해fit, transform method지..

Data/ML 2021.06.14

5.차원축소를 이용한 데이터 압축

특성 추출(feature extraction):원본 특성 중에서 가장 중요한 일부 추출( 데이터 압축) 저장 공간 절약학습 알고리즘 계산 효율성 향상 예측 성능 향상 >특성 선택 알고리즘 이용:전진선택법,후진소거법,양방향 선택법 5 장 . 차원축소(dimension reduction): 데이터의 특성들을 새로운 특성으로 변환하면서 원본 특성 유지 1. 선형 변환 기법 비지도 학습: PCA 주성분 분석 (find patter without reference) 지도 학습: LDA선형 판별분석 2. 비선형 변환 기법 커널 PCA(Kernel Principal Component Analysis, KPCA) 5. 1. 비지도 학습 : 주성분 분석 (Principal Component Analysis,PCA) 분산..

Data/ML 2021.06.13

4. 데이터 전처리

1. 누락된 데이터 (Not a Number, NaN) , NULL(모르는 값)) 원인 : 데이터 수집 과정 오류, 측정 방법 적용 불가 빈 값(blank), 예약된 문자열로 대체 특히 수치 계산에서 누락데이터는 계산 불가한 경우도 있어 처리 필요. 식별 : isnull.sum() null값인 경우 boolean 으로 리턴하여 True값 총 갯수 리턴(누락값 갯수) 처리 특정 행/열 제외 :( 제거시 필요한 중요한 정보 잃음 dropna(axis= 0(행),1(열),how='all', thresh= , subset[ '열이름' ] ) axis=0 해당 행제거, 1 해당 열제거 (Default: axis= 0) how='all' 모든 값이 NaN인 행 제거 thresh= 임계값(실수, threshold) ..

Data/ML 2021.06.12

2. 간단한 분류 알고리즘 훈련

이전 간단한 분류 알고리즘 훈련-part1에서는 선형 분류기 중 하나인 퍼셉트론과 가중치를 업데이트 하는 방식으로 학습 규칙에 대해서 알아보았고 이번에는 퍼셉트론의 향상된 버전인 적응형 선형 뉴런(아달린)에대해서 공부하겠습니다. 2.3 적응형 선형 뉴런과 학습의 수렴 적응형 선형 뉴런(ADAptiv Linear NEuron, ADALINE) 아달린 Bernard Widrow & Tedd Hoff가 적응형 선형결합기와 양자의 회로를 직렬로 접속한 것입니다. 초기 가중치와 입력값들의 선형결합에 대한 값은 동일하며 임계 함수를 이용하여 분류하는것은 동일합니다. 하지만 이전에 퍼셉트론은 값을 1과 -1 로 나누는 계단 함수를 사용하여 가중치를 업데이트하여 이진 분류하였다면 적응형 선형 뉴런은 선형 활성화 (역속..

Data/ML 2021.06.09

1. 컴퓨터는 데이터에서 배운다.

1.1 데이터를 지식으로 바꾸는 지능적인 시스템 구축 머신러닝,딥러닝, 인공지능(AI) 모두들 뉴스에서 많이 들어 보았을 것입니다. 최근에 은퇴한 프로기사 이세돌 씨 께서 한돌(NHN)에 패배하고 과거에 AlphaGo에게 패배하게 되면서 인공지능의 발전과 무궁한 가능성 때문에 큰 주목을 받게 되었습니다. 이외에도 앞의 세 가지 단어는 자주 synonym으로 쓰이는 경우가 많지만 딥러닝이 가장 하위 카테고리에 속하게 됩니다. 위의 그래프처럼 Artificial Inteligence (인공지능)는 새로운 개념이 아닌 이전 부터존재하는 학문으로 이것의 정의는 John McCarthy 의 'thinking machine'에서 현대에 와서는 기계가 인간의 지능을 어떻게 구현해 내는지에 대한 컴퓨터과학(comput..

Data/ML 2021.06.07
반응형