반응형

Data/ML 23

[Python] 파이썬 시작하기(파이썬, 아나콘다,주피터 노트북 다운로드 설치, 실행)

머신러닝 딥러닝에 입문하면 보통 파이썬, 넘 파이, 텐서 플로, 파이토치, 싸이킷런이라는 단어를 많이 보실 겁니다. 그렇다면 왜 언어는 파이썬이고 파이썬의 머신러닝 라이브러리인 싸이킷런에 대해서 간단하게 보겠습니다. 1. Why Python? 1.1 파이썬의 탄생 귀도 반 로섬( Guido van Rossum) 은 전 구글 프로그래머이며 파이썬의 창시자입니다. 크리스마스에 할 수 있는 취미로 시작...! 파이썬(Python)은 사실 뱀의 종류로 상단의 로고에 보시면 두마리의 뱀 모양인 것을 알 수 있습니다. 좋아하는 프로그램의 제목명을 따왔다고 합니다. 머신러닝을 배움에 있어서 많은 프로그램에서 구현이 가능합니다. (예. Python, R, Matlab, SAS!!!) 하지만 왜 Python 일까요? 1..

Data/ML 2021.08.27

Anaconda 설치, 업데이트, 가상환경

데이터 분석, 머신러닝, 인공지능을 파이썬으로 공부하시는 분이라면 아나콘다를 이미 설치하셨을 겁니다. 아나콘다는 패키지 관리와 디플로이를 단순케 할 목적으로 과학 계산을 위한 파이썬과 R 프로그래밍 언어의 자유-오픈 소스 배포판이다. 패키지 버전들은 패키지 관리 시스템 conda를 통해 관리된다 아나콘다의 공식홈페이지에는The World's Most Popular Data Science Platform 라고 소개한다. 1.아나콘다 설치 자신의 OS(윈도우, 맥, 리눅스) 에 따라서 아나콘다 공식문서에서 다운로드해서 하단의 링크의 이미지를 따라서 설정하면 됩니다. 윈도우는 설치파일 다운로드를 통해서 맥은 설치파일이나 터미널을 통해서 설치 가능하다. 꼭 컴퓨터가 32비트인지 64비트인지 확인하고 설치해주세요..

Data/ML 2021.07.07

분류모델 성능 지표

목표: 주어진 문제에 모델이 적합한지 정량화한 지표로 성능 측정 1) 이진분류 오차/혼돈행렬(Confusion Metrices): 지도 학습으로 훈련된 분류 알고리즘의 성능을 평가하는 표 행: 예측 된 클래스의 인스턴스 열: 실제 클래스의 인스턴스 True Positive,TP 진짜 양성 :양성을 정확하게 예측된 관측값 갯수 True Negative,TN 진짜 음성: 음성임을 정확하게 예측된 관측값 갯수 False Positive, FP 거짓 양성: 양성임을 틀렸을 때의 갯수 False Negative, FN 거짓 음성:음성임을 틀렸을 때의 갯수 Relevant samples : Positive = TP +FP, Negative = TN + FN 정확도(ACC): 전체 중 옳은 예측의 한 합의 비율 예측..

Data/ML 2021.06.29

10.회귀 분석(Regression Analysis)

지도학습 : 회귀분석(Regression Analysis) 1) 선형 회귀(Linear Regression): 연속형 관측값을 이용하여 연속형 수치 데이터를 선형 모델링통해 예측 가정: 반응변수와 독립변수와의 관계가 선형임을 가정(선형성,Linearity) (1) 단순 선형 회귀(Simple Linear Regression) 하나의 설명/독립변수(explanatory variable x),하나의 반응/종속변수y사이의 관계 모델링, 특성과 타깃사이의 회귀 직선 관계를 나타내는 선형 방정식의 가중치 학습하여 예측 β0 or w0: 절편(intercept) β1 or w1: slope 특성x의 가중치 잔차(Residuals): 실제 관측값과 예측값의 차이 Regression line: 주어진 관측값에서 가장 ..

Data/ML 2021.06.23

8. 감정분석

8. 감정분석 자연어 처리(Natural Language Processing, NLP) :컴퓨터에서 대량의 자연어 데이터 처리하고 분석하도록 프로그래밍 의견분석(Opinoion mining) or 감성 분석(sentiment analysis) - 정서적 상태(감정)와 주관적인 정보(의견)를 체계적으로 식별, 추출, 정량화 및 연구하기 위해 자연어 처리, 텍스트 분석, 전산 언어학 및 생체 인식을 사용 - 특정 주제에 글쓴이의 성향에 따라 텍스트를 극성(감성,의견) 분류하는 방법 응용 :사용자 추천시스템 (의견 ,선호도 기반 ) • 텍스트 데이터의 정제와 준비 : BOW model: 특성 벡터 인코딩, tf-idf사용 적합성 기준 단어 빈도에 가중치 부여 • 텍스트 문서로부터 특성 벡터 구축 • 로지스틱 ..

Data/ML 2021.06.15

7. 앙상블 학습 (Ensemble Learning)

7. 앙상블 학습 (Ensemble Learning) 여러 weak learner를 합쳐 하나의 Strong learner 로 좀 더 객관적인 결과를 얻음(일반화 성능, 안정성 향상,에러 감소) single learner 보다 weak learner 합친것이 나음 예. Boosting, Bagging ,Stacking Ensemble 집계 방식 1> Voting 과반수 투표 (Majority voting) 다수결 투표(Plurality Voting) : 최빈값(mode) 2> Aggregating Average Ensemble model 1) Bagging(Bootstrap AGGregatING): 동일한 모델 병렬 연결하여 일반화 (in parallel) 샘플에서 복원추출(resampling)하여(Bo..

Data/ML 2021.06.14

6. 모델 평가와 하이퍼파라미터 튜닝(미세조정)

Pipeline으로 효율적 워크플로 : 여러개의 변환기와 분류기를 모델 연결 모델 성능 평가 : K겹 교차 검증, Holdout 학습곡선과 검증 곡선: 과대적합/과소적합 분석 ML 세부 튜닝 : 그리드 서치 성능 평가 지표 : 이진 분류: 정확도, 재현율, 정밀도, F-1 점수, ROC, ROC AUC 다중 분류: 마이크로,마크로 평균 정밀도 불균형한 클래스 6.1 Pipeline으로 효율적인 워크플로 Pipeline: meta-estimator, 여러개의 개별 변환기와 추정기를 감싼 Wrapper (연결) fit method호출시 데이터가 중간단계에 있는 모든 변환기의fit, transform차례로 거쳐 추정기 객체에 도달,학습 predict 변환기: 입력에 대해fit, transform method지..

Data/ML 2021.06.14

5.차원축소를 이용한 데이터 압축

특성 추출(feature extraction):원본 특성 중에서 가장 중요한 일부 추출( 데이터 압축) 저장 공간 절약학습 알고리즘 계산 효율성 향상 예측 성능 향상 >특성 선택 알고리즘 이용:전진선택법,후진소거법,양방향 선택법 5 장 . 차원축소(dimension reduction): 데이터의 특성들을 새로운 특성으로 변환하면서 원본 특성 유지 1. 선형 변환 기법 비지도 학습: PCA 주성분 분석 (find patter without reference) 지도 학습: LDA선형 판별분석 2. 비선형 변환 기법 커널 PCA(Kernel Principal Component Analysis, KPCA) 5. 1. 비지도 학습 : 주성분 분석 (Principal Component Analysis,PCA) 분산..

Data/ML 2021.06.13

4. 데이터 전처리

1. 누락된 데이터 (Not a Number, NaN) , NULL(모르는 값)) 원인 : 데이터 수집 과정 오류, 측정 방법 적용 불가 빈 값(blank), 예약된 문자열로 대체 특히 수치 계산에서 누락데이터는 계산 불가한 경우도 있어 처리 필요. 식별 : isnull.sum() null값인 경우 boolean 으로 리턴하여 True값 총 갯수 리턴(누락값 갯수) 처리 특정 행/열 제외 :( 제거시 필요한 중요한 정보 잃음 dropna(axis= 0(행),1(열),how='all', thresh= , subset[ '열이름' ] ) axis=0 해당 행제거, 1 해당 열제거 (Default: axis= 0) how='all' 모든 값이 NaN인 행 제거 thresh= 임계값(실수, threshold) ..

Data/ML 2021.06.12

3.사이킷런을 타고 떠나는 머신 러닝 분류 모델 투어

4. 서포트 벡터 머신(Support Vector Machine)을 사용한 최대 마진 분류 keywords: Margin, Penalty, Mapping(kernel) 마진 (margin): 클래스를 구분하는 초평면과 이 초평면에서 가장 가까운 훈련 샘플 사이의 거리 서포트 벡터(Support vectors): 초평면(hyperplane, 3차원 속의 평면을 일반화하여 부름)에서 가장 가까운 샘플들 페널티 (Penalty ξ): applied for each contaminant error inside the margin and the sum of all such errors is minimized to get the best separation.( tolerance for misclassificatio..

Data/ML 2021.06.11
반응형