일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ADP
- DBSCAN
- 독립표본
- 데이터분석전문가
- 오버샘플링
- ADsP
- datascience
- 대응표본
- t-test
- 빅데이터분석기사
- iloc
- 군집화
- 워드클라우드
- 데이터분석
- 언더샘플링
- 주성분분석
- 빅데이터
- 데이터불균형
- PCA
- Lambda
- opencv
- dataframe
- pandas
- 크롤링
- Python
- numpy
- 텍스트분석
- 데이터분석준전문가
- 파이썬
- LDA
목록파이썬 (2)
Data Science LAB

레이블의 분포가 불균형한 데이터셋을 학습시킬 때 예측 성능에 문제가 발생할 수 있는데, 이는 이상치 레이블이 정상 레이블의 데이터 건수에 비해 너무 적기 때문에 발생하는 현상이다. 즉, 이상 레이블의 데이터는 매우 적기 때문에 다양한 유형을 학습하지 못하는 반면 정상 레이블의 데이터 건수는 매우 많아 일방적으로 정상 레이블에 치우친 학습을 수행해 제대로된 이상 데이터 검출이 어려워진다. 이러한 문제점을 해결하기 위한 방법으로 오버샘플링/언더샘플링의 방법이 있다. OverSampling 이상치 레이블과 같이 적은 데이터 셋을 증식하여 학습에 필요한 데이터를 확보하는 방법이다. 동일한 데이터를 단순히 증식시키면 과적합이 되기 때문에, 원본 데이터의 피처 값들을 조금씩 변경하여 증식한다. 대표적인 오버샘플링 ..

Tabular Data 란? - 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터 - 즉, 행과 열로 표현이 가능한 데이터 즉, 데이터 분석에서 자주 사용하는 표 형식의 데이터이다. Tabular Data 웹에서 scrapping 오늘 불러올 데이터는 펜실베니아 데이터이다. https://en.wikipedia.org/wiki/Politics_of_Pennsylvania 1. 필요한 라이브러리 불러오기 import pandas as pd import numpy as np 2. 데이터 로딩 table_PA = pd.read_html('http://en.wikipedia.org/wiki/Politics_of_Pennsylvania') len(table_PA) 불러온 데이터셋을 확인해 보..