일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Python
- 워드클라우드
- datascience
- 데이터분석준전문가
- 군집화
- 대응표본
- pandas
- iloc
- 데이터분석전문가
- 빅데이터
- 주성분분석
- LDA
- 파이썬
- 데이터불균형
- 크롤링
- DBSCAN
- 빅데이터분석기사
- opencv
- 데이터분석
- Lambda
- 언더샘플링
- dataframe
- PCA
- ADsP
- 텍스트분석
- numpy
- ADP
- 독립표본
- 오버샘플링
- t-test
목록분류 전체보기 (300)
Data Science LAB

LDA 개요 LDA는 선형 판별 분석법으로, PCA와 매우 유사하게 입력 데이터셋을 저차원 공간에 투여해 차원을 축소하는 기법이다. PCA와의 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다. 반면 PCA는 입력 데이터의 변동성의 가장 큰 축을 찾았지만, LDA는 입력 데이터의 결정 값 클래스를 최대한으로 분리할 수 있는 축을 찾는다. #참고 2022.03.05 - [Python] PCA(Principal Component Analysis) [Python] PCA(Principal Component Analysis) PCA 개요 PCA(Principal Component Analysis)는 가장 대표적인 차원 축소 기법으로 여러 ..

2022.03.05 - [Python] PCA(Principal Component Analysis) [Python] PCA(Principal Component Analysis) PCA 개요 PCA(Principal Component Analysis)는 가장 대표적인 차원 축소 기법으로 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분(Principal Component)를 추출해 차원을 축소하는 기법이다. suhye.tistory.com 지난 포스팅에서 공부했었던 PCA를 다른 데이터셋을 이용하여 실습해 보려고 한다. 데이터셋 다운로드 https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients UCI Machine Lear..

드디어 프로그래머스 MySQL 코딩테스트 연습 마지막이다! 여태까지 푼 문제 중에서 제일 어려웠다 (´。_。`) 문제 ANIMAL_INS테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, ..

문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME 는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅..

PCA 개요 PCA(Principal Component Analysis)는 가장 대표적인 차원 축소 기법으로 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분(Principal Component)를 추출해 차원을 축소하는 기법이다. PCA 차원 축소로 인한 정보 유실을 최소화하기 위해 가장 높은 분산을 가지는 데이터의 축을 찾아 이 축으로 차원을 축소한다. 이것이 PCA의 주성분이 되는데, 분산이 데이터의 특성을 가장 잘 나타내는 것을 의미한다. 데이터에 가장 가까운 초평면을 정의하고, 이 초평면에 데이터를 투영시키는 것이다. 투영시켰을 때 데이터셋과의 평균 제곱 거리가 가장 작은 초평면을 찾고 투영 시키는 과정을 그림에 나타내었다. PCA는 제일 먼저 가장 데이터 변동성을 기반으로 첫 번..

DBSCAN DBSCAN은 밀도 기반의 군집화 대표 알고리즘이다. 간단하고 직관적인 알고리즘으로 데이터의 분포가 기하학적으로 복잡한 경우에도 효과적으로 군집화할 수 있다. 위의 그림과 같이 원형의 데이터 분포를 띄는 경우, KMeans 나 GMM은 군집화를 잘 수행하지 못한다. 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역 최소 데이터 개수(min points) : 개별 데이터의 주변 영역에 포함되는 타 데이터의 개수 입실론 주변 영역 내에 포함되는 최소 데이터 개수를 충족시키는가에 따라 데이터 포인트를 다음과 같이 정의한다. 핵심 포인트(Core Point) : 주변 영역 내에 최소 데이터 개수 이상의 타 데이터를 가지고 있을 경우, 해당 데이터를 의미 ..