일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 데이터분석
- 데이터분석전문가
- 언더샘플링
- 대응표본
- DBSCAN
- 텍스트분석
- 크롤링
- numpy
- t-test
- 데이터분석준전문가
- ADP
- 빅데이터
- 데이터불균형
- Lambda
- pandas
- 워드클라우드
- 독립표본
- ADsP
- PCA
- 군집화
- 주성분분석
- 파이썬
- iloc
- 오버샘플링
- opencv
- 빅데이터분석기사
- datascience
- Python
- LDA
- dataframe
목록분류 전체보기 (300)
Data Science LAB
드디어 프로그래머스 마지막 단계인 LEVEL4의 문제이다!! 문제 CART_PRODUCTS 테이블은 장바구니에 담긴 상품 정보를 담은 테이블입니다. CART_PRODUCTS 테이블의 구조는 다음과 같으며, ID, CART_ID, NAME, PRICE 는 각각 테이블의 아이디, 장바구니의 아이디, 상품 종류, 가격을 나타냅니다. 데이터 분석 팀에서는 우유(Milk)와 요거트(Yogurt)를 동시에 구입한 장바구니가 있는지 알아보려 합니다. 우유와 요거트를 동시에 구입한 장바구니의 아이디를 조회하는 SQL 문을 작성해주세요. 이때 결과는 장바구니의 아이디 순으로 나와야 합니다. 예시 문제 풀이 SELECT A.CART_ID FROM (SELECT DISTINCT CART_ID,NAME FROM CART_PR..
문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME 는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅..

GMM GMM 군집화는 군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화를 수행하는 방식이다. 가우시안 분포는 정규 분포(Normal distribution)라고도 하며, 좌우 대칭형의 종 형태이다. GMM은 데이터를 여러개의 정규 분포가 섞인 것으로 간주하여 섞인 데이터 분포에서 개별 유형의 정규 분포를 추출한다. 전체 데이터 셋은 서로 다른 정규 분포 형태를 가진 여러 가지 확률 분포 곡선으로 구성될 수 있으며, 이렇게 서로 다른 정규 분포에 기반하여 군집화를 수행하는 것이 GMM 군집화 방식이다. GMM을 이용한 iris 데이터셋 군집화 from sklearn.datasets import load_iris from sklearn..
문제 PLACES 테이블은 공간 임대 서비스에 등록된 공간의 정보를 담은 테이블입니다. PLACES테이블의 구조는 다음과 같으며 ID, NAME, HOST_ID 는 각각 공간의 아이디, 이름, 공간을 소유한 유저의 아이디를 나타냅니다. ID는 기본키입니다. 이 서비스에서는 공간을 둘 이상 등록한 사람을 "헤비 유저"라고 부릅니다. 헤비 유저가 등록한 공간의 정보를 아이디 순으로 조회하는 SQL문을 작성해주세요 예시 문제 풀이 SELECT * FROM PLACES WHERE HOST_ID IN (SELECT HOST_ID FROM PLACES GROUP BY HOST_ID HAVING COUNT(ID)>=2) GROUP BY를 이용하여 2번 이상 이용한 사람의 ID를 조회하였다.

Mean Shift 평균 이동(Mean Shift)은 KMeans와 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행한다. KMeans는 중심에 소속된 데이터의 평균 거리 중심으로 이동하지만, 평균 이동은 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킨다. 평균 이동 군집화는 데이터의 분포도를 이용하여 군집의 중심점을 찾는다. 군집 중심점은 데이터 포인트가 모여 있는 곳이라는 생각에서 착안한 것이며 이를 위해 확률 밀도 함수를 이용한다. 일반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE(Kernel Density Estimation)를 이용한다. 특정 데이터 반경 내의 데이터 분포 확률 밀도가 가장 높은 곳으로 이동하기 위해서 주변 데이터와의 거리 값을 KDE 함수의 입..

Clustering Evaluation iris 데이터셋에는 결과값에 품종을 의미하는 타깃 레이블이 있어 군집화가 얼마나 잘 이루어져 있는 지 판단할 수 있었다. 하지만 대부분의 군집화 데이터셋에는 타깃 레이블이 존재하지 않기 때문에, 데이터 내에 숨어 있는 별도의 그룹을 찾아 의미를 부여하고나, 동일한 분류 값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나, 서로 다른 분류값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가지고 있다. 비지도학습의 특성 상 정확하게 성능을 평가하기는 어렵지만, 군집화의 성능을 평가하는 대표적인 방법으로 실루엣 분석을 사용한다. Silhouette analysis 실루엣 분석이란 각 군집 간의 거리가 얼마나 효육적으로 분리되어 있는 지를 나타낸다. 효율적으로 분..