일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- t-test
- ADP
- 빅데이터분석기사
- 언더샘플링
- 데이터분석전문가
- dataframe
- PCA
- 워드클라우드
- 빅데이터
- opencv
- 독립표본
- Lambda
- datascience
- ADsP
- LDA
- numpy
- 대응표본
- 텍스트분석
- 데이터불균형
- iloc
- 데이터분석준전문가
- DBSCAN
- Python
- 크롤링
- 파이썬
- 주성분분석
- 군집화
- pandas
- 데이터분석
- 오버샘플링
목록분류 전체보기 (300)
Data Science LAB

문서 사이의 유사도 측정은 주로 코사인 유사도(Cosine Similarity)를 사용한다. 벡터의 크기 보다는 벡터의 상호 방향성이 얼마나 유사한지에 기반하여 측정한다. 두 벡터의 사잇각에 따라 상화 관계는 유사하거나 관련이 없거나 아예 반대 관계가 될 수 있다. 두 벡터 A,B의 내적 값은 두 벡터의 크기를 겂한 값에 코사인 각도 값을 곱한 값이다. 따라서 유사도(similarity)는 다음과 같이 두 벡터의 내적을 총 벡터 크기의 합으로 나눈 것이다. 두 넘파이 배열에 대한 코사인 유사도 구하는 함수 생성 import numpy as np def cos_similarity(v1,v2): dot_product = np.dot(v1,v2) l2_norm = (np.sqrt(sum(np.square(v1..
드디어 오늘이 LEVEL 2의 마지막 문제다! 문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. ANIMAL_INS 테이블에 등록된 모든 레코드에 대해, 각 동물의 아이디와 이름, 들어온 날짜를 조회하는 SQL문을 작성해주세요. 이때 결과는 아이디 순으로 조회해야 합니다. 예시 문제 풀이 SELECT ANIMAL_ID, NAME, DATE_FORMAT(DATETIME,'%Y..
문서 군집화란? 비슷한 텍스트 구성의 문서를 군집화(Clustering)하는 것이다. 동일한 군집에 속하는 문서를 같은 카테고리 소속으로 분류하는 것이지만, 비지도학습 기반으로 동작한다는 점이 텍스트 분류와는 다르다. 데이터셋 다운 https://archive.ics.uci.edu/ml/datasets/Opinosis+Opinion+%26frasl%3B+Review UCI Machine Learning Repository: Opinosis Opinion ⁄ Review Data Set Opinosis Opinion ⁄ Review Data Set Download: Data Folder, Data Set Description Abstract: This dataset contains sentences ext..
문제 ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅니다. 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 09:00부터 19:59까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다. 예시 문제 풀이 SELECT HOUR(DATETIME) AS HOUR, COUNT(*) AS COUNT FROM ANIMAL_OUTS GROUP BY H..
Topic Modeling 토픽 모델링이란 문서 집합에 숨어 있는 주제를 찾아내는 것이다. 머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출해낸다. 토픽모델링에서는 LDA(Latent Dirichlet Allocation)을 주로 활용한다. 흔히 머신러닝에서 사용하는 LDA(Linear Discriminant Analysis)와는 다른 알고리즘이므로 주의해야한다. 기본 데이터셋인 20뉴스그룹 데이터 셋을 이용하여 토픽모델링을 진행해보려고 한다. 20뉴스그룹 데이터셋에는 20가지의 주제를 가진 뉴스그룹의 데이터가 있는데, 그 중 8개의 주제를 추출하고, 이들 텍스트에 LDA 기반의 토픽 모델링을 적용해보려고 한다. 필요한 라이브러리 로딩 후 카테고리 추출 f..
문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. 동물 보호소에 들어온 동물의 이름은 몇 개인지 조회하는 SQL 문을 작성해주세요. 이때 이름이 NULL인 경우는 집계하지 않으며 중복되는 이름은 하나로 칩니다. 예시 문제 풀이 SELECT COUNT (DISTINCT NAME) AS COUNT FROM ANIMAL_INS WHERE NAME IS NOT NULL COUNT ..