일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Python
- DBSCAN
- t-test
- 데이터분석
- LDA
- Lambda
- 주성분분석
- ADP
- 빅데이터분석기사
- ADsP
- iloc
- 독립표본
- PCA
- numpy
- 빅데이터
- 데이터분석준전문가
- 데이터분석전문가
- 오버샘플링
- 데이터불균형
- 대응표본
- 군집화
- opencv
- dataframe
- pandas
- 크롤링
- 언더샘플링
- datascience
- 워드클라우드
- 텍스트분석
- 파이썬
목록adp 실기 (22)
Data Science LAB
한참 늦은,,, ADP 실기 복원입니다 다음 시험 보시는 분들 참고하시길,,,ㅎㅎ 1. 머신러닝(50점) 1-1. 주어진 데이터의 결측치 식별, 삭제하지 않고 처리할 수 있는 방법과 수행 결과 제시 -> 수치형 변수는 중앙값, 범주형 변수는 최빈값 1-2. 고객 군집분석 전 이상치 제거 (이상치 제거 방법과 이상치가 제거되었다는 통계 자료 제시) -> 박스플랏을 통한 통계량 제시, 이상치가 매우 많았기 때문에 전체 제거하지는 않음 1-3. k-means 또는 DBSCAN 등을 활용하여 군집 생성 후 기법 선택 이유 -> k-means를 통해 군집분석 진행 (elbow기법을 사용하여 k의 개수 지정) 2-1. 군집 성능 지표 산출, 군집간 차이와 특성 제시 -> 실루엣 계수와 각 변수별로 군집의 특성 파악..

문제 링크 : https://www.kaggle.com/code/kukuroo3/problem4-python/notebook problem4-python Explore and run machine learning code with Kaggle Notebooks | Using data from ADP_KR_p4 www.kaggle.com 1번 철강데이터 종속변수 : target 데이터 출처 : https://www.kaggle.com/uciml/faulty-steel-plates 데이터 경로 : /kaggle/input/adp-kr-p4/problem1.csv 1-1 EDA(탐색적 데이터 분석)을 하시오 (시각화와 통계량을 제시할 것) df1 = pd.read_csv('/kaggle/input/adp-kr..

사용 데이터 : instagram_태교여행.txt 1. 'instagram_태교여행.txt' 데이터를 읽어온 뒤, 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import re f = open(r'../data/instagram_태교여행.txt') data = f.read() text = re.sub('[^A-Za-z가-힣\\s]',' ',data) text 2. 전처리된 데이터에서 '태교여행' 이란 단어를 사전에 추가하고 명사를 추출해 출현빈도 10위까지 막대그래프로 시각화하시오. import pandas as pd dict = pd.DataFrame(columns=['명사', '형태소']) dict =dict.append({'명사' : '태교여행', '형태소':'NNP'},ignore_..

사용 데이터 : bike_marketing.csv 변수 데이터 형태 설명 company_num 수치형 회사 번호 google_adwords 수치형 구글 Adwords에 대한 비용 facebook 수치형 페이스북 광고에 대한 비용 twitter 수치형 트위터 광고에 대한 비용 marketing_total 수치형 총 마케팅 예산 revenues 수치형 매출 정보 employees 수치형 종업원 수 pop_density 범주형 타깃 시장의 인구밀도 수준 (Low, Medium, High) 1. pop_density 변수를 factor형 변수로 변환하고, pop_density 별 revenues의 평균 차이가 있는 지 통계분석을 시행하여 결과를 해석하시오. 만약 대립가설이 채택된다면 사후분석을 실시하고 결과를 ..

사용 데이터 : weatherAUS.csv 변수 데이터 형태 설명 Date 날짜형 날짜 Location 범주형 장소 MinTemp 수치형 최저 온도 (섭씨) MaxTemp 수치형 최고 온도 (섭씨) Rainfall 수치형 하루 동안 기록된 강우량 WindGustDir 범주형 자정까지 24시간 동안 가장 강한 바람이 부는 방향 WIndGustSpeed 수치형 24시간에서 자정 사이 가장 강한 바람 속도 (km/h) WindDir9am 범주형 바람 방향 WindDIr3pm 범주형 바람 방향 WindSpeed9am 수치형 평균 10분 이상 풍속 WindSpeed3pm 수치형 평균 10분 이상 풍속 Humidity9am 수치형 습도 Humidity3pm 수치형 습도 Pressure9am 수치형 대기압 Press..

사용 데이터 : 공구 블로그 댓글.txt, 사전.txt 1. '공구 블로그 댓글.txt' 파일을 읽어 들여 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import pandas as pd import numpy as np f = open('../data/공구 블로그 댓글.txt', 'r') data = f.read() data import re text = re.sub('[^A-Za-z가-힣\\s]',' ',data) text 2. '사전.txt'를 사전에 추가하고 문서에서 형용사를 추출하라 f = open('../data/사전.txt', 'r') dictionary = f.read() dictionary from konlpy.tag import * hannanum = Hannanum() ..