μΌ | μ | ν | μ | λͺ© | κΈ | ν |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ADP
- numpy
- ν¬λ‘€λ§
- λ 립νλ³Έ
- λΉ λ°μ΄ν°λΆμκΈ°μ¬
- μλν΄λΌμ°λ
- LDA
- μ£Όμ±λΆλΆμ
- ν μ€νΈλΆμ
- pandas
- Python
- λ°μ΄ν°λΆκ· ν
- dataframe
- μ€λ²μνλ§
- νμ΄μ¬
- datascience
- iloc
- λ°μ΄ν°λΆμ
- λ°μ΄ν°λΆμμ λ¬Έκ°
- t-test
- μΈλμνλ§
- Lambda
- DBSCAN
- λ°μ΄ν°λΆμμ€μ λ¬Έκ°
- PCA
- κ΅°μ§ν
- opencv
- ADsP
- λμνλ³Έ
- λΉ λ°μ΄ν°
Data Science LAB
[Python]Tabular Data μΉμμ ν¬λ‘€λ§ λ³Έλ¬Έ
Tabular Data λ?
- μμ νμΌ νμμ΄λ κ΄κ³ν λ°μ΄ν°λ² μ΄μ€μ ν μ΄λΈμ λ΄μ μ μλ λ°μ΄ν°
- μ¦, νκ³Ό μ΄λ‘ ννμ΄ κ°λ₯ν λ°μ΄ν°
μ¦, λ°μ΄ν° λΆμμμ μμ£Ό μ¬μ©νλ ν νμμ λ°μ΄ν°μ΄λ€.
Tabular Data μΉμμ scrapping
μ€λ λΆλ¬μ¬ λ°μ΄ν°λ νμ€λ² λμ λ°μ΄ν°μ΄λ€.
https://en.wikipedia.org/wiki/Politics_of_Pennsylvania
1. νμν λΌμ΄λΈλ¬λ¦¬ λΆλ¬μ€κΈ°
import pandas as pd
import numpy as np
2. λ°μ΄ν° λ‘λ©
table_PA = pd.read_html('http://en.wikipedia.org/wiki/Politics_of_Pennsylvania')
len(table_PA)
λΆλ¬μ¨ λ°μ΄ν°μ μ νμΈν΄ 보면 μΉνμ΄μ§μ λͺ¨λ λΆλΆμ΄ ν¬λ‘€λ§ λ κ²μ νμΈν μ μλ€.
λ°λΌμ λΆλ¬μ€κ³ μ νλ tabular dataλ§μ μ§μ ν΄μ λ€μ λΆλ¬μμΌ νλ€.
3. νμν λ°μ΄ν° λ€μ λ‘λ©
table_PA = pd.read_html('https://en.wikipedia.org/wiki/Politics_of_Pennsylvania',match='Presidential election results')
len(table_PA)
λ°μ΄ν°μ μ λΆλ¬μ€λ μ½λμ matchλ₯Ό μΆκ°νλ©΄ μνλ λ°μ΄ν°μ λ§μ λΆλ¬μ¬ μ μλ€.
μ€ν κ²°κ³Ό ν μ΄λΈ μκ° 1κ°λ‘ μ λΆλ¬μμ§ κ²μ νμΈν μ μλ€.
4. λ°μ΄ν° μ 보 νμΈ
df = table_PA[0]
df.head()
λ°μ΄ν°μ μ μμ 5κ° λ°μ΄ν°λ§ νμΈν΄ 보λ %λ‘ κ΅¬μ±λ 컬λΌμ΄ μλ κ²μ νμΈ
5. λ°μ΄ν° λ³ν
df['Democratic'] = df['Democratic'].str[:4]
df['Republican'] = df['Republican'].str[:4]
df.head()
df.info()
'Democratic','Rebublican'컬λΌμ΄ objectνμμΈ κ²μ νμΈ
df[['Democratic','Republican']] = df[['Democratic','Republican']].apply(pd.to_numeric)
df.info()
μ΄ μ½λλ₯Ό κΈ°λ°μΌλ‘ μΉμμ λ€μν λ°μ΄ν°λ₯Ό ν¬λ‘€λ§ ν΄μ€λ μ°μ΅μ λ ν΄μΌν κ² κ°λ€ γ γ
'π Python > Crawling' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[Python]λ΄μ€κΈ°μ¬ ν¬λ‘€λ§(Newspaper μ΄μ©) (0) | 2022.02.13 |
---|---|
[Python] μΉμμ μ¬μ§ ν¬λ‘€λ§νκΈ°(Crawling) (0) | 2022.02.06 |