์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ์ฃผ์ฑ๋ถ๋ถ์
- ๊ตฐ์งํ
- pandas
- ๋น ๋ฐ์ดํฐ
- ADsP
- ๋์ํ๋ณธ
- ํฌ๋กค๋ง
- ์ค๋ฒ์ํ๋ง
- PCA
- iloc
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ์ธ๋์ํ๋ง
- ํ์ด์ฌ
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- datascience
- ํ ์คํธ๋ถ์
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ์๋ํด๋ผ์ฐ๋
- dataframe
- DBSCAN
- numpy
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ADP
- Lambda
- Python
- t-test
- ๋ ๋ฆฝํ๋ณธ
- LDA
- opencv
- ๋ฐ์ดํฐ๋ถ์
Data Science LAB
[Python]๋ด์ค๊ธฐ์ฌ ํฌ๋กค๋ง(Newspaper ์ด์ฉ) ๋ณธ๋ฌธ
[Python]๋ด์ค๊ธฐ์ฌ ํฌ๋กค๋ง(Newspaper ์ด์ฉ)
ใ ใ ใ ใ 2022. 2. 13. 00:49์ด๋ฒ์๋ newpaper ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ์น์ฌ์ดํธ์ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ํฌ๋กค๋ง ํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
https://www.3gpp.org/news-events/2143-3gpp-meets-imt-2020
1. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฐ ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
!pip install newspaper3k
import newspaper
from newspaper import Article
article = Article("https://www.3gpp.org/news-events/2143-3gpp-meets-imt-2020")
#๊ธฐ์ฌ ๋ค์ด๋ก๋
article.download()
article.parse()
ํ์ด์ฌ3 ์ฌ์ฉ์ค์ด๋ฉด
pip install newspaper3k
ํ์ด์ฌ 2 ์ฌ์ฉ์ค์ด๋ฉด
pip install newspaper
(์ ๋ ํ์ด์ฌ 3 ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ newspaper3k๋ก ํ์ต๋๋ค!)
2. ๊ธฐ์ฌ ์ ๋ณด ํ์ธ
- ๊ธฐ์ฌ ๋ด์ฉ
print(article.text)
- ๊ธฐ์ฌ ์ ๋ชฉ
article.title
- ๊ธฐ์ฌ ์ ์
article.authors
์ด๋ฒ์๋ techcrunch ์ฌ์ดํธ์์ ๊ธฐ์ฌ๋ค์ ํฌ๋กค๋ง ํด๋ณด๋ ค๊ณ ํฉ๋๋ค!
ํ ํฌํฌ๋ฐ์น๋ ๊ธฐ์ ์ฐ์ ๋ด์ค์ ์จ๋ผ์ธ ์ถํ์ฌ๋ก ๊ฐ์ข ๊ธฐ์ ๊ณผ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ค์ด ์ฌ๋ผ์ ์์ต๋๋ค.
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์์์ ์ค๋ช ํ ๊ฒ๊ณผ ๋์ผํ๊ธฐ ๋๋ฌธ์ ๋ค์ ๋ถ๋ฌ์ค์ง ์๋๋ก ํ๊ฒ ์ต๋๋น(/โฝ๏ผผ)
1. ์ฌ์ดํธ์์ ๊ธฐ์ฌ ๋ถ๋ฌ์ค๊ธฐ
site = newspaper.build('https://techcrunch.com/')
site.article_urls()
์ฌ์ดํธ ์ ์ผ ์์ ์ฌ๋ผ์ค๋ ๊ธฐ์ฌ๊ฐ ์๊ฐ์ ๋ฐ๋ผ ๋งค๋ฒ ๋ฌ๋ผ์ ธ์ ํ๋ ์๊ฐ์ ๋ฐ๋ผ ํฌ๋กค๋ง ๋ ๊ธฐ์ฌ๊ฐ ๋ค๋ฅผ ์ ์๋ค!
site_article = site.articles[0]
site_article.download()
site_article.parse()
print("article title : ",site_article.title)
print("article url : ",site_article.url)
๋ง์ฐฌ๊ฐ์ง๋ก ์ ์ผ ์์ค์ ๊ธฐ์ฌ๋ ๋ณ๋ ๊ฐ๋ฅํฉ๋๋ฑ
2. for ํจ์๋ฅผ ์ด์ฉํด ๊ธฐ์ฌ ์ ์ฅ
allarticles = []
for i in range(len(site.article_urls())):
article = Article(site.article_urls()[i])
article.download()
article.parse()
allarticles.append(article)
3. ํฌ๋กค๋ง ํด์จ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐ ํ๋ ์ ํ์์ผ๋ก ์ ์ฅ
import pandas as pd
df = pd.DataFrame(columns=['Title','Autrhors','PubDate','URL','Text'])
for i in range(len(allarticles)):
row = dict(zip(['Title','Autrhors','PubDate','URL','Text'],
[allarticles[i].title,allarticles[i].authors,allarticles[i].publish_date,allarticles[i].url,allarticles[i].text]))
row_s = pd.Series(row)
row_s.name=i
df = df.append(row_s)
df
์ด๋ฐ์์ผ๋ก ๊ธฐ์ฌ์ ์ ๋ชฉ, ์ ์, ์ถํ์ผ, URL, ๋ด์ฉ์ด ์ ์ ์ฅ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค
'๐ Python > Crawling' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python]Tabular Data ์น์์ ํฌ๋กค๋ง (0) | 2022.02.13 |
---|---|
[Python] ์น์์ ์ฌ์ง ํฌ๋กค๋งํ๊ธฐ(Crawling) (0) | 2022.02.06 |