반응형
먼저, BeautifulSoup 모듈을 사용하기 위해서는 bs4 라이브러리를 설치해야 합니다. bs4 라이브러리는 pip 명령어를 사용하여 설치할 수 있습니다.
pip install bs4
BeautifulSoup 모듈은 HTML, XML 등의 마크업 언어를 파싱하는 데 사용됩니다. BeautifulSoup 객체를 생성하고, 원하는 데이터를 추출하는 방법은 다음과 같습니다.
from bs4 import BeautifulSoup
# HTML 코드를 파싱합니다.
html = "<html><body><h1>Example</h1><p>Some text.</p></body></html>"
soup = BeautifulSoup(html, "html.parser")
# 태그를 이용하여 데이터를 추출합니다.
title = soup.h1.text
text = soup.p.text
# 추출한 데이터를 출력합니다.
print(title)
print(text)
이 코드는 BeautifulSoup 모듈을 사용하여 HTML 코드를 파싱하고,<h1>태그와 <p> 태그의 데이터를 추출합니다.
soup.h1.text는 HTML 코드에서 첫번째 <h1> 태그의 텍스트를 가져옵니다. soup.p.text는 HTML코드에서 첫 번째 <p> 태그의 텍스르를 가져옵니다.
BeautifulSoup 모듈은 다양한 파싱 방법을 지원합니다. html.parser 외에도 lxml, html5lib 등의 파서를 사용할 수 있습니다. 파서를 지정하지 않으면 기본적으로 html.parser가 사용됩니다.
반응형
'성장일기 > 파이썬' 카테고리의 다른 글
온라인 파이썬 코딩이 가능한 설치없이 사용하는 Colab 사용법 (0) | 2023.07.02 |
---|---|
파이썬 설치 환경 구축하지말고 "Colab" 온라인으로 코딩하기! (0) | 2023.07.02 |
[python] 데이터 파싱이란 무엇인가? (0) | 2023.06.30 |
[python] 딕셔너리란 무엇인가 ( 데이터타입 이해하기 ) (0) | 2023.06.30 |
[python] json 모듈로 데이터 파싱하기 - 2번째 (0) | 2023.06.30 |