성장일기/파이썬

[python] 크롤링하고 마크업 언어 파싱하는 BeautifulSoup 모듈 사용법

지추월자 2023. 6. 30. 08:46
반응형

먼저, BeautifulSoup 모듈을 사용하기 위해서는 bs4 라이브러리를 설치해야 합니다. bs4 라이브러리는 pip 명령어를 사용하여 설치할 수 있습니다.

pip install bs4

BeautifulSoup 모듈은 HTML, XML 등의 마크업 언어를 파싱하는 데 사용됩니다. BeautifulSoup 객체를 생성하고, 원하는 데이터를 추출하는 방법은 다음과 같습니다.

from bs4 import BeautifulSoup

# HTML 코드를 파싱합니다.
html = "<html><body><h1>Example</h1><p>Some text.</p></body></html>"
soup = BeautifulSoup(html, "html.parser")

# 태그를 이용하여 데이터를 추출합니다.
title = soup.h1.text
text = soup.p.text

# 추출한 데이터를 출력합니다.
print(title)
print(text)

이 코드는 BeautifulSoup 모듈을 사용하여 HTML 코드를 파싱하고,<h1>태그와 <p> 태그의 데이터를 추출합니다.

soup.h1.text는 HTML 코드에서 첫번째 <h1> 태그의 텍스트를 가져옵니다. soup.p.text는 HTML코드에서 첫 번째 <p> 태그의 텍스르를 가져옵니다.

BeautifulSoup 모듈은 다양한 파싱 방법을 지원합니다. html.parser 외에도 lxml, html5lib 등의 파서를 사용할 수 있습니다. 파서를 지정하지 않으면 기본적으로 html.parser가 사용됩니다.

반응형