[python] 크롤링하고 마크업 언어 파싱하는 BeautifulSoup 모듈 사용법

성장일기/파이썬

[python] 크롤링하고 마크업 언어 파싱하는 BeautifulSoup 모듈 사용법

지추월자 2023. 6. 30. 08:46

먼저, BeautifulSoup 모듈을 사용하기 위해서는 bs4 라이브러리를 설치해야 합니다. bs4 라이브러리는 pip 명령어를 사용하여 설치할 수 있습니다.

pip install bs4

BeautifulSoup 모듈은 HTML, XML 등의 마크업 언어를 파싱하는 데 사용됩니다. BeautifulSoup 객체를 생성하고, 원하는 데이터를 추출하는 방법은 다음과 같습니다.

from bs4 import BeautifulSoup

# HTML 코드를 파싱합니다.
html = "<html><body><h1>Example</h1><p>Some text.</p></body></html>"
soup = BeautifulSoup(html, "html.parser")

# 태그를 이용하여 데이터를 추출합니다.
title = soup.h1.text
text = soup.p.text

# 추출한 데이터를 출력합니다.
print(title)
print(text)

이 코드는 BeautifulSoup 모듈을 사용하여 HTML 코드를 파싱하고,<h1>태그와 <p> 태그의 데이터를 추출합니다.

soup.h1.text는 HTML 코드에서 첫번째 <h1> 태그의 텍스트를 가져옵니다. soup.p.text는 HTML코드에서 첫 번째 <p> 태그의 텍스르를 가져옵니다.

BeautifulSoup 모듈은 다양한 파싱 방법을 지원합니다. html.parser 외에도 lxml, html5lib 등의 파서를 사용할 수 있습니다. 파서를 지정하지 않으면 기본적으로 html.parser가 사용됩니다.

저작자표시 비영리 변경금지

'성장일기 > 파이썬' 카테고리의 다른 글

온라인 파이썬 코딩이 가능한 설치없이 사용하는 Colab 사용법 (0)	2023.07.02
파이썬 설치 환경 구축하지말고 "Colab" 온라인으로 코딩하기! (0)	2023.07.02
[python] 데이터 파싱이란 무엇인가? (0)	2023.06.30
[python] 딕셔너리란 무엇인가 ( 데이터타입 이해하기 ) (0)	2023.06.30
[python] json 모듈로 데이터 파싱하기 - 2번째 (0)	2023.06.30

현재글[python] 크롤링하고 마크업 언어 파싱하는 BeautifulSoup 모듈 사용법

클라우드컴퓨팅, 파이썬, 파이썬문법, 쿠버네티스, 가상화기술, 리눅스, aws, aws자격증, 네트워크, 파이썬공부, CKA, 알고리즘, 첫만남이용권, 클라우드서버, 2024첫만남이용권, 클라우드컴퓨팅이란, 데이터파싱, 가상화, 클라우드, 쿠버네티스자격증,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

지식의 추월차선