본문 바로가기
IT/파이썬

[파이썬][기초][크롤링]HTML 구조-"태그"를 이용한 데이터 스크래핑

by 호유(ho_you) 2018. 10. 26.
반응형



BeautifulSoup 을 이용하여 HTML의 태그정보를 통해 스크래핑 하는 예제


ㅁ 필수 설치 패키지

   1) BeautifulSoup 설치

    - 명령어 : pip3 install BeautifulSoup


ㅁ 소스코드

    - 복사해서 실행 가능합니다.

# 라이브러리 읽기

from bs4 import BeautifulSoup


# 분석하고 싶은 HTML

html = """

<html><body>

<h1><웹페이지분석></h1>

<p>웹 페이지를 분석하는것</p>

<p>웹 페이지를 추하는것</p>

</body></html>

"""


#html 분석하기

soup = BeautifulSoup(html, 'html.parser')


#원하는 부분 추출

h1 = soup.html.body.h1

p1 = soup.html.body.p

p2 = p1.next_sibling.next_sibling

# 위 소스의 next_sibling_next 는 HTML에서 

# <p>태그의 두번째 <p>태그를 가져오기 위해 사용함 

#출력

print("h1 = ", h1.string)

print("p1 = ", p1.string)

print("p2 = ", p2.string)


ㅁ 실행결과

   - 실행방법 : CMD 창에 들어가서 .py로 저장한 소스를 실행 시켜 주시면 됩니다.




◈ 참조

출처 : 파이썬을 이용한 머신러닝, 딥러닝 실전개발 입문 책 참조

저자 : 쿠지라 히코우즈쿠에 지음

옮김 : 윤인성 옮김


반응형

댓글