PHP Simple HTML DOM Parser사용 방법 (웹 크롤링 파싱) by 피카부

Dev/PHP/ PHP Simple HTML DOM Parser사용 방법 (웹 크롤링 파싱).txt

2022-02-19 09:11:04

PHP로 웹 페이지를 크롤링하고 파싱할 때 매우 편리하게 사용할 수 있는

PHP Simple HTML DOM Parser의 사용방법을 소개합니다.

소개

먼저 라이브러리를 다운로드합니다.

PHP Simple HTML DOM Parser - Browse Files at SourceForge.net

그리고 사용할 php파일에 로드해줍니다.

require_once 'simple_html_dom.php';

객체 생성

파싱할 html을 str_get_html() 또는 file_get_html()로 simple_html_dom 객체를 생성합니다.

// 문자열로 직접 넣기
$html = str_get_html ( '<html><body>Hello!</body></html>' );

// URL에서 가져오기
$html = file_get_html ( 'http://simple-html-dom-parser.com/');

// HTML 파일로 열기
$html = file_get_html ( 'example.html' );

html을 잘 가져 왔는지 확인하려면 출력을 해봅니다.

var_dump($html); //주의! 이대로 출력하면 너무 많은 양의 html 객체로 인해 서버에 부하를 일으킬 수 있습니다.

var_dump($html->plaintext) //이것은 html요소를 제외한 html에 있는 텍스트만 출력합니다. 위 방법보다 이것을 추천합니다.

메모리 정리

file_get_html() 등으로 오브젝트의 생성을 반복하면, 「Fatal error: Allowed memory size of 12000000 bytes exhausted (tried to allocate 16 bytes)」등의 에러가 나오며 메모리가 부족해질 수 있습니다. 메모리 부족 오류는 php.ini의 memory_limit을 초과할 때 발생합니다.

이러한 경우에는 simple_html_dom 객체의 clear()를 호출합니다. 그러면 객체의 속성이 해제되고 순환 참조로 인한 메모리 누수를 피할 수 있습니다.

$html->clear();

HTML 요소 찾기

이제부터 우리가 원하는 파싱의 기능입니다. 기본적으로 파싱은 find() 메소드로 조건과 일치하는 요소를 얻을 수 있습니다.

// 모든 a 요소를 검색하고 요소의 배열을 가져옵니다.
$ret = $html->find( 'a' );

// 첫 번째로 발견된 a 요소를 얻습니다. 발견되지 않는 경우는 null가 반환됩니다.
$ret = $html->find( 'a', 0 ); //0대신 1을 넣으면 두번째의 a요소가 선택됩니다.

// ... PHP 5.4 이상이라면 다음과 같이 작성할 수 있습니다.
$ret = $html->find( 'a' )[ 0 ];

// id 속성이 있는 모든 요소를 가져옵니다.
$ret = $html->find( '[id]' );

// id 속성이 있는 모든 div 요소를 가져옵니다.
$ret = $html->find( 'div[id]' );

// id 속성이 foo인 모든 div 요소를 가져옵니다.
$ret = $html->find( 'div[id=foo]' );

속성 선택에 사용할 수 있는 연산자


필터		설명
`[ attribute ]`		지정된 속성을 가지는 요소
`[ attribute=value ]`	=	지정된 값을 가지는 요소
`[ attribute!=value ]`	!=	지정된 값을 가지지 않는 요소
`[ attribute^=value ]`	^=	지정된 값으로 시작되는 요소
`[ attribute$=value ]`	$=	지정된 값으로 끝나는 요소
`[ attribute*=value ]`	*=	지정된 값을 포함하는 요소

간단한 사용 방법

$html = str_get_html( '<a><b>Hello!</b></a>' );
echo $html->find( 'b', 0 ); // <b>Hello!</b>가 출력됨

구체적인 사용 방법

CSS의 ID 셀렉터 및 클래스 셀렉터 구문으로도 요소를 얻을 수 있습니다.

// id 속성이 foo인 모든 요소를 가져옵니다.
$ret = $html->find( '#foo' );

// class 속성이 foo인 모든 요소를 가져옵니다.
$ret = $html->find( '.foo' );

또한 쉼표로 구분하여 여러 조건을 지정할 수 있습니다.

// 모든 a 및 img 요소를 얻습니다.
$ret = $html->find( 'a , img' );

// title 속성을 가진 모든 a 및 img 요소를 가져옵니다. 
$ret = $html->find( 'a[title] , img[title]' );

아들 선택자

CSS의 아들 선택자 구문으로도 요소를 얻을 수 있습니다.

// ul 요소 안에 있는 모든 li 요소를 얻습니다.
$es = $html->find( 'ul li' );

// 중첩 div 요소를 얻습니다.
$es = $html->find( 'div div div' );

또한 속성 지정과 결합됩니다.

// class 속성이 hello인 table 요소 안에 있는 모든 td 요소를 가져옵니다.
$es = $html->find( 'table.hello td' );

// table 요소 안에 있는 align=center 속성을 가진 모든 td 요소를 가져옵니다.
$es = $html->find( 'table td[align=center]' );

중첩 선택자

// ul 요소 안에 있는 모든 li 요소를 얻습니다.
foreach( $html->find( 'ul' ) as $ul )
{
  foreach( $ul->find( 'li' ) as $li )
  {
    // $li에 결과가 저장됩니다.
  }
}

// 첫 번째 ul 요소에서 첫 번째 li 요소를 가져옵니다.
$e = $html->find( 'ul', 0 )->find( 'li', 0 );

// PHP 5.4 이상이라면 다음과 같이 작성할 수 있습니다.
$e = $html->find( 'ul' )[ 0 ]->find( 'li' )[ 0 ];

텍스트와 주석

// 모든 텍스트 블록을 얻습니다.
$es = $html->find( ' text ' );

// 모든 주석 ( <!-- ... --> )을 얻습니다.
$es = $html->find( ' comment ' );

HTML 요소에 액세스

// 요소에서 태그를 제외한 텍스트 검색
echo $html->plaintext;

// 요소 외부에 다른 요소를 설정합니다.
$e->outertext = '<div class="wrap">'.$e->outertext.'<div>';

// 빈 문자를 설정하고 요소를 삭제합니다.
$e->outertext = '';

// 요소 뒤에 추가
$e->outertext = $e->outertext.'<div>foo<div>';

// 요소 앞에 삽입
$e->outertext = '<div>foo<div>'.$e->outertext;

요소의 속성

// 속성 얻기 (속성이 값이 아니면 논리 값이 반환됨)
$value = $e->href;

// 속성 설정 (속성이 값이 아니면 논리 값 설정)
$e->href = 'my link';

// 속성을 삭제하고 값을 NULL로 설정
$e->href = null;

// 속성 존재 여부 체크
if( isset( $e->href ) )
{
    echo 'href exist!';
}

이상으로 PHP simple html dom parser에 대한 설명을 마칩니다.

'Dev > PHP' 카테고리의 다른 글

Linux 리눅스 PHP 버전 확인 및 업그레이드 방법 (0)	2021.02.21
[PHP] error_log 함수 사용시 한글 깨짐 문자가 제대로 보이지 않는 문제 해결 (0)	2018.04.11
[PHP] 문자열에서 글자수를 기준으로 자르기 (영어 한글) (0)	2018.03.27
[PHP] 배열 삭제 방법 array_splice array_values array_diff unset (0)	2017.06.22
[PHP] Array 배열 요소 추가 삭제 값 구하기 합치기 결합하기 다차원 사용 방법 정리 (1)	2017.06.14
[PHP] rmdir 로 디렉토리 폴더 내부의 파일들과 같이 삭제를 하고 싶을 때 (0)	2016.08.25
PHP Fatal error: Cannot redeclare 에러 해결 방법 (0)	2016.07.26
CentOS 7에 yum으로 PHP 5.6을 설치하는 방법 (0)	2016.07.18
php에서 간단히 mail 함수로 메일 보내기 (1)	2014.03.13
PHP의 프레임워크의 역사와 현재 (CakePHP, Zend Framework, symfony, Mojavi 등) (0)	2011.07.04

소개