반응형
HTML2TXT: HTML 웹문서의 TAG 지우고 본문만 남기기
파일명: strip_tags.php
< ?php
$s = strip_tags(join('',file($argv[1])));
print $s;
?>
PHP를 설치한 후(여기서는 윈도우용을 설치했음), 도스창(명령 프롬프트;CMD.EXE)에서
php strip_tags.php test.html
이렇게 해주면, test.html 이라는 파일에서 본문만 추출되어 화면으로 출력됩니다.
추출 결과를 텍스트 파일로 저장하기 위해서는
php strip_tags.php test.html > out.txt
이렇게 하면 됩니다.
수동으로 태그 삭제 방법
웹 브라우저에서 HTML 파일을 부른 후, Ctrl+A 키를 누르면 전체 텍스트가 선택됩니다.
Ctrl+C 키를 눌러 복사한 후, 메모장 등의 편집기에서 Ctrl+V 키로 붙여 넣으면, 본문만 추출됩니다.
가장 원시적인 방법이지만, 가장 완벽하게 텍스트 추출을 할 수 있습니다.
또는 브라우저의,
메뉴: 파일 > 다른 이름으로 저장
에서, "모든 웹 페이지(*.htm;*.html)" 가 아닌
"텍스트 파일(*.txt)" 를 선택하면, 태그가 제거된 텍스트만 저장됩니다.
반응형
'PHP∵SCRIPT' 카테고리의 다른 글
문자열에서 영문+숫자만추출하기 (0) | 2014.04.29 |
---|---|
내용중 image 추출 처리 (0) | 2014.04.29 |
정규식 1차 도메인만 추출 (0) | 2014.04.28 |
반드시 알아아 할 PHP 보안 30 가지 (0) | 2014.04.24 |
Mysql 날짜/시간 관련 함수 (0) | 2014.04.24 |
php xml parse 3종 세트 (0) | 2014.04.24 |
주민등록번호 유효성 검사 (0) | 2014.04.22 |
> 로 시작해서 </ 로 끝나는 부분만 추출하기 (0) | 2014.04.22 |
댓글