본문 바로가기

HTML 웹문서의 TAG 지우고 본문만 남기기, php 명령모드에서 실행하기

반응형

HTML2TXT: HTML 웹문서의 TAG 지우고 본문만 남기기

파일명: strip_tags.php
< ?php

  $s = strip_tags(join('',file($argv[1])));
  print $s;

?>


PHP를 설치한 후(여기서는 윈도우용을 설치했음), 도스창(명령 프롬프트;CMD.EXE)에서


php strip_tags.php test.html


이렇게 해주면, test.html 이라는 파일에서 본문만 추출되어 화면으로 출력됩니다.


추출 결과를 텍스트 파일로 저장하기 위해서는


php strip_tags.php test.html > out.txt


이렇게 하면 됩니다.





수동으로 태그 삭제 방법

웹 브라우저에서 HTML 파일을 부른 후, Ctrl+A 키를 누르면 전체 텍스트가 선택됩니다.

Ctrl+C 키를 눌러 복사한 후, 메모장 등의 편집기에서 Ctrl+V 키로 붙여 넣으면, 본문만 추출됩니다.

가장 원시적인 방법이지만, 가장 완벽하게 텍스트 추출을 할 수 있습니다.




또는 브라우저의,

메뉴: 파일 > 다른 이름으로 저장

에서, "모든 웹 페이지(*.htm;*.html)" 가 아닌
"텍스트 파일(*.txt)" 를 선택하면, 태그가 제거된 텍스트만 저장됩니다.

반응형

댓글


Copyright ⓒ SmartWeb All rights reserved.