Crawl Recovery


정상적인 작동 중에는 Heritrix Frontier가 일지를 계속 남긴다. 이러한 일지는 logs 디렉토리에 보관이 되는데, frontier.recovery.gz 의 이름으로 남는다. 만약 크롤링 도중 crash가 발생한 경우, frontier.recovery.gz 가 crash 상황의 크롤러의 대략적인 상태를 재구성할 수 있게 사용된다. 몇몇 경우에 복구가 시간이 좀 걸릴 수 있지만, 다시 한번 크롤링이 crash된 상황을 기다리는 것보다는 훨씬 빠르게 진행된다.






 이 복구 과정을 사용한다면, 당신은 아예 새로운 crawling을 같은 (또는 변경된) 설정값을 가지고 시작하는 것이지만, 이 새로운 crawling은 frontier-recover.gz 파일을 이용하여 이전 크롤링의 frontier 상태를 시뮬레이션 하여 크롤링 초반부를 크게 우회해 진행할 수 있다. 이전 크롤링에 대한 로그, ARC/WARC파일들, 체크포인트들에 대한 기록은 한쪽으로 따로 기록으로 남길 수 있다.

 .open 확장자로 존재하는 ARC/WARC 파일들은 이전 실행에서 제대로 닫히지 않은 경우이다. 이 때, 망가지거나 중간에 잘려진 데이터를 포함할 수 있는데, 이때 .warc.gz.open 파일에서 .warc.gz 확장자로 이름을 바꾸기 전에 확인해야 할 사항이 있다. 이 파일을 /dev/null로 zcat 명령어를 실행하여 이 gzip의 유효성을 판단하던지 또다른 ARC/WARC 툴로 기록의 완전성을 체크해야한다.

































(세부적인 사항은 생략하였고, 이해를 바탕으로 완역하였음)


Posted by Righ
,