[참조] https://webarchive.jira.com/wiki/display/Heritrix/Logs
말 그대로 로그... Heritrix는 크롤링의 세부적 내용을 자세히 뜯어 볼 수 있도록 여러 기능들을 가지고 있다.
로그는 run time 중에도 확인 가능함.
./conf 디렉토리 밑에 logging.properties에서 속성값 설정을 해줄 수 있다.
Log Files
1. alerts.log
: 크롤링할 때 발생한 문제점들에 대한 alert를 기록함
2. crawl.log
: Heritrix가 fetch 하는 각각의 URI마다 log 라인 하나 씩 남김.
(ex)
2011
-
06
-23T17:
12
:
09
.591Z
200
15829
http:
//www.identitytheory.com/etexts/poetics.html L
http://www.identitytheory.com/
text/html
#025 20110623171208546+922 sha1:7AJUMSDTOMT4FN7MBFGGNJU3Z56MLCMW
- -[Timestamp] [Fetch Status Code] [Document Size] [Downloaded URI] [Discovery Path] [Referrer] [Mime Type] [Worker Thread ID] [Fetch Timestamp] [SHA1 Digest] [Source Tag] [Annotations] [warc]
3. progress-statistics.log
StatisticsTracker bean에 의해 쓰여지는 log. 크롤링에 대한 상세 진척 정보들에 대한 로그가 씌여져 있다. 이 정도에 대한 interval은 설정 가능하다.
(ex)
timestamp discovered queued downloaded doc/s(avg) KB/s(avg) dl-failures busy-thread mem-use-KB heap-size-KB congestion max-depth avg-depth
2015-07-17T11:20:15Z 0 0 0 0(NaN) 0(0) 0 0 172576 202428 0 -1 0
2015-07-17T11:20:15Z CRAWL RUNNING - Preparing
2015-07-17T11:20:15Z 1 1 0 0(0) 0(0) 0 0 154028 202428 ?? 1 1
2015-07-17T11:20:15Z CRAWL PAUSED - Paused
2015-07-17T11:20:34Z CRAWL RUNNING - Running
2015-07-17T11:20:35Z 1 1 0 0(0) 0(0) 0 0 155266 236364 ?? 1 1
4. runtime-errors.log
크롤링 중 예상하지 못한 예외 혹은 에러에 대한 로그. 몇몇은 하드웨어 제한 ( 메모리 부족 등등), 대부분은 소프트웨어 버그 ( Heritrix core에서도 날 수 있지만 대부분은 플러그인 클래스 들이다.)
5. uri-errors.log
URI Fetch 할 때의 에러. 대부분 존재하지 않는 URI 일 때 발생.
6.frontier.recover.gz
Frontier 이벤트에 대한 설명. crash 이후에 Frontier를 재 설정 할 때 사용될 수 있음.
'210.Heritrix > 00. Personal Note' 카테고리의 다른 글
[Heritrix/Knowledge-Base]Heritrix 내부 동작 방법 - Crawl Recovery (번역) (0) | 2016.08.02 |
---|---|
[Heritrix/Knowledge-Base]Heritrix 용어 해설 - Frontier queue budget (번역) (0) | 2016.08.02 |