Log

210.Heritrix/00. Personal Note 2015. 7. 22. 09:44

[참조] https://webarchive.jira.com/wiki/display/Heritrix/Logs


말 그대로 로그... Heritrix는 크롤링의 세부적 내용을 자세히 뜯어 볼 수 있도록 여러 기능들을 가지고 있다. 

로그는 run time 중에도 확인 가능함.


./conf 디렉토리 밑에 logging.properties에서 속성값 설정을 해줄 수 있다.


Log Files

1. alerts.log

: 크롤링할 때 발생한 문제점들에 대한 alert를 기록함


2. crawl.log

: Heritrix가 fetch 하는 각각의 URI마다 log 라인 하나 씩 남김.

(ex)

2011-06-23T17:12:09.591Z 200 15829 http://www.identitytheory.com/etexts/poetics.html L http://www.identitytheory.com/ text/html 
#025 20110623171208546+922 sha1:7AJUMSDTOMT4FN7MBFGGNJU3Z56MLCMW - -

[Timestamp] [Fetch Status Code] [Document Size] [Downloaded URI] [Discovery Path] [Referrer] [Mime Type] [Worker Thread ID] [Fetch Timestamp] [SHA1 Digest] [Source Tag] [Annotations] [warc]


3. progress-statistics.log

StatisticsTracker bean에 의해 쓰여지는 log. 크롤링에 대한 상세 진척 정보들에 대한 로그가 씌여져 있다. 이 정도에 대한 interval은 설정 가능하다.

(ex)

timestamp  discovered     queued   downloaded       doc/s(avg)  KB/s(avg)   dl-failures   busy-thread   mem-use-KB  heap-size-KB   congestion   max-depth   avg-depth

2015-07-17T11:20:15Z           0           0            0           0(NaN)       0(0)             0             0       172576        202428            0          -1           0

2015-07-17T11:20:15Z CRAWL RUNNING - Preparing

2015-07-17T11:20:15Z           1           1            0             0(0)       0(0)             0             0       154028        202428            ??           1           1

2015-07-17T11:20:15Z CRAWL PAUSED - Paused

2015-07-17T11:20:34Z CRAWL RUNNING - Running

2015-07-17T11:20:35Z           1           1            0             0(0)       0(0)             0             0       155266        236364            ??           1           1


4. runtime-errors.log

크롤링 중 예상하지 못한 예외 혹은 에러에 대한 로그. 몇몇은 하드웨어 제한 ( 메모리 부족 등등), 대부분은 소프트웨어 버그 ( Heritrix core에서도 날 수 있지만 대부분은 플러그인 클래스 들이다.)


5. uri-errors.log

URI Fetch 할 때의 에러. 대부분 존재하지 않는 URI 일 때 발생. 


6.frontier.recover.gz

Frontier 이벤트에 대한 설명. crash 이후에 Frontier를 재 설정 할 때 사용될 수 있음.


Posted by Righ
,