LoggerModule

• log 파일의 경로를 설정해준다.

기존 설정 값

 <bean id="loggerModule"
   class="org.archive.crawler.reporting.CrawlerLoggerModule">
  <!-- <property name="path" value="${launchId}/logs" /> -->
  <!-- <property name="crawlLogPath" value="crawl.log" /> -->
  <!-- <property name="alertsLogPath" value="alerts.log" /> -->
  <!-- <property name="progressLogPath" value="progress-statistics.log" /> -->
  <!-- <property name="uriErrorsLogPath" value="uri-errors.log" /> -->
  <!-- <property name="runtimeErrorsLogPath" value="runtime-errors.log" /> -->
  <!-- <property name="nonfatalErrorsLogPath" value="nonfatal-errors.log" /> -->
  <!-- <property name="logExtraInfo" value="false" /> -->
 </bean>


• [property에 대한 설명]

1.path : 로그파일의 root 경로

2.crawlLogPath : Heritrix가 fetch 하는 각각의 URI에 대한 로그 파일 경로

3.alertsLogPath : 크롤링할 때 발생한 문제점들에 대한 alert에 대한 로그 파일 경로

4.progressLogPath : StatisticsTracker bean에 의해 쓰여지는 log. 크롤링에 대한 상세 진척 정보들에 대한 로그 파일 경로

5.uriErrorsLogPath : URI Fetch 할 때의 에러 로그 파일 경로

6.runtimeErrorsLogPath : 크롤링 중 예상하지 못한 예외 혹은 에러에 대한 로그 파일 경로

7.nonfatalErrorsLogPath : 크롤링 중 발생한, 심각하지 않은 에러에 대한 로그 파일 경로

8.logExtraInfo : 이 값이 true 이면 crawl.log 파일 마지막 필드값에 extra info 필드가 추가 된다. json 형식으로 타깃이 되는 ARC/WARC 파일에서 각 URI에 대한 내용이 어느 부분에 쓰여져 있는지에 대한 정보를 담고 있다.


Posted by Righ
,