212.Heritrix_설정파일/00. Personal Note

[Heritrix/crawler-beans.cxml]crawler-beans.cxml의 bean id 목록

Righ 2016. 7. 27. 17:59
  • 각 Bean별로 기능 정리. Bean의 id로 구분
    본 문서에 포함하는 기준은 crawler-beans.cxml 기본 설정에 포함되어 있는지의 여부에 따름. <crawler-beans.cxml 기본 세팅>참조

<OVERRIDES : 자주 변경하는 부분을 빠르고 쉽게 찾을 수 있도록 설정을 override할 수 있도록 앞부분에 배치해놓은 부분>

  1. simpleOverrides
  2. longerOverrides

<CRAWL METADATA : 크롤러와 작업자에 대한 정보를 적어주는 부분>

  1. metadata

<SEEDS : 크롤링 시작점 설정>

  1. seeds

<SCOPE : 어떤 uri들을 크롤링할 것인지에 대한 규칙 설정하는 부분>

  1. acceptSurts
  2. scope

<PROCESSING CHAINS : 크롤링 작업은 서로 교체할 수 있는 processor 모듈들의 일련의 작동으로 세분화 된다. 이 processor들은 세개의 chain으로 묶인다.>

<CANDIDATE CHAIN : URI를 queue에 넣기 전에 inclusion 여부 결정 시 적용되는 chain>

  1. candidateScoper
  2. preparer
    1. canonicalizationPolicy
    2. queueAssignmentPolicy
    3. uriPrecedencePolicy
    4. costAssignmentPolicy
  3. candidateProcessors

<FETCH CHAIN : queue에 있던 URI들의 차례가 돌아왔을 때 적용되는 chain>

  1. preselector
  2. preconditions
  3. fetchDns
  4. fetchWhois
  5. fetchHttp
  6. extractorHttp
  7. extractorHtml
  8. extractorCss
  9. extractorJs
  10. extractorSwf
  11. fetchProcessors

<DISPOSITION CHAIN : URI가 fetch/분석/링크 추출이 끝난 후 적용되는 chain>

  1. warcWriter
  2. candidates
  3. disposition
  4. rescheduler
  5. dispositionProcessors

<CRAWLCONTROLLER: 인터페이스 관리 및 콘텍스트 통합하는 부분>

  1. crawlcontroller

<FRONTIER : 발견되어 queue에 쌓인 모든 URI들을 기록 하는 부분>

  1. frontier
  2. uriUniqFilter

<EXAMPLE SETTINGS OVERLAY SHEETS 상황에 맞는 설정값 예시들... 여기선 생략..>

...

<OPTIONAL BUT RECOMMENDED BEANS>

<ACTIONDIRECTORY : 크롤링 중간에 running 상태인 job이 계속해서 새로운 uri,script 등의 설정이 들어있는 파일을 확인할 directory를 설정하는 부분>

  1. actionDirectory

<CRAWLLIMITENFORCER : 설정된 제한 값에 도달했을 때 크롤링을 중단하도록 설정 하는 부분>

  1. crawlLimiter

<CHECKPOINTSERVICE : checkpoint 기능을 보조하는 부분>

  1. checkpointService

<OPTIONAL BEANS>

<CANONICALIZATION POLICY>

  1. canonicalizationPolicy

<QUEUE ASSIGNMENT POLICY>

  1. queueAssignmentPolicy

<URI PRECEDENCE POLICY>

  1. uriPrecedencePolicy

<COST ASSIGNMENT POLICY>

  1. costAssignmentPolicy

<CREDENTIAL STORE>

  1. credentialStore

<DISK SPACE MONITOR : 크롤링 중에 disk 공간이 최소 제한값 보다 떨어지면 중단하도록 설정하는 부분>

  1. diskSpaceMonitor

<REQUIRED STANDARD BEANS>

<STATISTICSTRACKER : 표준 통계/리포팅 관련 부분>

  1. statisticsTracker

<CRAWLERLOGGERMODULE : 로깅 관련 부분>

  1. loggerModule

<SHEETOVERLAYMANAGER : ????>

  1. sheetOverlaysManager

<BDBMODULE : ????>

  1. bdb

<BDBCOOKIESTORAGE : ????>

  1. cookieStorage

<SERVERCACHE : server/host 정보의 공유 캐시 설정 부분>

  1. serverCache

<CONFIG PATH CONFIGURER : ????>

  1. configPathConfigure