[Heritrix/crawler-beans.cxml]crawler-beans.cxml의 bean id 목록
- 각 Bean별로 기능 정리. Bean의 id로 구분
본 문서에 포함하는 기준은 crawler-beans.cxml 기본 설정에 포함되어 있는지의 여부에 따름. <crawler-beans.cxml 기본 세팅>참조
<OVERRIDES : 자주 변경하는 부분을 빠르고 쉽게 찾을 수 있도록 설정을 override할 수 있도록 앞부분에 배치해놓은 부분>
- simpleOverrides
- longerOverrides
<CRAWL METADATA : 크롤러와 작업자에 대한 정보를 적어주는 부분>
- metadata
<SEEDS : 크롤링 시작점 설정>
- seeds
<SCOPE : 어떤 uri들을 크롤링할 것인지에 대한 규칙 설정하는 부분>
- acceptSurts
- scope
<PROCESSING CHAINS : 크롤링 작업은 서로 교체할 수 있는 processor 모듈들의 일련의 작동으로 세분화 된다. 이 processor들은 세개의 chain으로 묶인다.>
<CANDIDATE CHAIN : URI를 queue에 넣기 전에 inclusion 여부 결정 시 적용되는 chain>
- candidateScoper
- preparer
- canonicalizationPolicy
- queueAssignmentPolicy
- uriPrecedencePolicy
- costAssignmentPolicy
- candidateProcessors
<FETCH CHAIN : queue에 있던 URI들의 차례가 돌아왔을 때 적용되는 chain>
- preselector
- preconditions
- fetchDns
- fetchWhois
- fetchHttp
- extractorHttp
- extractorHtml
- extractorCss
- extractorJs
- extractorSwf
- fetchProcessors
<DISPOSITION CHAIN : URI가 fetch/분석/링크 추출이 끝난 후 적용되는 chain>
- warcWriter
- candidates
- disposition
- rescheduler
- dispositionProcessors
<CRAWLCONTROLLER: 인터페이스 관리 및 콘텍스트 통합하는 부분>
- crawlcontroller
<FRONTIER : 발견되어 queue에 쌓인 모든 URI들을 기록 하는 부분>
- frontier
- uriUniqFilter
<EXAMPLE SETTINGS OVERLAY SHEETS 상황에 맞는 설정값 예시들... 여기선 생략..>
...
<OPTIONAL BUT RECOMMENDED BEANS>
<ACTIONDIRECTORY : 크롤링 중간에 running 상태인 job이 계속해서 새로운 uri,script 등의 설정이 들어있는 파일을 확인할 directory를 설정하는 부분>
- actionDirectory
<CRAWLLIMITENFORCER : 설정된 제한 값에 도달했을 때 크롤링을 중단하도록 설정 하는 부분>
- crawlLimiter
<CHECKPOINTSERVICE : checkpoint 기능을 보조하는 부분>
- checkpointService
<OPTIONAL BEANS>
<CANONICALIZATION POLICY>
- canonicalizationPolicy
<QUEUE ASSIGNMENT POLICY>
- queueAssignmentPolicy
<URI PRECEDENCE POLICY>
- uriPrecedencePolicy
<COST ASSIGNMENT POLICY>
- costAssignmentPolicy
<CREDENTIAL STORE>
- credentialStore
<DISK SPACE MONITOR : 크롤링 중에 disk 공간이 최소 제한값 보다 떨어지면 중단하도록 설정하는 부분>
- diskSpaceMonitor
<REQUIRED STANDARD BEANS>
<STATISTICSTRACKER : 표준 통계/리포팅 관련 부분>
- statisticsTracker
<CRAWLERLOGGERMODULE : 로깅 관련 부분>
- loggerModule
<SHEETOVERLAYMANAGER : ????>
- sheetOverlaysManager
<BDBMODULE : ????>
- bdb
<BDBCOOKIESTORAGE : ????>
- cookieStorage
<SERVERCACHE : server/host 정보의 공유 캐시 설정 부분>
- serverCache
<CONFIG PATH CONFIGURER : ????>
- configPathConfigure