[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchProcessors
212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 17:34FetchProcessors
- 실행시킬 processor들의 컬렉션
기존 설정 값
<bean id="fetchProcessors" class="org.archive.modules.FetchChain">
<property name="processors">
<list>
<!-- re-check scope, if so enabled... -->
<ref bean="preselector"/>
<!-- ...then verify or trigger prerequisite URIs fetched, allow crawling... -->
<ref bean="preconditions"/>
<!-- ...fetch if DNS URI... -->
<ref bean="fetchDns"/>
<!-- <ref bean="fetchWhois"/> -->
<!-- ...fetch if HTTP URI... -->
<ref bean="fetchHttp"/>
<!-- ...extract outlinks from HTTP headers... -->
<ref bean="extractorHttp"/>
<!-- ...extract outlinks from HTML content... -->
<ref bean="extractorHtml"/>
<!-- ...extract outlinks from CSS content... -->
<ref bean="extractorCss"/>
<!-- ...extract outlinks from Javascript content... -->
<ref bean="extractorJs"/>
<!-- ...extract outlinks from Flash content... -->
<ref bean="extractorSwf"/>
</list>
</property>
</bean>
- [process 진행 과정 설명]
- scope를 재 체크 한다. -> preselector
- URI fetch 하기 전 사전 조건을 확인 혹은 trigger 후 크롤링 허용한다. -> preconditions
- DNS URI fetch 한다. -> fetchDns
- HTTP URI를 fetch 한다. -> fetchHttp
- HTTP header로 부터 outlink 들을 추출한다. -> extractorHTTP
- HTML content로 부터 outlink 들을 추출한다. -> extractorHTML
- Css content로 부터 outlink 들을 추출한다. -> extractorCSS
- Javascript content로 부터 outlink 들을 추출한다. -> extractorJS
- Flash content로 부터 outlink 들을 추출한다. -> extractorSwf
'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-candidates (0) | 2016.08.01 |
---|---|
[Heritrix/crawler-beans.cxml]DISPOSITION CHAIN-warcWriter (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorSwf (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss (0) | 2016.08.01 |