FetchProcessors

  • 실행시킬 processor들의 컬렉션

기존 설정 값

 <bean id="fetchProcessors" class="org.archive.modules.FetchChain">
  <property name="processors">
   <list>
    <!-- re-check scope, if so enabled... -->
    <ref bean="preselector"/>
    <!-- ...then verify or trigger prerequisite URIs fetched, allow crawling... -->
    <ref bean="preconditions"/>
    <!-- ...fetch if DNS URI... -->
    <ref bean="fetchDns"/>
    <!-- <ref bean="fetchWhois"/> -->
    <!-- ...fetch if HTTP URI... -->
    <ref bean="fetchHttp"/>
    <!-- ...extract outlinks from HTTP headers... -->
    <ref bean="extractorHttp"/>
    <!-- ...extract outlinks from HTML content... -->
    <ref bean="extractorHtml"/>
    <!-- ...extract outlinks from CSS content... -->
    <ref bean="extractorCss"/>
    <!-- ...extract outlinks from Javascript content... -->
    <ref bean="extractorJs"/>
    <!-- ...extract outlinks from Flash content... -->
    <ref bean="extractorSwf"/>
   </list>
  </property>
 </bean>
  • [process 진행 과정 설명]
    1. scope를 재 체크 한다. -> preselector
    2. URI fetch 하기 전 사전 조건을 확인 혹은 trigger 후 크롤링 허용한다. -> preconditions
    3. DNS URI fetch 한다. -> fetchDns
    4. HTTP URI를 fetch 한다. -> fetchHttp
    5. HTTP header로 부터 outlink 들을 추출한다. -> extractorHTTP
    6. HTML content로 부터 outlink 들을 추출한다. -> extractorHTML
    7. Css content로 부터 outlink 들을 추출한다. -> extractorCSS
    8. Javascript content로 부터 outlink 들을 추출한다. -> extractorJS
    9. Flash content로 부터 outlink 들을 추출한다. -> extractorSwf


Posted by Righ
,