Seeds

  • lognerOverrides에서 세팅 해준 설정 값의 세부 사항들을 세팅해준다.

기본 세팅 값

 <!-- SEEDS: crawl starting points 
      ConfigString allows simple, inline specification of a moderate
      number of seeds; see below comment for example of using an
      arbitrarily-large external file. -->
 <bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
     <property name="textSource">
      <bean class="org.archive.spring.ConfigString">
       <property name="value">
        <value>
# [see override above]
        </value>
       </property>
      </bean>
     </property>
<!-- <property name='sourceTagSeeds' value='false'/> -->
<!-- <property name='blockAwaitingSeedLines' value='-1'/> -->
 </bean>

다른 설정 방법
property의 하위 bean의 참조 클래스를 ConfigFile로 하고 참조할 file명을 써주면 file 단위로 seed들을 관리 할 수 있다.

<!-- SEEDS ALTERNATE APPROACH: specifying external seeds.txt file in
      the job directory, similar to the H1 approach. 
      Use either the above, or this, but not both. -->

 <bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
  <property name="textSource">
   <bean class="org.archive.spring.ConfigFile">
    <property name="path" value="seeds.txt" />
   </bean>
  </property>
  <property name='sourceTagSeeds' value='false'/>
  <property name='blockAwaitingSeedLines' value='-1'/>
 </bean>
  • [property에 대한 설명]
    1. textSouce : longerOverrides 참조
    2. sourceTagSeeds : 크롤링할 seed가 여러개인 경우, log파일에 크롤된 url이 어떤 seed에서 크롤링 된 것인지를 나타내는 sourceTagSeeds 값이 저장된다. true로 설정 해줌
    3. blockAwaitingSeedLines : 크롤링 시작시 seed를 몇 개 로딩할 것인지 설정 해 준다. '-1'일 경우 all. seed list가 거대한 경우, scope 규칙이 모든 seed를 읽는다는 것에 의존하지 않은 경우 이 값을 설정해 준다.


Posted by Righ
,