Seeds
- lognerOverrides에서 세팅 해준 설정 값의 세부 사항들을 세팅해준다.
기본 세팅 값
<!-- SEEDS: crawl starting points
ConfigString allows simple, inline specification of a moderate
number of seeds; see below comment for example of using an
arbitrarily-large external file. -->
<bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
<property name="textSource">
<bean class="org.archive.spring.ConfigString">
<property name="value">
<value>
# [see override above]
</value>
</property>
</bean>
</property>
<!-- <property name='sourceTagSeeds' value='false'/> -->
<!-- <property name='blockAwaitingSeedLines' value='-1'/> -->
</bean>
다른 설정 방법
property의 하위 bean의 참조 클래스를 ConfigFile로 하고 참조할 file명을 써주면 file 단위로 seed들을 관리 할 수 있다.
<!-- SEEDS ALTERNATE APPROACH: specifying external seeds.txt file in
the job directory, similar to the H1 approach.
Use either the above, or this, but not both. -->
<bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
<property name="textSource">
<bean class="org.archive.spring.ConfigFile">
<property name="path" value="seeds.txt" />
</bean>
</property>
<property name='sourceTagSeeds' value='false'/>
<property name='blockAwaitingSeedLines' value='-1'/>
</bean>
- [property에 대한 설명]
- textSouce : longerOverrides 참조
- sourceTagSeeds : 크롤링할 seed가 여러개인 경우, log파일에 크롤된 url이 어떤 seed에서 크롤링 된 것인지를 나타내는 sourceTagSeeds 값이 저장된다. true로 설정 해줌
- blockAwaitingSeedLines : 크롤링 시작시 seed를 몇 개 로딩할 것인지 설정 해 준다. '-1'일 경우 all. seed list가 거대한 경우, scope 규칙이 모든 seed를 읽는다는 것에 의존하지 않은 경우 이 값을 설정해 준다.