'212.Heritrix_설정파일'에 해당되는 글 42건

2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns
2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions
2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector
2016.07.27 [Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors
2016.07.27 [Heritrix/crawler-beans.cxml]costAssignmentPolicy

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:16

FetchDns

'dns:' URI들을 관장하는 processor

기존 설정 값

<bean id="fetchDns" class="org.archive.modules.fetcher.FetchDNS">
  <!-- <property name="acceptNonDnsResolves" value="false" /> -->
  <!-- <property name="digestContent" value="true" /> -->
  <!-- <property name="digestAlgorithm" value="sha1" /> -->
 </bean>

[property에 대한 설명]

acceptNonDnsResolves : DNS lookup이 실패했을 경우 대비책을 적용할 것인지에 대한 여부. 로컬의 hosts 파일을 읽는다거나 다른 메커니즘을 따른다.
digestContent : 응답으로 회수된 content-body를 바로 해싱할 것인지에 대한 여부
digestAlgorithm : 위 해싱 알고리즘을 적어줌

저작자표시 비영리 (새창열림)

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector (0)	2016.08.01
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors (0)	2016.07.27

Posted by Righ

[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:15

Preconditions

fetch를 하기 전 사전 조건(DNS lookup 또는 robots.txt 정책 준수)이 제대로 되어 있는지 확인한다.

기존 설정 값

<bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">
  <!-- <property name="ipValidityDurationSeconds" value="21600" /> -->
  <!-- <property name="robotsValidityDurationSeconds" value="86400" /> -->
  <!-- <property name="calculateRobotsOnly" value="false" /> -->
 </bean>

[property에 대한 설명]

ipValidityDurationSeconds : dns 기록이 유효하다고 판단할 최소 시간을 적어준다. 저장된 dns ttl 값이 이 값보다 큰 경우엔 dns-ttl 값으로 대체한다.
robotsValidityDurationSeconds : fetch한 robots.txt 가 유효하다고 판단할 최소 시간을 적어준다. 0일 경우는 robots.txt 정보가 만료되지 않을 것.
calculateRobotsOnly : robots 상태를 체크만 하고 실제 exclusion을 적용하진 않는다. true로 할 시에는 배제된 uri들이 주석처리되어 crawl.log에 남지만 fetch는 된다.

저작자표시 비영리 (새창열림)

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector (0)	2016.08.01
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors (0)	2016.07.27
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-preparer (0)	2016.07.27

Posted by Righ

[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:14

Preselector

queue에서 대기하던 uri를 pop한 후 먼저 처리할 사항을 설정하는 부분이다.

기존 설정 값

 <!-- first, processors are declared as top-level named beans -->
 <bean id="preselector" class="org.archive.crawler.prefetch.Preselector">
  <!-- <property name="recheckScope" value="false" /> -->
  <!-- <property name="blockAll" value="false" /> -->
  <!-- <property name="blockByRegex" value="" /> -->
  <!-- <property name="allowByRegex" value="" /> -->
 </bean>

[property에 대한 설명]

recheckScope : queue에 push하기 전에 scope를 체크하였으나 pop 후 다시 체크가도록 설정하는 부분. crawl 중간에 scope 설정을 바꿀 경우 사용하는 옵션이다.
blockAll : 모든 uri를 block 처리한다. 특정 host에 대한 진행을 기각처리하고 싶을 때 사용한다.
blockByRex : 정규식에 매칭되는 uri는 block 처리한다.
allowByRex : 정규식에 매칭되는 uri외의 uri들을 block 처리한다.

저작자표시 비영리 (새창열림)

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions (0)	2016.08.01
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors (0)	2016.07.27
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-preparer (0)	2016.07.27
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateScoper (0)	2016.07.26

Posted by Righ

[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 7. 27. 18:01

CandidateProcessors

포함할 CandidateChain에 포함할 processor들을 표시한다.

기존 설정 값

 <!-- now, processors are assembled into ordered CandidateChain bean -->
 <bean id="candidateProcessors" class="org.archive.modules.CandidateChain">
  <property name="processors">
   <list>
    <!-- apply scoping rules to each individual candidate URI... -->
    <ref bean="candidateScoper"/>
    <!-- ...then prepare those ACCEPTed to be enqueued to frontier. -->
    <ref bean="preparer"/>
   </list>
  </property>
 </bean>

[process 진행 과정 설명]

각각의 candidate URI에 rule을 적용하여 filtering 한다. -> cadidateScoper
이 filtering 된 URI들(ACCEPTed)을 queue에 저장한다. -> preparer

저작자표시 비영리 (새창열림)

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector (0)	2016.08.01
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-preparer (0)	2016.07.27
[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateScoper (0)	2016.07.26

Posted by Righ

[Heritrix/crawler-beans.cxml]costAssignmentPolicy

212.Heritrix_설정파일/10. OPTIONAL BEANS 2016. 7. 27. 18:01

CostAssignmentPolicy

queue 내에서의 우선순위를 의미하는 cost를 각 크롤링된 uri에 부여한다.

기존 설정 값

 <!-- COST ASSIGNMENT POLICY -->
 <!--
 <bean id="costAssignmentPolicy" 
   class="org.archive.crawler.frontier.UnitCostAssignmentPolicy">
 </bean>
 -->

현재 class인 UnitCostAssignemtPolicy는 모든 CrawlURI에 같은 값인 1을 부여한다.

저작자표시 비영리 (새창열림)

'212.Heritrix_설정파일 > 10. OPTIONAL BEANS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]diskSpaceMonitor (0)	2016.08.03
[Heritrix/crawler-beans.cxml]uriPrecedencePolicy (0)	2016.07.27
[Heritrix/crawler-beans.cxml]queueAssignmentPolicy (0)	2016.07.27
[Heritrix/crawler-beans.cxml]canonicalizationPolicy (0)	2016.07.27

Posted by Righ

이전 1 ··· 3 4 5 6 7 8 9 다음

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

생각하는 대로 살자.

'212.Heritrix_설정파일'에 해당되는 글 42건

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns

FetchDns

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions

Preconditions

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector

Preselector

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]CANDIDATE CHAIN-candidateProcessors

CandidateProcessors

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]costAssignmentPolicy

CostAssignmentPolicy

'212.Heritrix_설정파일 > 10. OPTIONAL BEANS' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바