'212.Heritrix_설정파일'에 해당되는 글 42건

2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs
2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss
2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml
2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp
2016.08.01 [Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 17:33

ExtractorJs

javascript 파일로 부터 uri를 추출하는 extractor

기본 설정 값

 <bean id="extractorJs" class="org.archive.modules.extractor.ExtractorJS">
 </bean>

저작자표시 비영리

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchProcessors (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorSwf (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0)	2016.08.01

Posted by Righ

,

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 17:32

ExtractorCss

CSS type의 파일로 부터 uri를 파싱하는 extractor이다.

기존 설정 값

 <bean id="extractorCss" class="org.archive.modules.extractor.ExtractorCSS">
 </bean>

저작자표시 비영리

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorSwf (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0)	2016.08.01

Posted by Righ

,

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:21

ExtractorHtml

HTML content-body에서 기본적으로 링크를 추출하는 processor, 정규식을 사용하여 추출한다.

기존 설정 값

 <bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">
  <!-- <property name="extractJavascript" value="true" /> -->
  <!-- <property name="extractValueAttributes" value="true" /> -->
  <!-- <property name="ignoreFormActionUrls" value="false" /> -->
  <!-- <property name="extractOnlyFormGets" value="true" /> -->
  <!-- <property name="treatFramesAsEmbedLinks" value="true" /> -->
  <!-- <property name="ignoreUnexpectedHtml" value="true" /> -->
  <!-- <property name="maxElementLength" value="1024" /> -->
  <!-- <property name="maxAttributeNameLength" value="1024" /> -->
  <!-- <property name="maxAttributeValueLength" value="16384" /> -->
 </bean>

[property에 대한 설명]

extractJavascript : 페이지 안에 삽입된 javascript 문을 문자열로 스캔하여 모든 uri를 찾아낸다. <Heritrix 고도화를 위한 테스트 이력> test no 16,17 참조
extractValueAttributes : 일반적이지 않은 곳에서 찾아진 uri와 비슷한 문자열 ( value 속성과 같은 ) 을 추출한다.
ignoreFormActionUrls : action form에 나타난 uri들을 무시한다. <Heritrix 고도화를 위한 테스트 이력> test no 18 참조
extractOnlyFormGets : get방식과 같은 action uri만 추출한다. <Heritrix 고도화를 위한 테스트 이력> test no 19 참조
treatFramesAsEmbedLinks : FRAME/IFRAME SRC-link 들을 embed 링크처럼 취급한다. (img와 같은 E hop type) false의 경우는 L 링크로 취급 <Heritrix 고도화를 위한 테스트 이력> test no 20 참조
ignoreUnexpectedHtml : .gif와 같이 html 확장자가 아닌 uri들을 html로 스캔하지 않는다.
maxElementLength : element 길이를 설정한다. <Heritrix 고도화를 위한 테스트 이력> test no 21 참조
maxAttributeNameLength : href, src와 같은 attribute name의 길이를 제한한다.
maxAttrubuteValueLength : attr의 값의 길이를 제한한다.

저작자표시 비영리

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01

Posted by Righ

,

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:19

ExtractorHttp

HTTP 응답 헤더에서 URI를 추출하는 프로세서

기존 설정 값

 <bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">
 </bean>

heritrix 3.1 부터는 이 모듈에서 자동으로 /favicon.ico를 모든 HTTP URI에 대해 탐색하도록 소스에 박아놓음.

저작자표시 비영리

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions (0)	2016.08.01

Posted by Righ

,

[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:16

FetchHttp

http 통신에 관한 모든 설정을 관장하는 프로세서
Apache Jakarta Commons HttpClient 라이브러리를 사용 : http://jakarta.apache.org/commons/httpclient/

기존 설정 값

<bean id="fetchHttp" class="org.archive.modules.fetcher.FetchHTTP">
  <!-- <property name="useHTTP11" value="false" /> -->
  <!-- <property name="maxLengthBytes" value="0" /> -->
  <!-- <property name="timeoutSeconds" value="1200" /> -->
  <!-- <property name="maxFetchKBSec" value="0" /> -->
  <!-- <property name="defaultEncoding" value="ISO-8859-1" /> -->
  <!-- <property name="shouldFetchBodyRule"> 
        <bean class="org.archive.modules.deciderules.AcceptDecideRule"/>
       </property> -->
  <!-- <property name="soTimeoutMs" value="20000" /> -->
  <!-- <property name="sendIfModifiedSince" value="true" /> -->
  <!-- <property name="sendIfNoneMatch" value="true" /> -->
  <!-- <property name="sendConnectionClose" value="true" /> -->
  <!-- <property name="sendReferer" value="true" /> -->
  <!-- <property name="sendRange" value="false" /> -->
  <!-- <property name="ignoreCookies" value="false" /> -->
  <!-- <property name="sslTrustLevel" value="OPEN" /> -->
  <!-- <property name="acceptHeaders"> 
        <list>
         <value>Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8</value>
        </list>
       </property>
  -->
  <!-- <property name="httpBindAddress" value="" /> -->
  <!-- <property name="httpProxyHost" value="" /> -->
  <!-- <property name="httpProxyPort" value="0" /> -->
  <!-- <property name="httpProxyUser" value="" /> -->
  <!-- <property name="httpProxyPassword" value="" /> -->
  <!-- <property name="digestContent" value="true" /> -->
  <!-- <property name="digestAlgorithm" value="sha1" /> -->
 </bean>

[property에 대한 설명]

useHTTP11 : HTTP/1.1 request 사용 여부
maxLengthBytes : fecth할 최대 byte 수. 이 length 이후는 truncate 시킨다. 0은 제한없음을 가리킴
timeoutSeconds : fetch가 해당 시간 안에 끝나지 않으면 포기 후 다음에 다시 시도함.
maxFetchKBSec : 서버로 부터 데이터를 fetch하는 최대 속도.
defaultEncoding : http 응답 헤더에 지정되어있지 않을 경우 사용할 encoding 방식
shouldFetchBodyRule : http 응답 헤더는 받았지만 body는 다운로드 하기 전 상태에서, 이곳에서 설정된 rule에 따라 body fetch를 할것인지를 결정한다. filtering. robots.txt의 필터링과 비슷한 사전 작업.
1. AcceptDecideRule : 모두 ACCEPT 함
2. ContentTypeNotMatchesRegexDecideRule : content-type이 명시된 정규식에 매칭되는 것들을 제외하고 모두 ACCEPT/REJECT
  1. decision : ACCEPT/REJECT 여부
  2. regex : 정규식 지정
soTimeoutMs : socket timeout 값 지정. 소켓이 해당 milliseconds 만큼 반응이 없으면 포기.
sendIfModifiedSince : 'Last-Modified'정보가 fetch 되었다면 'If-Modified-Since' 헤더 값을 보낼지 말지 결정
sendIfNoneMatch : 'Etag'정보가 fetch 되었다면 'If-None-Match' 헤더 값을 보낼지 말지 결정
sendConnectionClose : 매 request 마다 'Connection: close' 헤더를 보냄
sendReferer : 매 request 마다 'Referer' 헤더를 보냄. Referer는 crawler의 location 정보와 현재 URI가 어디서 발견되어 크롤링 되고 있는지에 대한 정보를 가지고 있다. 이는 주로 원격 서버에 log로 남는다.
sendRange : 위 maxLengthBytes 값이 설정 된 경우 Range헤더에 이를 보낼지 말지 결정한다.
ignoreCookies : cookie 핸들링을 하지 않을 경우 true.
sslTrustLevel :
1. OPEN : 만료, selfsign된 것들 등을 모두 신뢰함
2. LOOSE : selfsign된 것을 포함해 모든 유효한 certificate를 신뢰함
3. NORMAL : selfsign된 것을 제회한 모든 유효 certificate를 신뢰함
4. STRICT : Cert가 유효하고 DN이 servername과 일치할 경우만 신뢰함
acceptHeaders : 각각의 request에 포함시킬 Accept Header 지정. 'Accept-'로 시작하지 않는 헤더도 지정할 수 있다.
httpBindAddress : connection시에 사용할 local IP address 혹은 hostname
httpProxyHost : proxy host ip
httpProxyPort : proxy port
httpProxyUser : proxy user
httpProxyPassword : proxy password
digestConent : 회신 받은 content-body를 곧장 해싱할 것인지의 여부
digestAlgorithm : 위 해싱할 알고리즘

저작자표시 비영리

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preconditions (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-preselector (0)	2016.08.01

Posted by Righ

,

이전 1 2 3 4 5 6 7 8 9 다음

블로그 이미지

생각하는 대로 살자. Righ

카테고리

All (87)

일상 (0)

000. 잡다한 것들 (0)

100.프로그래밍 (0)

200. 시스템 (0)

300. Deep Learning (0)

~2016 ---------------------.. (0)

000.프로그래밍 (7)

010.C# (0)

100.알고리즘 (7)

200.OpenSorceSoftware (1)

210.Heritrix (3)

211.Heritrix_테스트및실행 (16)

212.Heritrix_설정파일 (42)

220.Zabbix (11)

300.OtherSoftware (0)

400.Tools (0)

500.DataScience (0)

510.자격증 (0)

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

Total :
Today :
Yesterday :

티스토리 초대신청

티스토리툴바