ExtractorSwf

  • swf 파일로 부터 uri를 추출하는 extractor

기본 설정 값

 <bean id="extractorSwf" class="org.archive.modules.extractor.ExtractorSWF">
 </bean> 


Posted by Righ
,

ExtractorJs

  • javascript 파일로 부터 uri를 추출하는 extractor

기본 설정 값

 <bean id="extractorJs" class="org.archive.modules.extractor.ExtractorJS">
 </bean> 


Posted by Righ
,

ExtractorCss

  • CSS type의 파일로 부터 uri를 파싱하는 extractor이다.

기존 설정 값

 <bean id="extractorCss" class="org.archive.modules.extractor.ExtractorCSS">
 </bean> 


Posted by Righ
,

ExtractorHtml

  • HTML content-body에서 기본적으로 링크를 추출하는 processor, 정규식을 사용하여 추출한다.

기존 설정 값

 <bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">
  <!-- <property name="extractJavascript" value="true" /> -->
  <!-- <property name="extractValueAttributes" value="true" /> -->
  <!-- <property name="ignoreFormActionUrls" value="false" /> -->
  <!-- <property name="extractOnlyFormGets" value="true" /> -->
  <!-- <property name="treatFramesAsEmbedLinks" value="true" /> -->
  <!-- <property name="ignoreUnexpectedHtml" value="true" /> -->
  <!-- <property name="maxElementLength" value="1024" /> -->
  <!-- <property name="maxAttributeNameLength" value="1024" /> -->
  <!-- <property name="maxAttributeValueLength" value="16384" /> -->
 </bean>
  • [property에 대한 설명]
    1. extractJavascript : 페이지 안에 삽입된 javascript 문을 문자열로 스캔하여 모든 uri를 찾아낸다. <Heritrix 고도화를 위한 테스트 이력> test no 16,17 참조
    2. extractValueAttributes : 일반적이지 않은 곳에서 찾아진 uri와 비슷한 문자열 ( value 속성과 같은 ) 을 추출한다.
    3. ignoreFormActionUrls : action form에 나타난 uri들을 무시한다. <Heritrix 고도화를 위한 테스트 이력> test no 18 참조
    4. extractOnlyFormGets : get방식과 같은 action uri만 추출한다. <Heritrix 고도화를 위한 테스트 이력> test no 19 참조
    5. treatFramesAsEmbedLinks : FRAME/IFRAME SRC-link 들을 embed 링크처럼 취급한다. (img와 같은 E hop type) false의 경우는 L 링크로 취급 <Heritrix 고도화를 위한 테스트 이력> test no 20 참조
    6. ignoreUnexpectedHtml : .gif와 같이 html 확장자가 아닌 uri들을 html로 스캔하지 않는다.
    7. maxElementLength : element 길이를 설정한다. <Heritrix 고도화를 위한 테스트 이력> test no 21 참조
    8. maxAttributeNameLength : href, src와 같은 attribute name의 길이를 제한한다.
    9. maxAttrubuteValueLength : attr의 값의 길이를 제한한다.


Posted by Righ
,

ExtractorHttp

  • HTTP 응답 헤더에서 URI를 추출하는 프로세서

기존 설정 값

 <bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">
 </bean>
  • heritrix 3.1 부터는 이 모듈에서 자동으로 /favicon.ico를 모든 HTTP URI에 대해 탐색하도록 소스에 박아놓음.


Posted by Righ
,