[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml
212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:21ExtractorHtml
- HTML content-body에서 기본적으로 링크를 추출하는 processor, 정규식을 사용하여 추출한다.
기존 설정 값
<bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">
<!-- <property name="extractJavascript" value="true" /> -->
<!-- <property name="extractValueAttributes" value="true" /> -->
<!-- <property name="ignoreFormActionUrls" value="false" /> -->
<!-- <property name="extractOnlyFormGets" value="true" /> -->
<!-- <property name="treatFramesAsEmbedLinks" value="true" /> -->
<!-- <property name="ignoreUnexpectedHtml" value="true" /> -->
<!-- <property name="maxElementLength" value="1024" /> -->
<!-- <property name="maxAttributeNameLength" value="1024" /> -->
<!-- <property name="maxAttributeValueLength" value="16384" /> -->
</bean>
- [property에 대한 설명]
- extractJavascript : 페이지 안에 삽입된 javascript 문을 문자열로 스캔하여 모든 uri를 찾아낸다. <Heritrix 고도화를 위한 테스트 이력> test no 16,17 참조
- extractValueAttributes : 일반적이지 않은 곳에서 찾아진 uri와 비슷한 문자열 ( value 속성과 같은 ) 을 추출한다.
- ignoreFormActionUrls : action form에 나타난 uri들을 무시한다. <Heritrix 고도화를 위한 테스트 이력> test no 18 참조
- extractOnlyFormGets : get방식과 같은 action uri만 추출한다. <Heritrix 고도화를 위한 테스트 이력> test no 19 참조
- treatFramesAsEmbedLinks : FRAME/IFRAME SRC-link 들을 embed 링크처럼 취급한다. (img와 같은 E hop type) false의 경우는 L 링크로 취급 <Heritrix 고도화를 위한 테스트 이력> test no 20 참조
- ignoreUnexpectedHtml : .gif와 같이 html 확장자가 아닌 uri들을 html로 스캔하지 않는다.
- maxElementLength : element 길이를 설정한다. <Heritrix 고도화를 위한 테스트 이력> test no 21 참조
- maxAttributeNameLength : href, src와 같은 attribute name의 길이를 제한한다.
- maxAttrubuteValueLength : attr의 값의 길이를 제한한다.
'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs (0) | 2016.08.01 |
---|---|
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0) | 2016.08.01 |
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0) | 2016.08.01 |