[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml

212.Heritrix_설정파일/05. PROCESSING CHAINS 2016. 8. 1. 15:21

ExtractorHtml

HTML content-body에서 기본적으로 링크를 추출하는 processor, 정규식을 사용하여 추출한다.

기존 설정 값

 <bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">
  <!-- <property name="extractJavascript" value="true" /> -->
  <!-- <property name="extractValueAttributes" value="true" /> -->
  <!-- <property name="ignoreFormActionUrls" value="false" /> -->
  <!-- <property name="extractOnlyFormGets" value="true" /> -->
  <!-- <property name="treatFramesAsEmbedLinks" value="true" /> -->
  <!-- <property name="ignoreUnexpectedHtml" value="true" /> -->
  <!-- <property name="maxElementLength" value="1024" /> -->
  <!-- <property name="maxAttributeNameLength" value="1024" /> -->
  <!-- <property name="maxAttributeValueLength" value="16384" /> -->
 </bean>

[property에 대한 설명]

extractJavascript : 페이지 안에 삽입된 javascript 문을 문자열로 스캔하여 모든 uri를 찾아낸다. <Heritrix 고도화를 위한 테스트 이력> test no 16,17 참조
extractValueAttributes : 일반적이지 않은 곳에서 찾아진 uri와 비슷한 문자열 ( value 속성과 같은 ) 을 추출한다.
ignoreFormActionUrls : action form에 나타난 uri들을 무시한다. <Heritrix 고도화를 위한 테스트 이력> test no 18 참조
extractOnlyFormGets : get방식과 같은 action uri만 추출한다. <Heritrix 고도화를 위한 테스트 이력> test no 19 참조
treatFramesAsEmbedLinks : FRAME/IFRAME SRC-link 들을 embed 링크처럼 취급한다. (img와 같은 E hop type) false의 경우는 L 링크로 취급 <Heritrix 고도화를 위한 테스트 이력> test no 20 참조
ignoreUnexpectedHtml : .gif와 같이 html 확장자가 아닌 uri들을 html로 스캔하지 않는다.
maxElementLength : element 길이를 설정한다. <Heritrix 고도화를 위한 테스트 이력> test no 21 참조
maxAttributeNameLength : href, src와 같은 attribute name의 길이를 제한한다.
maxAttrubuteValueLength : attr의 값의 길이를 제한한다.

저작자표시 비영리 (새창열림)

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorJs (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorCss (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchHttp (0)	2016.08.01
[Heritrix/crawler-beans.cxml]FETCH CHAIN-fetchDns (0)	2016.08.01

Posted by Righ

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

생각하는 대로 살자.

[Heritrix/crawler-beans.cxml]FETCH CHAIN-extractorHtml

ExtractorHtml

'212.Heritrix_설정파일 > 05. PROCESSING CHAINS' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바