복구 과정.

Heritrix를 구동 중 강제로 kill -9 명령어를 통하여 종료 시켰다. 
그 후 강제 종료 되었던 크롤링 job의 logs 폴더 아래에서 frontier.recover.gz file을 복사해서 새로 복구 시도 할 job의 폴더 아래 action 폴더에 옮겨 놓음

그후 launch 하면 action 폴더 아래에 done이라는 폴더가 자동 생성되며 복구가 끝날 시에 이 파일을 done 아래로 옮긴다. 이 파일은 각 크롤링 회차 폴더 아래 actions-done 폴더 아래로 symbolic link 가 걸린다.


Posted by Righ
,

각 페이지에서 긁을 링크 개수 제한.

Posted by Righ
,

scratchDir에 써준 경로에는 toeThread가 input,output stream을 일시적으로 기록하는 파일들이 쌓인다. 파일의 이름 형식은 tt+(toe thread의 serial num)+http.r(i/o)s 의 형태로 남는다. tt는 toe thread의 약자이고, 확장자인 r(i/o)s는 recoder_input/output_stream의 약자이다.

Posted by Righ
,

(이 설정값이 true일 때 한 해) script를 이용하여 리디렉션 했을 때는 새로운 seed로 인식하지 않고, html meta tag를 이용하여 리디렉션 했을 때는 새로운 seed로 인식하여 크롤링한다.

Posted by Righ
,

children으로 list를 가지는 태그들에 한하여 이 값 이상의 child list에서 가지는 uri는 긁히지 않음


예를 들어 

<form action="input.html" name=regform method=post>
  <table border=0 width=600 align=center>
    <tr>
      <td align=right>textBox : </td>
      <td><input type=text name=text1 size=30 maxlength=50></td>
    </tr>
    <tr>
      <td align=right>password : </td>
      <td><input type="password" name="password1" size="10" maxlength="10"></td>
    </tr>
    <tr>
      <td align=right>checkbox : </td>
      <td><input type="checkbox" name="checkbox1" value="checkbox_value" checked></td>
    </tr>
    <tr>
      <td align=right>radio : </td>
      <td>yes<input type="radio" name="radio1" value="radio_value1" checked>
         no<input type="radio" name="radio1" value="radio_value2"></td>
    </tr>
    <tr>
      <td align=right>link : </td>
      <td><a href="http://www.daum.net"/>test</td>
    </tr>
    <tr>
      <td align=right>hidden : </td>
      <td><input type="hidden" name="hidden1" value="hidden_value"></td>
    </tr>
    <tr>
      <td align=right>button : </td>
      <td><input type="button" name="button1" value="button"></td>
    </tr>
    <tr>
      <td align=right>submit : </td>
      <td><input type="submit" name="submit1" value="submit"></td>
    </tr>
    <tr>
      <td align=right>reset : </td>
      <td><input type="reset" name="reset1" value="reset"></td>
    </tr>
</table>

</form>

다음과 같은 항목에서 table의 child 중에서 이 설정 값 이후의 child가 가지고 있는 link는 긁지 않는다.

Posted by Righ
,