crwlr이라는 이름의 Linux 앱으로, 최신 릴리스는 v3.5.5sourcecode.tar.gz 형식으로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
OnWorks로 crwlr이라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.
스크린 샷
Ad
크롤러
기술
이 라이브러리는 일종의 프레임워크와 함께, 바로 사용 가능한 여러 단계들을 제공하며, 이를 기반으로 자신만의 크롤러와 스크래퍼를 구축할 수 있습니다. 라이브러리를 살펴보기 전에 크롤링과 스크래핑이라는 용어에 대해 알아보겠습니다. 대부분의 실제 사용 사례에서 이 두 가지는 서로 밀접하게 연관되어 있기 때문에, 이 라이브러리는 두 가지를 모두 지원하고 결합합니다. (웹) 크롤러는 문서를 (다운로드)하고, 그 안의 링크를 따라가서 로드하는 프로그램입니다. 크롤러는 찾은 모든 링크를 로드할 수도 있고 (robots.txt 파일에 따라 로드가 허용됨), 그 후 전체 인터넷 링크를 로드할 수도 있습니다 (시작 URL에 막다른 길이 없는 경우). 또는 특정 기준(동일한 도메인/호스트, URL 경로가 "/foo"로 시작하는 경우 등)에 맞는 링크만 로드하거나 특정 깊이까지만 로드하도록 제한할 수도 있습니다. 깊이가 3이면 3단계 깊이를 의미합니다. 크롤러에 제공된 초기 URL에서 발견된 링크는 레벨 1이며, 나머지는 이와 같습니다.
기능
- 크롤러 예의(robots.txt 존중, 속도 제한 등)
- HTML 문서에서 절대 링크 가져오기
- robots.txt에서 사이트맵을 가져오고 해당 사이트맵에서 모든 URL을 가져옵니다.
- 웹사이트의 모든 페이지를 크롤링(로드)합니다
- 모든 HTTP 메서드(GET, POST,...)를 사용하고 헤더나 본문을 전송합니다.
- 페이지가 매겨진 목록 페이지를 반복합니다.
프로그래밍 언어
PHP
카테고리
이 애플리케이션은 https://sourceforge.net/projects/crwlr.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있습니다.