BE/Javascriptㅤ|ㅤTypescript

[BE] Scraping (스크래핑) & Crawling (크롤링) 개념

Bans 2022. 7. 15. 01:54

킹스맨 영화 속, 벽에 스크랩되어있는 신문 표지들

스크랩 (Scrap)

주로 신문 기사 등을 오려서 모으는 것을 '스크랩' 이라 표현하곤 했다.

사전에는 스크랩의 뜻을 아래와 같이 표현하고 있다.

 

이 처럼 '필요한 글' 이나 '사진' 을 오려 내는 일을 '스크랩' 이라 하며

이를 웹 페이지에서 함수(기능) 등을 이용하여 구현해 놓은 것을 (웹)스크래핑 이라고 한다.

 

 


 

내 블로그의 OpenGraph 정보들

위의 내용은 현재 접속한 나의 블로그의

메인 페이지 html 문서 header 에 들어있는 meta tag 들이다.

 

내 블로그 페이지 (https://bans.tistory.com) 를 복사하여

(혹은, 다른 링크를) 다른 곳 (카카오톡, 디스코드, 블로그 등등)에 링크했을 때

해당 플랫폼에 이렇게 해당 페이지의 정보가 뜨는 것을 본 적 있을 것이다.

 

카카오톡에 페이지를 공유하면 이미지와 간략한 소개글이 나온다

이러한 이미지 / 간략한 설명 글은

해당 url html 문서의 header - meta tag 에서

og(open graph)정보들을 찾아와서 표현하고 있는 것이며,

 

이렇게 해당 페이지에서 원하는 정보들을 가져오는 것을

웹 스크래핑

이라고 한다.

 


크롤링 ( Crawling )

 

한 번의 요청으로 목표하는 데이터를 정확하게 가져오는 웹 스크래핑의 기술을 활용하여

반복적으로, 다양한 정보들을 가져오는 것,

 

즉, 웹 스크래핑을 여러 번 자동으로 수행하는 것

크롤링 ( Crawling )

이라고 하며, 이를 여러 웹 사이트를 돌아다니며 주기적으로 반복하는 기능(함수, 프로그램)을

웹 크롤러 라고 한다.

 

 

https://www.lawtimes.co.kr/Legal-News/Legal-News-View?serial=98844 

 

[판결] ‘웹사이트 무단 크롤링’ 소송… 잡코리아, 사람인에 승소

구인·구직 등 채용정보시장의 큰 손인 '잡코리아'와 '사람인'이 채용정보 무단복제를 둘러싸고 벌인 법정 싸움에서 잡코리아가 1심에서 승리를 거뒀다. 법원은 사람인이 경쟁사인 잡코리아가

www.lawtimes.co.kr

 

이러한 웹 스크래핑 - 크롤링 기술은

그 대상이 어떤 정보이냐에 따라 민감한 주제를 가지고 있으며

이를 예방하기 위해

각 페이지는 /robots.txt 파일을 통해 크롤링 허용 여부를 알려주고 있다.

 

 

충분히 발달한 과학 기술은 마법과 구별할 수 없다.
항상 조심해서 사용해야 한다!
 
웹 스크래핑 및 크롤링을 실제 구현하여 각 프로젝트에 적용할 때

허용되는 범위를 정확히 구별하여 사용하는 착한(?)개발자가 되자!