스크랩 (Scrap)
주로 신문 기사 등을 오려서 모으는 것을 '스크랩' 이라 표현하곤 했다.
사전에는 스크랩의 뜻을 아래와 같이 표현하고 있다.
이 처럼 '필요한 글' 이나 '사진' 을 오려 내는 일을 '스크랩' 이라 하며
이를 웹 페이지에서 함수(기능) 등을 이용하여 구현해 놓은 것을 (웹)스크래핑 이라고 한다.
위의 내용은 현재 접속한 나의 블로그의
메인 페이지 html 문서 header 에 들어있는 meta tag 들이다.
내 블로그 페이지 (https://bans.tistory.com) 를 복사하여
(혹은, 다른 링크를) 다른 곳 (카카오톡, 디스코드, 블로그 등등)에 링크했을 때
해당 플랫폼에 이렇게 해당 페이지의 정보가 뜨는 것을 본 적 있을 것이다.
이러한 이미지 / 간략한 설명 글은
해당 url html 문서의 header - meta tag 에서
og(open graph)정보들을 찾아와서 표현하고 있는 것이며,
이렇게 해당 페이지에서 원하는 정보들을 가져오는 것을
웹 스크래핑
이라고 한다.
크롤링 ( Crawling )
한 번의 요청으로 목표하는 데이터를 정확하게 가져오는 웹 스크래핑의 기술을 활용하여
반복적으로, 다양한 정보들을 가져오는 것,
즉, 웹 스크래핑을 여러 번 자동으로 수행하는 것을
크롤링 ( Crawling )
이라고 하며, 이를 여러 웹 사이트를 돌아다니며 주기적으로 반복하는 기능(함수, 프로그램)을
웹 크롤러 라고 한다.
https://www.lawtimes.co.kr/Legal-News/Legal-News-View?serial=98844
이러한 웹 스크래핑 - 크롤링 기술은
그 대상이 어떤 정보이냐에 따라 민감한 주제를 가지고 있으며
이를 예방하기 위해
각 페이지는 /robots.txt 파일을 통해 크롤링 허용 여부를 알려주고 있다.
허용되는 범위를 정확히 구별하여 사용하는 착한(?)개발자가 되자!
'BE > Javascriptㅤ|ㅤTypescript' 카테고리의 다른 글
[링크] 웹 개발 시간을 줄여주는 팁 4가지 | 요즘IT (0) | 2022.07.18 |
---|---|
[TS] TypeScript란? - 기본개념 (0) | 2022.07.15 |
[npm] 어? 그거 그냥 만들어지던데... [ package.json ] (0) | 2022.07.14 |
[ES6] Template Literals - 템플릿 리터럴을 통한 깔끔한 세상 (Syntactic sugar) (0) | 2022.07.08 |
[JS] 자바스크립트에서의 Callback (콜백함수) 이해해보기. (0) | 2022.07.06 |