[BE] Scraping (스크래핑) & Crawling (크롤링) 개념

BE/Javascriptㅤ|ㅤTypescript

[BE] Scraping (스크래핑) & Crawling (크롤링) 개념

Bans 2022. 7. 15. 01:54

스크랩 (Scrap)

주로 신문 기사 등을 오려서 모으는 것을 '스크랩' 이라 표현하곤 했다.

사전에는 스크랩의 뜻을 아래와 같이 표현하고 있다.

이 처럼 '필요한 글' 이나 '사진' 을 오려 내는 일을 '스크랩' 이라 하며

이를 웹 페이지에서 함수(기능) 등을 이용하여 구현해 놓은 것을 (웹)스크래핑 이라고 한다.

위의 내용은 현재 접속한 나의 블로그의

메인 페이지 html 문서 header 에 들어있는 meta tag 들이다.

내 블로그 페이지 (https://bans.tistory.com) 를 복사하여

(혹은, 다른 링크를) 다른 곳 (카카오톡, 디스코드, 블로그 등등)에 링크했을 때

해당 플랫폼에 이렇게 해당 페이지의 정보가 뜨는 것을 본 적 있을 것이다.

이러한 이미지 / 간략한 설명 글은

해당 url html 문서의 header - meta tag 에서

og(open graph)정보들을 찾아와서 표현하고 있는 것이며,

이렇게 해당 페이지에서 원하는 정보들을 가져오는 것을

웹 스크래핑

이라고 한다.

크롤링 ( Crawling )

한 번의 요청으로 목표하는 데이터를 정확하게 가져오는 웹 스크래핑의 기술을 활용하여

반복적으로, 다양한 정보들을 가져오는 것,

즉, 웹 스크래핑을 여러 번 자동으로 수행하는 것을

크롤링 ( Crawling )

이라고 하며, 이를 여러 웹 사이트를 돌아다니며 주기적으로 반복하는 기능(함수, 프로그램)을

웹 크롤러 라고 한다.

https://www.lawtimes.co.kr/Legal-News/Legal-News-View?serial=98844

[판결] ‘웹사이트 무단 크롤링’ 소송… 잡코리아, 사람인에 승소

www.lawtimes.co.kr

이러한 웹 스크래핑 - 크롤링 기술은

그 대상이 어떤 정보이냐에 따라 민감한 주제를 가지고 있으며

이를 예방하기 위해

각 페이지는 /robots.txt 파일을 통해 크롤링 허용 여부를 알려주고 있다.

충분히 발달한 과학 기술은 ~~마법과 구별할 수 없다.~~

항상 조심해서 사용해야 한다!

웹 스크래핑 및 크롤링을 실제 구현하여 각 프로젝트에 적용할 때

허용되는 범위를 정확히 구별하여 사용하는 착한(?)개발자가 되자!

'BE > Javascriptㅤ|ㅤTypescript' 카테고리의 다른 글

[링크] 웹 개발 시간을 줄여주는 팁 4가지 \| 요즘IT (0)	2022.07.18
[TS] TypeScript란? - 기본개념 (0)	2022.07.15
[npm] 어? 그거 그냥 만들어지던데... [ package.json ] (0)	2022.07.14
[ES6] Template Literals - 템플릿 리터럴을 통한 깔끔한 세상 (Syntactic sugar) (0)	2022.07.08
[JS] 자바스크립트에서의 Callback (콜백함수) 이해해보기. (0)	2022.07.06

현재글[BE] Scraping (스크래핑) & Crawling (크롤링) 개념

기록을 남기는 만큼 나도 축적된다. 정말 먹어도 돼지는 되지 않을까

JavaScript, external level, mysql 사용자 암호 설정, internal level, Object Relational Mapping, 지속적인 통합, mysql 사용자 권한 부여, Cloudbuild, HTTP, Nest Framework, conceptual level, 배포 자동화, 3단계 데이터 구조, ES6, 지속적인 배포, 부하 분산, Network, typescript, 타입스크립트란, daily,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

끄적끄적_개발노트