
[250312] ํฌ๋กค๋ง (Web Crawling)์ด๋?

AI ๐ค/ML ๐พ
ํฌ๋กค๋ง (Web Crawling)์ด๋?1. ํฌ๋กค๋ง(Web Crawling) ์ ์ํฌ๋กค๋ง(Web Crawling)์ ์น์ฌ์ดํธ์์ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ์์งํ๋ ๊ธฐ์ ์ ์๋ฏธํฉ๋๋ค. ์ฃผ๋ก ๊ฒ์ ์์ง, ๋ฐ์ดํฐ ๋ถ์, ๊ฐ๊ฒฉ ๋น๊ต,์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ํ์ฉ๋๋ฉฐ, ์น ํ์ด์ง์ HTML ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ ์ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์ด ํฌํจ๋ฉ๋๋ค.ํฌ๋กค๋ง์ ์ํํ๋ ํ๋ก๊ทธ๋จ์ ์น ํฌ๋กค๋ฌ(Web Crawler) ๋๋ ๋ด(Bot, Spider) ๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ์ผ์ ํ ๊ท์น์ ๋ฐ๋ผ ์น์ฌ์ดํธ๋ฅผํ์ํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค.2. ํฌ๋กค๋ง์ ์ฃผ์ ๊ณผ์ ํฌ๋กค๋ง์ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค:๐น 1) URL ์์ฒญ (Request)ํฌ๋กค๋ฌ๋ `requests` ๋ฑ์ HTTP ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ํน์ ์น ํ์ด์ง์ ์ ๊ทผํฉ๋๋ค.GET ๋๋ POST ์์ฒญ์ ํต..