Dandy Now!
728x90
반응형
방명록
[ 언어·프레임워크/Python ]
[Python] selenium 다중 URL 크롤링 중 누락 문제
2023-12-14 10:17:02
1. selenium 다중 URL 크롤링 중 누락 문제 어떤 사이트에 100개의 항목이 있는 10개의 페이지가 있다고 생각해 보자! 각 페이지는 URL이 다르지만 구조는 같다. 따라서 하나의 크롤링 코드로 10개에 대응이 가능하다. 이 얼마나 간단한 문제인가? 그냥 반복문을 돌리면 끝이다! 하지만 실제는 그렇게 간단하지 않았다. 첫 번째 시도한 페이지에서는 100개 항목을 잘 긁어 왔다. 하지만 그다음 페이지들은 줄줄이 19개를 넘지 못했다. 2. 일부 누락 문제 webdriver를 페이지마다 열고 닫고를 반복하는 방식을 시도한 결과 마지막 페이지를 제외하고는 100개의 항목을 모두 가져왔다. 마지막 페이지의 경우 79개만 긁어오고 있었다. 해당 페이지를 좀 더 살펴보니 렌더링 할 때 서버로부터 데이터를..
NEW
prev
1
next
728x90
반응형
최신버전 안내
현재 적용된 Stroke 스킨의 버전이 최신버전이 아닙니다.
최신버전의 스킨 파일을 다운로드 받을 수 있는 페이지로 이동하시겠습니까?
(* 이 모달창은 블로그 관리자에게만 표시됩니다.)
30일 동안 열지 않음
예
티스토리툴바
Dandy Now!
구독하기