본문 바로가기
Python/파이썬 크롤링

[네이버 뉴스] 크롤링 하는 방법

by 잉나영 2024. 5. 8.
반응형

네이버 뉴스 크롤링

주제 : 벚꽃 개화

기간 : 24.03.01-24.04.30


 

 

1. 크롤링 하기 전 모듈 세팅

 

 

2. 크롬 드라이버 실행하기

빈 크롬 화면이 뜰 것이다.

 

 

3. 크롤링 검색어 기간 설정

아래 빨간색 링크는 원하는 크롤링 분야 추가

 

아래처럼 기간과 주제를 설정해줌
링크를 복사하고 코드에 붙여넣기 하기

 

 

4. 스크롤 내리기 함수 정의

 

4-1 무한일 때

함수정의

 

실행

*주의점 : 무한으로 내려가기 때문에 다 돌린 후 정지를 눌러줘야함

 

4-2 개수 제한을 걸 때

함수 정의
원하는 개수를 괄호 안에 넣어주고 실행

 

 

5. 제목과 URL 리스트 초기화

저장된 진행상황을 10의 단위로 개수를 구해줌

 

6. 크롤링 시작

아래 진행상황이 위의 크롤링한 개수와 동일해야 함

 

 

7. 데이터를 데이터 프레임으로 전환

 

8. pickle 타입으로 저장

원하는 드라이브로 파일 패스를 저장해두고 pkl타입의 이름을 설정해줌

 

9.  크롬 드라이버 종료

 

10. 저장한 pickle 타입 불러오기

아래처럼 피클 타입 내용 나옴

 

11. csv 파일로 저장하기

csv 앞 원하는 제목으로 설정가능

반응형

'Python > 파이썬 크롤링' 카테고리의 다른 글

쿠팡 리뷰 크롤링 뚫는 법  (0) 2024.06.07
쿠팡 크롤링  (0) 2024.06.04
올리브영 크롤링 하기  (1) 2024.06.02
글로우픽 크롤링  (0) 2024.05.29