일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 몽고 인덱스
- 아키텍쳐 개선
- 누적합
- 트랜잭샨
- gRPC
- 깊게 생각해보기
- 완전탐색
- BFS
- AWS
- 레디스 동시성
- 셀러리
- 디버깅
- 카카오
- 프로그래머스
- 검색어 추천
- 객체지향패러다임
- 결제서비스
- docker
- spring event
- 추천 검색 기능
- 구현
- 백준
- 이분탐색
- piplining
- 쿠키
- jwt 표준
- JPA
- ipo 매매자동화
- next-stock
- 크롤링
- Today
- Total
목록크롤링 (2)
코딩관계론

1. 문제 정의처음 뉴스 데이터를 크롤링할 때, 하나의 고정된 IP로 다수의 요청을 보냈더니 IP 제한에 걸려 원하는 데이터를 안정적으로 수집하지 못하는 상황에 직면했습니다. 이를 해결하기 위해 처음에는 두 가지 방법을 시도했습니다.2. 시도된 해결 방법2.1 프록시 서버 사용시도 배경: 크롤링 트래픽을 분산하기 위해 프록시 서버 IP를 활용하려 했습니다.문제점:비용 부담: 신뢰할 만한 프록시 IP 제공 서비스는 가격이 비쌌습니다.신뢰성 문제: 불안정한 프록시로 인해 데이터 수집의 안정성이 낮아졌습니다.2.2 네이버 API 활용장점: 네이버에서 제공하는 공식 API를 사용하면 안정적으로 데이터를 수집할 수 있었습니다.단점:날짜 제한: 특정 날짜 이후의 뉴스 데이터는 제공되지 않아 완전한 데이터 수집이 불..

소개이번 글에서는 네이버 주식 테마와 관련된 정보를 크롤링하는 작업에서 발생한 초기 작업 시간이 1분 30초로 길었던 문제를 개선하여 30초로 단축하는 방법에 대해 소개하겠습니다. 맨 처음에 문제라고 생각했던 부분은 request 부분이었습니다. requsts가 느려 뒤에 있는 작업도 느려진다고 생각해 time 함수를 통해서 검증을 시도했습니다.문제 검증 처음에는 request의 속도가 느려 뒷 작업이 밀리는 것으로 인지하고 있었습니다. 따라서 time 함수를 이용해 어떤 부분이 실제로 느려지는 확인이 필요해졌고, 아래 코드와 같이 time함수를 사용해 느려지는 부분을 체크했습니다. now = time.time() page_source = self.web.get_page("https://finance.n..