Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 수신자 대상 다르게
- 객체지향패러다임
- AWS
- 카카오
- 누적합
- prg 패턴
- 백준
- jwt 표준
- spring event
- 좋은 코드 나쁜 코드
- BFS
- 코드 계약
- 이분탐색
- 구현
- 레디스 동시성
- 검색어 추천
- 깊게 생각해보기
- 프로그래머스
- 완전탐색
- gRPC
- docker
- 트랜잭샨
- 알람 시스템
- piplining
- 디버깅
- 쿠키
- 셀러리
- 결제서비스
- branch 전략
- 숫자 블록
Archives
- Today
- Total
코딩관계론
중복 뉴스 제거 본문
반응형
아래는 오리엔트정공을 검색하면 왜 상승했는지를 보여주는 뉴스들이다. 다만 여기서 중요한 점은 2024-12-09일의 상승 이유는 탄핵, 이재명 관련해서 올랐던 것으로 요약될 수 있지만, 모든 뉴스를 분석해서 관련있다고 생각되는 뉴스들을 모두 화면에 보여주니깐 중복된 내용이 많아 사용자들이 피포감을 느낄 수 있다.
따라서 이러한 주식들을 필터링할 수 있는 방법이 필요하다.
## 방법들 설명
처음 생각한 방법은 아래와 같다.
뉴스 타이틀들의 편집 거리를 비교해서 비슷한 내용인지 판단할 수 있을 것이다. 하지만 얼마의 거리로 해야 같다고 할 수 있는지 알 수 없고, 내용은 같지만 제목이 완전히 달라지는 경우가 있다. 예를들면
두 번쨰 방법은
예정된 이벤트 일자가 같은 경우에는 같은 뉴스로 판단될 수 있을 것이다. 다만 이 방법의 가장 강력한 단점은 이벤트 일자가 없다면 모두 다른 뉴스로 취급되는 점이다.
따라서 가장 좋은 방법은 공통의 주제를 추출하는 방법인데 그게 테마를 뽑는 것이다
반응형
'개발 > Hot-Stock' 카테고리의 다른 글
Virtual Thread를 사용한 크롤링 성능 80% 향상 (1) | 2024.09.16 |
---|---|
메시지 발행과 데이터베이스의 트랜잭션을 어떻게 원자적으로 처리할까? (Transactional Outbox Pattern) (0) | 2024.09.10 |
결제서비스 - 결제 승인 시스템 구조와 Retry 전략[#52] (0) | 2024.09.03 |
결제서비스 - Checkout 서비스 구현 [#50] (0) | 2024.09.03 |
결제 서비스 개발기 (0) | 2024.09.02 |