네이버 뉴스 자동 저장 프로그램

<핵마피아 꼼짝마!> 프로젝트에 사용하려고 네이버 뉴스 검색 결과를 엑셀 문서로 저장해 주는 프로그램을 만들었습니다.

<핵마피아 꼼짝마!> 프로젝트는 부산에너지정의행동에서 기획하고 아름다운재단에서 자금을 지원받은 사업입니다.
사업 기간은 2021년 4월에서 11월까지로 7개월간 진행되었습니다.
프로젝트의 목표는 보수언론에서 생산하는 탈핵에 관한 왜곡된 정보를 바로잡고, 탈핵 진영의 적극적인 언론 활동을 통해 편향된 정보의 균형을 맞추는 것입니다.
저는 이 프로젝트에서 언론 모니터단으로 활동했습니다.
모니터단은 핵발전과 탈핵에 관한 언론 보도에서 가짜뉴스를 가려내는 것이 주요 임무입니다.

언론 보도 모니터링의 범위는 ‘네이버 뉴스’에서 검색어 5개(원전, 원자력, 탈원전, 방사능, 사용후핵연료) 중 1개라도 포함된 기사로 한정했습니다.
모니터링 보고서는 매일 작성되어야 했고 가짜뉴스뿐 아니라 검색된 모든 기사를 문서로 남겨야 했습니다.
매일 기사 300~700건을 문서로 정리하는 일은 아주 귀찮은 일임이 분명했습니다.

네이버 뉴스 웹사이트에서 기사의 기본 정보(언론사명, 제목, 원문 웹주소)를 복사하고 엑셀에 붙여넣는 일이 귀찮은 이유는 단순 반복 작업이기 때문입니다.
어떤 작업이 단순하다면 자동화가 쉽고 자동화되면 귀찮은 반복 작업을 안 해도 됩니다.
7개월간 매일 해야 할 일은 수월하게 하려고 매일 기사를 엑셀 문서로 정리해 주는 프로그램을 만들었습니다.

█ 엑셀 문서 설명

▌기사 목록

아래 그림은 네이버 뉴스 검색 결과와 엑셀 문서를 비교한 것입니다.
네이버 뉴스는 검색 결과를 한 페이지게 10개씩 보여줍니다.
첫 페이지의 기사 10건과 엑셀 문서 1~10번이 일치함을 확인할 수 있습니다.

네이버 뉴스 검색 결과와 엑셀 문서 비교

다음 그림은 네이버 뉴스 검색 결과 마지막 페이지입니다.
검색 결과는 총 19페이지이고 마지막 페이지에 표시된 기사는 7건으로 전체 187건입니다.
엑셀 문서 2행에 표시된 “기사 건수 : 187”과 일치합니다.

총 기사 건수 비교

위 그림의 엑셀 문서에서 3행을 보시면 “검색어별 기사 건수”도 확인할 수 있습니다.
각 기사 제목의 오른쪽 열에는 기사의 내용에 포함된 검색어를 보여줍니다.

검색어별 기사 건수와 기사에 포함된 검색어

▌제목의 단어 분석

아래 그림은 제목에 ‘지진’이 들어간 기사 목록입니다.
187건 중에서 35건이 지진 관련 기사입니다.

‘지진’ 관련 기사 목록

이런 기사들은 내용이 완전 같거나 유사합니다.
제목에 중요한 단어가 들어간 기사를 한 대 모아서 보면 모든 기사의 내용을 읽지 않고 몇 개만 추려 읽어도 됩니다.

모든 기사의 제목에 포함된 같은 단어의 수를 알 수 있으면 유사한 기사를 모아볼 수 있습니다.
모든 기사의 제목을 분석해 많이 사용된 단어를 알려주는 기능도 프로그램에 추가했습니다.

아래 그림은 기사 제목의 단어를 분석해 가장 많이 사용된 것부터 정렬한 표입니다.
단어 분석 결과표는 엑셀의 두 번째 시트에 저장됩니다.

제목의 단어 분석 결과표

█ 엑셀 문서 공유

네이버 뉴스 검색 결과가 저장된 엑셀 문서는 프로젝트 참가자 모두와 공유되어야 했습니다.
뒤에 자세히 설명하겠지만, 이 프로그램은 [개인 온라인 저장소 만들기]에서 사용한 라즈베리 파이에서 작동합니다.
라즈베리 파이에 저장된 엑셀 파일을 구글 드라이브 공유 폴더에 올려서 다른 분들도 볼 수 있도록 자동 업로드 기능도 만들었습니다.

아래 그림은 프로그램 작동을 종료한 2021년 12월 28일까지 자동으로 구글 드라이브에 올라간 엑셀 파일 목록입니다.
‘2021년12월’ 폴더는 제가 만든 것으로 자동으로 폴더를 생성하는 기능은 만들지 않았습니다.

구글 드라이브의 엑셀 파일 목록

█ 프로그램 작동 자동화

하루치 기사를 한번에 수집하려면 자정이 지난 시간에 전날 기사를 검색해야 합니다.
그래서 네이버 뉴스 자동 저장 프로그램을 현제 시간을 확인하여 전날 기사를 검색하도록 만들었습니다.
전날 기사를 한꺼번에 저장하는 이 프로그램은 같은 날에 여러 번 작동해도 똑같은 기사만을 수집하므로 하루에 단 한 번만 작동하면 됩니다.
전날 기사를 한꺼번에 수집하기 가장 좋은 시간은 자정이 조금 넘은 시간입니다.
매일 자정쯤에 사람이 직접 프로그램을 작동하는 건 매우 성가신 일입니다.

제에겐 상시 켜져 있는 [개인 온라인 저장소 만들기]의 라즈베리 파이가 있습니다.
그 기기에 네이버 뉴스 자동 저장 프로그램을 정해진 시간에 매일 작동하도록 만들었습니다.
운영체제(Linux)의 작업 예약 스케줄러(Cron)에 매일 00:05에 프로그램이 작동하도록 설정하여 자동으로 기사를 수집하고 구글 드라이브에 올리도록 만들었습니다.

라즈베리 파이 – 개인 온라인 저장소

댓글

이 블로그의 인기 게시물

PC용 열기 배출기 만들기

키보드 키캡 만들기

3.5파이 3극 좌우변환 젠더 만들기

빔프로젝터 렌즈 덮개 원격 제어기

실외에 연등선 설치하기

헤드폰을 헤드셋으로 개조하기 2탄

개인 온라인 저장소 만들기

헤드폰을 헤드셋으로 개조하기 1탄

두 가지 뚜껑 만들기

누전차단기 멀티탭 만들기