개발 언어4 selenium으로 네이버 뉴스 가장 많이 본 기사 제목 크롤링하기 지난 포스트에서 selenium으로 네이버 뉴스 기사 중 언론사에서 가장 많이 본 뉴스 섹션의 기사 제목을 크롤링하는 예제 코드를 작성하였다. 파이썬을 실행해보니 코드가 오류를 반환하였고 챗gpt와 공부를 하다보니 'find_element_by_xxxx' 구문은 selenium 4에서 삭제된 것을 확인할 수 있었다.https://qaengineer.tistory.com/entry/%EC%9B%B9-%EC%82%AC%EC%9D%B4%ED%8A%B8-%ED%83%9C%EA%B7%B8-%EA%B5%AC%EC%A1%B0-selenium-google-webdriver-%EC%98%88%EC%99%B8-%EC%B2%98%EB%A6%AC 웹 사이트 태그 구조 selenium, google webdriver, 예외 처.. 2025. 6. 3. 웹 사이트 태그 구조 selenium, google webdriver, 예외 처리 웹 사이트에서 원하는 정보를 얻어 오고 웹 문서의 태그 구성을 분석한 후 웹을 조작하기 위해서 selenium 라이브러리를 사용한다. 웹 사이트는 웹 문서라고도 한다. 웹 사이트도 하나의 문서이기 때문에 웹사이트를 개발하는 개발자가 문서를 잘 작성해 놓으면 사용자가 웹 브라우저를 쉽게 해석할 수 있다. 웹 사이트는 태그라고 하는 여러 요소로 이루어져 있고 이 태그는 서로 포함 관계를 가진다. 태그로 구성되어 있는 웹 사이트, 즉 웹 문서는 HTML 코드라고 한다. html 태그에는 head, body 등 하위 태그들이 있고 이 것들의 상위 태그는 html이다. 이처럼 태그의 포함 관계를 표현하여 웹 문서가 구성되어 있고 이 태그 요소들을 활용하여 자동화를 개발하는 것이 웹 자동화이다.XML과 HTMLXM.. 2025. 6. 1. 구글 뉴스 기사 수집 엑셀 정리 - RSS 구조 feedparser 라이브러리 활용 뉴스 사이트에서 RSS를 이용하여 카테고리의 기사 내용을 읽은 후 feedparser로 기사 제목, 링크, 게시 날짜를 구분하여 엑셀 파일에 저장하는 python 코드를 작성한다. RSS란? Rich Site Summary의 약자로 콘텐츠의 표현 방식 중 하나이다. 콘텐츠를 표현하는 방식이기 때문에 뉴스 사이트나 블로그와 같이 가공된 콘텐츠를 제공하는 사이트에서 RSS 방식으로 데이터를 제공한다. RSS는 표현방식으로서 하나의 약속이기 때문에 정해진 규격이 있다.RSS의 예시 사이트 제목 사이트 주소 사이트 설명 콘텐츠 1 제목 콘텐츠 1 주소 콘텐츠 내용 전체 또는 일부 시간 콘텐츠 1 고유 ID xml을 데이터를 표현할때 값 형태로 표현을 한다. 그래서 RSS의 정형화.. 2025. 6. 1. python 파이썬 이메일 다루기 - smtp, email 라이브러리 클래스 엑셀 파일을 읽어서 수강생 목록의 상태 중 "결제 완료"인 상태의 수강생에게 결제가 완료되었다는 메일을 수강 파일을 첨부해서 메일을 보내는 예제. 이메일을 보내기 위해서 사용하는 파이썬 라이브러리 = smtplib. smtplib 라이브러리는 메일 정보를 SMPT 형태로 보내기 위한 라이브러리이고 email 라이브러리는 메일 발송을 위해 필요한 정보를 관리하기 위한 라이브러리. 메일을 보내기 위해서는 SMTP 라이브러리에서 메일을 보내는 주체의 포트와 서버를 알아야 한다. 포트 번호는 대부분 "465"이고 서버의 경우 "smtp.naver.com" 형식으로 작성한다.메일의 내용 중 파일 첨부가 있는 경우 MIMEBase를 이용하여 파일을 읽고 메일 서버에 보낼 수 있는 형식으로 변경한 후 encoder을.. 2025. 5. 18. 이전 1 다음