본문 바로가기

✨ python/크롤링(Crawling)4

파이썬(python) - 웹크롤링, Selenium Selenium 라이브러리를 활용한 클릭, 키 입력 이벤트 다음 싸이트에 Selenium을 이용해서 로그인을 진행 https://hashcode.co.kr QnA | 프로그래머스 커뮤니티 프로그래머스 QnA는 프로그래밍 문제해결을 위한 QnA서비스입니다. 프로그래밍과 관련해서 개발자들끼리 궁금한건 물어보고 아는건 함께 나눠요. C, Java, Python, Ruby등의 코드를 웹에서 직접 실행 qna.programmers.co.kr 1. 크롬을 실행시켜주는 chromeDriver 설치 이렇게 다운로드 받아준뒤 해당 프로젝트 파일에 압축 푼 폴더를 넣어준다. 이후, pip install selenium 을 설치해준다. 2. 필요한 라이브러리 추가. from selenium import webdriver 으.. 2023. 5. 15.
파이썬(python) - 네이버 뉴스 제목 가져오기 (크롤링) https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105 IT/과학 : 네이버 뉴스 모바일, 인터넷, SNS, 통신 등 IT/과학 분야 뉴스 제공 news.naver.com 나는 이 네이버 뉴스에서 헤드라인 뉴스를 가지고 오려고 한다. F12를 눌러 태그가 어디에 싸여져 있는지 알아봤는데, a태그의 sh_text_headline 에 쌓여져 있는걸 확인할 수 있다. a태그만 조회해봤는데, 양이 엄청났다. a태그의 텍스트만 조회했는데도 여전히 많다. 이렇게 a에 포함된 클래스를 함께 주기 위해서는 class_ 를 사용할 수 있다. HTML 삽입 미리보기할 수 없는 소스 위에서부터 천천히 살펴보자. 1. 헤드라인 뉴스와 나머지 뉴스를 모두 포함한 Di.. 2023. 5. 12.
파이썬(python) - 크롤링(Crawling) 또는 스크래핑(Scraping) - 2 http://books.toscrape.com/catalogue/category/books/travel_2/index.html Travel | Books to Scrape - Sandbox £56.88 In stock books.toscrape.com 해당 페이지의 책 제목들을 들고와보자. a태그 위의 h3태그로 감싸져있는 것을 볼 수 있다. HTML 삽입 미리보기할 수 없는 소스 이러면 끝난다.. find_all 을하면 List의 형태로 태그들을 가지고 와준다. 따라서 이렇게 for 문에서 반복시켜주면서 한줄 한줄 데이터를 뽑을 수 있다. 2023. 5. 11.
파이썬(python) - 크롤링(Crawling) 또는 스크래핑(Scraping) 먼저, 파이썬에서 크롤링을 처음한다면, pip install bs4 를 통해 설치를 해줘야한다. https://www.pythonscraping.com/pages/warandpeace.html 2023. 5. 11.