company_anchor : a 태그를 찾는 변수 'company' 라는 클래스를 갖는 span 태그 중에서 a 태그를 갖는 변수가 있다면 a태그에 있는 문자를 출력한다. a 태그가 없는 span태그라면 그냥 문자열만 출력한다. ....라는 코드를 작성하니 None 없이 모두 출력이 되었음. 한줄띄어진 것은 strip() 함수를 이용하면 될듯. (1) title, company, location, job_id 는 제목, 회사명, 위치, 링크를 나타냄 (2) 전체 페이지로 다시 범위를 설정 한 후 실행해보니 모두 작동했음!
저번에 만든 코드에 requests 를 사용하니 200이 총 10개 떴다. 200은 코드가 잘 동작했다는 것이고 총 10페이지였으니까 성공했다고 할 수 있음. 이제 beautifulsoup 를 사용해서 1페이지의 구직정보 중 title만 불러와보자. 대충 보아하니... 50개가 뜬 것 같음. 성공한듯? 근데 '검사'로 html 코드를 확인해보니, h2 태그 안에 또 title이 있어서 더 간소화시켜보았음. 혹시나해서 일일이 다 세봤는데 50개였다. ㅜㅜㅜ 성공이다. 이번에는 회사명을 불러오려고 해봤다 그런데... 일단 한줄한줄 띄어서 나오는 것도 이상한데 심지어 None이 뜬다. 또 html 코드를 확인.....해봤다...ㅎ ㅏ.. 두 번째 빨간박스에서 볼 수 있다시피 태그가 붙어있는 구직정보도 있는 듯..
이전 글에서 원하는 홈페이지의 링크를 불러온 후 총 페이지 수가 몇인지 알아내고, 코드를 알아내는 함수를 만들었다. 이번에는 그 함수를 이용해서 각 페이지의 링크를 불러오는 코드를 만들 것임. 저번에 만들었던 코드를 extract_indeed_pages() 라는 함수라고 정의하고 출력을 해보니 출력값 : 10 이 값은 [2, 3, 4, 5, 6, 7, 8, 9, 10] 에서 마지막 값을 의미, 10페이지까지 있다는 것. URL 코드를 보면 1페이지는 start=0, 2페이지는 50, 3페이지는 100... 10페이지는 450으로 되어있음. 즉, 0~9의 범위가 10이라는 것이고 이것을 이용해서 페이지 하나하나를 불러올 수 있다. 이제부터는 이 코드와 requests, bs4 를 이용해서 페이지를 하나하나..
파이썬 프로그램을 사용하지 않고 Repl.it 을 이용했음! 1. 가정 나는 indeed 에서 서울지역, 파이썬과 관련된 구인구직을 하고 있고, 관련 내용을 추출할 것임. 2. 과정 (1) target 이 될 'indeed' 홈페이지를 불러온다. (2) 파이썬과 관련된 직무들이 있는 모든 페이지 수를 추출한다. (1) target 이 될 'indeed' 홈페이지를 불러온다. 이 작업을 하기 위해서는 repl.it 에서 제공하는 패키지가 필요한데 html 주소를 불러오고 text들을 긁어서 볼 수 있게 해주는 requests와 beautifulsoup4 가 필요함. 첫 번째 임무완수 (2) 파이썬과 관련된 직무들이 있는 모든 페이지 리스트를 모두 요청한다. html 코드를 이용해서 페이지수를 추출하는 코드..
