본문 바로가기

크롤링2

개발일지 / 크롤링차단 방지법, 유저 에이전트(User Agent) 지정 서버는 User Agent 검사 등의 방법으로 일반사용자(사람)와 봇을 구분하여 차단함 사람인 척! 해서 해결한다! 가장 쉬운 방법은 Header에 User Agent 정보를 만들어서 보내는 것! ★ 유저 에이전트? 브라우저가 웹사이트에 연결을 시작할 때 전달되는 기기 정보로 브라우저의 유형, 운영체제 등의 정보가 담겨있음 ex) Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 유저 에이전트를 담아서 get 요청보내기 - User agent 값에 어떤 문자열을 넣어야 할지 모를 때 본인 정보 확인 : http://www.useragentstring.com.. 2022. 7. 18.
개발일지 / 파이썬 웹스크래핑(크롤링) 파이썬은 직관적인 언어이고, 할 수 있는 것도 많다! ★ 파이썬 설치의 의미 파이썬 문법으로 된 것을 101010001로 변환해줄 수 있도록, 일종의 번역패키지 설치 파이썬 기초 1. 변수 & 기본연산 2. 자료형 숫자, 문자형 리스트형(Javascript 배열형과 동일) Dictionary형 (Javascript의 dictionary형과 동일) Dictionary형과 List형의 조합 3. 함수 함수의 정의 - 이름은 마음대로 정할 수 있음 함수의 응용 4. 조건문 if / else로 구성 5. 반복문 리스트와 함께 쓰임 - 모든 사람의 이름과 나이 출력 - 반복문과 조건문을 응용 - 이름을 받으면, age를 리턴해주는 함수 파이썬 패키지 Python 패키지는 모듈을 모아 놓은 단위 외부 라이브러리를 .. 2022. 7. 17.