본문 바로가기

불용어제거1

텍스트 마이닝(2) - 불용어 제거 # 6. 불용어 제거 불용어(stopwords)란, 데이터 전체에서 꽤 많이 등장하지만 실제로는 별로 중요하지 않은 단어들 ex) ~가, ~은, ~는과 같은 조사나 접사 등 해당 데이터의 특성으로 자주 등장할 수 밖에 없는 단어들 불용어는 짐작하여 한 번에 정의하는 것이 아니라, 토큰화 결과를 확인하면서 계속해서 추가 stop_words = ['기자', '제공', '무단', '배포', '무단배포', '배포금지', '이번', '위해', '라며', '금지', '뉴스', '통해', '오늘', '지난달', '지난', '대한', '경우', '관련', '뉴시스', '현재', '지난해', '때문', '지금', '또한', '만큼', '최근', '당시', '올해', '대해', '다시', '모두'] df['tokenize.. 2022. 7. 19.

이전 1 다음

티스토리툴바