프로젝트

· 프로젝트
HTML 파싱 이전에 URL로 요청을 보내고 HTML까지 저장하는 데까지 마무리하고 다음은 저장한 HTML에서 특정 태그를 파싱하여 가져오는 것을 진행했다. 그과정에서 자바에서 제공해주는 joup라는 html parser를 활용하여 글자를 추출해오는데 여기서 가장 큰 걸림돌은 어떻게 해야 글내용만 추출해올 수 있을까? 였다. 모든 글이 각자 다른 플랫폼을 활용하고 있었고 각기 다른 컨텐츠 영역을 가지고 있었기 때문에 셀렉터나 아이디를 활용하여 글영역만 가져오기 쉽지 않았다. 전처리를 하기위한 선택지 플랫폼마다 글영역의 아이디를 저장하고 등록된 플랫폼만 글을 파싱하여 전처리한다. 데이터 품질을 신경쓰지 않고 모든 내용들을 파싱한다. 게시글에 자주 사용되는 태그를을 중심으로 파싱하여 전처리 한다. 머신러닝을..
ri5
'프로젝트' 카테고리의 글 목록