머신러닝 2

토픽 모델링

'파이썬 라이브러리를 활용한 머신러닝' 책으로 공부한 내용을 바탕으로 작성한 글입니다. 토픽 모델링이란? 문서를 하나 또는 그 이상의 토픽으로 할당하는 작업인 비지도 학습 예) 정치,스포츠, 금융 등의 토픽으로 묶을 수 있는 뉴스 데이터 학습된 각 성분은 하나의 토픽에 해당하고, 문서를 표현한 성분의 계수는 문서가 어떤 토픽에 얼마만큼 연관되어 있는지를 말해준다. 잠재 디리클레 할당 LDA(Latent Dirichlet Allocation) 레이블이 없거나, 큰 규모의 텍스트 말뭉치를 해석하는데 좋은 방법이다. random_state 매개변수를 바꾸면 결과가 많이 달라진다. LDA 모델은 함께 자주 나타나는 단어와 그룹(토픽)을 찾는 것이다. 영화 리뷰 데이터셋에 LDA 적용해보기 텍스트 문서에 대한 비..

텍스트 데이터 다루기

'파이썬 라이브러리를 활용한 머신러닝' 책으로 공부한 내용을 바탕으로 작성한 글입니다. 문자열 데이터의 종류 범주형 데이터 고정된 목록으로 구성된다. 예) 드롭다운 메뉴의 “빨강”, “녹색”, “파랑”, “노랑” 중 하나를 선택하는 경우 범주에 의미를 연결시킬 수 있는 임의의 문자열 입력 받은 문자를 일정한 범주 안에 포함시킨다. 예) 텍스트 필드에서 쥐색, 회색 등의 답을 입력 받고 이를 ‘여러가지 색’ 범주에 할당한다. 구조화된 문자열 데이터 입력한 값들이 일정한 구조를 가진다. 텍스트 데이터 자유로운 절과 문장으로 구성되어 있다. 데이터셋 - 말뭉치 데이터 포인트 - 문서 영화 리뷰 감성 분석하기 이 데이터셋은 리뷰 텍스트와 '양성' 혹은 '음성'을 나타내는 레이블을 포함한다. IMDb 웹사이트에는..