목록Data Science/NLP (2)
내가 보려고 만든 블로그
기계번역, 언어 생성 등에 별로 관심이 있지는 않은데 감성분석 혹은 LDA 등은 알아두면 후에 쓸 일이 많이 있을 것 같아서 간단하게 자연어처리를 공부함. 그 중에서도 워낙 유명한 모델인 트랜스포머에 대해서 사내 강의로 듣게되어 공부한내용 간단하게 정리. 나중에 다시 찾아왓을때 기억날 정도로만 적어둠. torch.nn.transformer 토치에는 트랜스포머가 이미 구현이 되있음. 주의해야 할 것은 인코더와 디코더부분까지여서 마지막 부분에 선형 + softmax부분 넣어주면 된다 . self.transformer = nn.Transformer(d_model=emb_size, # 임베딩 size . nhead=nhead, # 어텐션의 헤드 수 # freeze= True 써도 됨 걍 . num_encoder..
Topic 모델링이란 어떠한 문서를 주제의 확률 분포로 표현하는 것이다. 예컨대 신문의 기사들이 경제 ,스포츠 , 연예 3가지 주제만을 가진다고 해보자. 경제 뉴스에는 당연히 경제와 관련된 단어들이 많이 분포할 것이다. 하지만 그렇다고 해서 경제에서 사용되는 단어뿐만이 아니라 스포츠 , 연예 등에서 사용하는 단어들이 존재 할 수있다. 이렇게 한 문서 안에서 단어들의 주제를 파악하고 그 단어들의 분포를 통해 한 문서를 주제의 분포로 나타낼 수 있다. LDA 를 검색하면 가장 많이 나오는 그림이 바로 위와 같은 그림일 것이다. 오른쪽 부터 , 베타는 주제 X 문서의 Dirichlet 분포를 결정하는 Hyperparameter ,피(k) 는 주제X문서의 분포이며 K는 주제들의 집합이다. 알파는 단어X 문서의 ..