tl;dr too long didn’t read
요약의 종류
1. 추출 요약
2. 생성 요약
- 사람이 요약하는 행위와 유사
* 논문 및 코드 참고 : paperswithcode – model
데이터셋 정보
huggingface – data
AI Hub – 한국어 데이터
. 문서요약 텍스트 – 추출, 생성요약 모두 가능
. 한국어 대화 요약 – 메신저 데이터 기반 요약
. 논문자료 요약 – 논문과 논문을 3~4문장으로 요약
. 도서자료
. 요약문 및 레포트 생성
. 방송콘텐츠 요약 데이터셋
유명한 데이터셋
- CNN / Daily Mail
- XSum – 2010-2017 BBC 뉴스기사 기반
- Multi-News – Multi Document 데이터 기반
- Wikihow – 좀더 생활적인 내용으로 구성
- Reddit TIFU – 레딧 내용과 그 요약에 대한 데이터
- ScisummNet – 논문과 논문 인용된 내용을 기반
- EmailSum
유명한 모델 (SOTA)
. BART – facebook에서 개발,
.PEGASUS – Pretrained 모델을 그냥 써도 성능이 좋음, 약간의 데이터로 SOTA 달성
Point Generator – seq2seq RNN 기반
추출형 모델
. Text Rank – 유사도 측정, 문장을 벡터로 만들고 벡터간 유사도 측정, 고전적 방식
. SummaRuNNer – RNN 기반으로 문장 인코딩
BERT 기반 텍스트 요약
. BERTSum – BERT 기반 구성