토픽 82 / 172·컴퓨터 비전과 NLP
개체명 인식 (NER)
개체명 인식 (NER)
텍스트에서 인명·지명·기관명·날짜 등 특정 유형의 개체를 식별하고 분류하는 자연어처리 작업
특징: 시퀀스 라벨링 기반, BIO 태깅 체계, 문맥 의존적 판별
방법
- •규칙기반: 정규식·사전, 빠르지만 확장성 부족
- •CRF(Conditional Random Field): 확률적 시퀀스 라벨링, 문맥 고려
- •BiLSTM-CRF: 양방향 LSTM + CRF, 딥러닝 이전 SOTA
- •BERT 기반: 사전학습 언어모델 파인튜닝, 현재 SOTA
개체유형: PERSON(인명), LOCATION(지명), ORGANIZATION(기관), DATE(날짜), MONEY(금액)
적용사례: 정보추출, 질의응답, 문서분류, 지식그래프구축
비교: 규칙기반(빠름·제한적) vs CRF(통계적·문맥고려) vs BERT기반(SOTA·고비용)
연관: NLP, BERT, 시퀀스라벨링, 정보추출