Learning
토픽 82 / 172·컴퓨터 비전과 NLP

개체명 인식 (NER)

개체명 인식 (NER)

텍스트에서 인명·지명·기관명·날짜 등 특정 유형의 개체를 식별하고 분류하는 자연어처리 작업

특징: 시퀀스 라벨링 기반, BIO 태깅 체계, 문맥 의존적 판별

방법

  • 규칙기반: 정규식·사전, 빠르지만 확장성 부족
  • CRF(Conditional Random Field): 확률적 시퀀스 라벨링, 문맥 고려
  • BiLSTM-CRF: 양방향 LSTM + CRF, 딥러닝 이전 SOTA
  • BERT 기반: 사전학습 언어모델 파인튜닝, 현재 SOTA

개체유형: PERSON(인명), LOCATION(지명), ORGANIZATION(기관), DATE(날짜), MONEY(금액)

적용사례: 정보추출, 질의응답, 문서분류, 지식그래프구축

비교: 규칙기반(빠름·제한적) vs CRF(통계적·문맥고려) vs BERT기반(SOTA·고비용)

연관: NLP, BERT, 시퀀스라벨링, 정보추출