Abstract
- 자연어 처리 모델을 이용한 청구항 작성 방법 및 시스템
- 청구항 작성 및 구체화 방법은 총 4단계를 포함
- 제1 단계는 청구항 생성 단계로서 자연어 생성 모델을 이용하여 발명의 시드 아이디어로 부터 청구항 형태의 결과물을 생성하는 단계
- 제2 단계는 청구항 구체화 단계로서 제1 단계를 통해 생성된 청구항 형태의 결과물을 자연어 생성 모델을 이용하여 다수의 방향으로 발전된 청구항들을 생성하는 단계
- 제3 단계는 청구항 군집화 단계로서 제2 단계를 통해 발전된 구체화 내용을 자연어 이해 모델을 이용하여 추적 및 시각화하는 단계
- 제4 단계는 청구항 구체화 심화 단계로서 제 3단계를 통해 파악한 청구항 구체화 내용에 관한 정보를 이용하여 청구항들을 더욱 구체화시키고, 특정한 방향으로 청구항들이 구체화되도록 유도하는 단계
- 발전 방향
- 진보성 지표에 대한 분석 필요
- Outlier 들을 추적하여 해당 Outlier 최소화 할 방법 찾아야함
- 특허 청구항 작성 분야에서의 Prompt Engineering 연구 필요
사례 연구
- NLG 를 이용한 청구항 생성
- 2013년 미국 특허 555,890 건을 학습한 NLG(GPT-2) 로 청구항 생성 함
- 각 청구항 단위를 Span 단위로 분설하여 태깅
- 학습데이터 기반으로 Fine-tuning 진행 → 지속적으로 loss 감소
- input text 가 간단할수록 성능이 더 높았음
- NLU 이용한 청구항의 특허 분류
- PatentBert 제안
- 특허 분류 코드를 타겟데이터로 하여 Bert 를 fine-tuning 진행
- 기존 CNN 혹은 워드 임베딩 기반 특허 분류 코드 예측 모델보다 F1 스코어가 높게 나옴
- 단순 청구항 만으로도 Precision 높게 나옴
- PatentSBERTa
- Augmentes SBERT 활용한 청구항 관련 Data 증강 하여 Fine-tuning
- Cosine Similarity 기준으로 유사한 특허 선정 하여 그룹화
- 높은 확률의 Class 분류 결과
설계 및 구현
-
특허 청구항 작성 방법
- 독립 청구항 → 종속 청구항 형태의 청구항 구조
- 시드 아이디어에 대한 독립 청구항 작성
- Ideation 을 통한 시드아이디어 발전 및 청구항 구체화
- 1단계
- GPT-3 활용하여 시드 아이디어를 설명하는 텍스트를 프롬프트로 입력
- 청구항 형태의 결과물 생성 (독립항)
- 2단계 (구체화)
- 1단계에서 생성된 청구항을 프롬프트로 입력
- 구체화된 청구항을 결과물로 생성 (종속항)
- 3단계 (그룹핑)
- 각 그룹의 특징을 분석하여 2단계에서 생성된 청구항들의 구체화된 특징 분석
-
기법
- Completion
- 사람에 의한 Manual 보다 자동화된 파이프라인 구축에 초점
- Insertion
- Prefix 와 Suffix 사이의 문맥상 이어지는 구성요소들을 GPT-3 가 추가 → 구체화된 청구항 출력
- 발명의 목적이나 효과를 사용자가 직접 입력하여, 해당 목적/효과를 달성하기 위한 구성 요소를 포함할 가능성 증가
- Fine-Tuning
- 최근 청구항은 넓은 권리 범위를 심사 받기 위해 필수적인 구성요소만 최소화 하여 포함
- 이후 청구항의 진보성 강조를 위해 새로운 구성요소들을 추가하여 보정
- Prompt 가 출원시 청구항 일 때, Target 은 등록시 청구항이 되도록 Fine-tuning 가능
- Clustering
- 2단계에서 생성되는 청구항들이 대량이므로 하나씩 분석하기 어려움 (시간, 비용)
- Clustering 모델을 통해 그룹화 하여 대략적인 경향성 확인
- 청구항들의 주요 Feature 를 중심으로 군집