본문 바로가기
Project

[Project] 산업재산권 등록일 예측 모델 개발

by boooluve2 2026. 6. 19.
반응형

1. 배경

특허, 상표, 디자인 등 산업재산권을 출원하면 심사 절차를 거쳐 등록 여부가 결정된다. 출원인 입장에서 가장 불편한 점은 등록일을 미리 가늠하기 어렵다는 것이다. 제품 출시 일정, 라이선스 협상, 특허 포트폴리오 전략을 세울 때 이 불확실성이 실질적인 걸림돌이 된다. 확보한 특허 출원 데이터를 기반으로, 권리 유형별 등록일을 예측하는 회귀 모델을 개발했다.

 

2. 데이터 확보 및 전처리

원시 데이터는 총 2,764건이었다. 결측치 제거, 날짜 오류 처리, 취하·무효 건 제외 등의 전처리를 거친 결과 유효 데이터는 250건으로 줄었다. 이 데이터 손실률(약 91%)은 이후 모델 학습의 가장 큰 제약 조건이 됐다.

 

1단계: 권리별 평균 등록 소요 기간 분석

모델 개발 전에 권리 유형별 평균 소요 기간을 먼저 계산해 도메인을 이해했다. 이 값이 베이스라인이 된다.

 

특허와 실용신안이 가장 긴 심사 기간을 가진다. 기술적 신규성과 진보성 판단이 필요한 심사 특성상 심사관 검토 시간이 길기 때문이다. 반면 디자인은 외관 심사 위주여서 상대적으로 빠르다.

 

2단계: 날짜 흐름 구조 설계

예측 구조를 잡으려면 출원부터 등록까지의 날짜 흐름을 명확히 해야 했다. 분석 결과 다음 두 가지 등치 관계를 확인했다.

  • 출원일 ≈ 심사청구일
  • 등록접수일 ≈ 등록결정일

이 구조를 기반으로 두 가지 예측 방법이 가능하다.

  • 직접 예측: 출원일을 입력으로 받아 등록일을 바로 예측
  • 단계별 예측: 출원일 → 등록접수일, 등록접수일 → 등록일을 각각 예측한 뒤 합산

3단계: 회귀 기반 예측 모델 구축

권리 유형별 심사 프로세스와 소요 기간 분포가 크게 다르기 때문에, 하나의 통합 모델이 아닌 권리 유형별 개별 회귀 모델을 구축했다.

  • 입력(X): 권리 유형, 출원일, 심사청구일 등 특성 변수
  • 예측 대상(Y): 등록일 또는 소요 일수

인과관계를 분석해 각 권리 유형이 가진 심사 패턴을 모델에 반영했다.

3. 한계와 개선 방향

전처리 후 유효 데이터가 250건에 불과해 모델 신뢰도에 명확한 한계가 있다. 추가로 확인된 개선 방향은 다음과 같다.

  • 거절이유 통지 횟수, 보정 횟수, 심사관 배정 현황 등 피처 변수 확대
  • 출원 연도별 심사 기간 변화 추세를 피처로 반영
  • 공개 특허 데이터와 결합해 학습 데이터 규모 확보
반응형