Llama 파인튜닝 의료기기 등급 분류 실험

A class project fine-tuning Llama for medical device risk classification

한 학기 수업 프로젝트로 FDA 의료기기 문서를 수집해 instruction 데이터셋을 만들고, Llama 계열 모델을 파인튜닝해 위해도 등급 분류를 실험했다.

배경

2023년 디지털헬스케어 프로젝트 수업에서 FDA 의료기기의 위해도 등급을 문서 내용으로 분류하는 모델을 주제로 정했다. Llama가 처음 공개된 무렵이었고, RAG가 일반적인 방법으로 자리 잡기 전이었다.

Llama와 Alpaca 계열 모델을 검토하고 oobabooga 기반 환경을 구성했다. FDA 의료기기 허가 문서에서 본문과 등급 정보를 수집해 instruction 형식의 데이터셋으로 정리했다.

클라우드 GPU 서버에서 학습을 실행하고, 결과를 확인할 수 있는 간단한 UI와 수업 발표 자료를 만들었다. 한국어 자료가 많지 않아 공식 저장소, GitHub 이슈와 Reddit의 시행착오를 참고했다.

학기 말 발표 시점의 분류 정확도는 약 70%였다. 수업 프로젝트는 발표로 마무리했고, 이후 추가 학습이나 제품화는 진행하지 않았다.

의료기기 등급을 신뢰성 있게 판정하는 수준은 아니었다. 데이터 구성과 평가 방법도 한 학기 프로젝트 범위였으며, instruction fine-tuning만으로 정확한 분류 성능을 확보하기 어렵다는 점을 확인한 실험에 가깝다.