지난 1월 6일, FDA가 제약·바이오 제품의 안전성과 효과성, 품질의 규제 결정을 지원하기 위해 인공지능을 사용하는 것에 대해 권고 사항을 담은 초안 지침을 발표했습니다.
제약·바이오 제품 개발을 위한 AI 활용에 대한 첫 번째 지침입니다.
FDA는 인공지능 활용에 적절한 보호 장치가 마련된다면 임상 연구를 발전시키고 질병 치료를 개선할 수 있는 의료 제품 개발을 가속화할 혁신적 잠재력을 가지고 있다며, 제품 개발 방식을 지원하기 위한 지침을 발표했다고 밝혔습니다.
인공지능은 제품의 안전성, 효과성, 품질 및 관련 데이터 생성과 정보 제공에 활용되어왔으며, 지난 2016년부터는 AI를 활용한 제품 개발과 규제 제출 건수가 기하급수적으로 증가해왔습니다.
AI는 환자 결과 예측, 질병 진행 예측 요인에 대한 해석을 돕고, 대규모 데이터 처리 및 분석에 큰 도움을 주었으나, 문제는 인공지능 모델의 신뢰성을 보장해야한다는 것이었습니다.
신뢰성 보장을 위해서는 입력 값의 변화 및 변경에 민감한 AI 모델의 민감성을 고려하여, 모델 성능 지표를 지속적으로 모니터링해야 합니다.
해당 지침은 FDA 직원들이 제약·바이오 제품 신청서를 검토해온 방식과 일치하며, 오는 4월 7일까지(미국 동부 표준시 기준) 90일간 산업계의 의견을 받고 있으므로 AI를 활용하여 신약 및 의료기기 개발을 준비 중이시라면 검토해보시기 바랍니다.
지침에 포함된 단계 및 예시
해당 지침은 의약품의 안전성, 효과성, 품질 관련 규제 결정을 지원하기 위한 정보 생성 및 데이터 생산에 사용되는 AI 모델에 초점을 맞췄습니다.
위험 기반 신뢰성 평가 기준은 특정 용도(Context of Use, COU)에 대해 AI 모델 결과의 신뢰성을 확립하고 평가하는 7단계로 구성되며, 임상 및 제조 과정에서의 예시를 담고 있습니다.
1. AI 모델이 해결할 관심 질문 정의하기
2. AI 모델의 COU(용도) 정의하기
3. AI 모델 위험(AI 모델 오류로 인한 잘못된 결정, 부정적 결과가 발생할 가능성) 평가하기
4. 해당 용도 내, AI 모델 결과의 신뢰성 확립을 위한 계획 수립하기
5. 계획 실행하기
6. 신뢰성 평가 계획의 결과를 문서화하여 계획에서 벗어난 사항 재논의하기
7. 해당 용도에 대해 AI 모델이 적합한지 판단하기
지침 1~3단계 예시
지침의 1~3단계, 관심 질문 정의 예시와 용도 정의 및 위험 평가까지 간단하게 정리했습니다.
자세한 링크는 🔗초안 지침을 클릭하여 확인하실 수 있습니다.
| 임상 | 제조 |
1단계 | 약물 A는 개발 중이지만, 치명적 부작용이 보고된 상황입니다.
하지만 일부 임상시험 참가자는 해당 부작용의 위험이 낮은 것으로 나타났고, AI 모델을 사용하여 부작용에 대한 위험에 따라 환자를 계층화하여 24시간 병원 입원 또는 외래 모니터링 여부를 결정하는 전략이 필요합니다.
관심 질문 : 어떤 참가자를 낮은 위험군으로 간주하여 투여 후 병원 입원 모니터링이 필요하지 않다고 판단할 것인가? | 약물 B는 다회용 바이알로 제공되는 주사제입니다. 바이알의 충전량은 제품 출고를 위한 핵심 품질 속성이며, 제조업체는 AI 기반의 이미지 인식 시스템을 통해 바이알 충전량을 100% 자동 평가하여 효율성을 높이고, 편차를 줄이고자 합니다.
관심 질문 : 약물 B의 바이알이 설정된 충전량 규격을 충족하는가? |
2단계 | AI 모델 출력은 약물 A의 생명 위협 가능성이 있는 부작용에 대한 위험에 따라 참가자를 저위험군, 고위험군으로 분류하는 데 사용되고, 투여 후 병원 입원 또는 외래 모니터링 진행 여부를 결정하는 것 역시 AI 모델만 사용하겠다고 제안하여 AI 모델의 범위를 구체화해야 합니다. | AI 기반 모델은 바이알의 이미지 데이터를 분석하여 충전량 편차가 발생했는지 여부를 판단하는 데 사용됩니다.
단, 제품 출고 테스트의 일부로서, 대표 샘플의 충전량은 다시 검증되므로 AI 기반 모델이 출고 여부의 유일한 기준이 되는 것은 아닙니다. |
3단계 | AI 모델이 참가자 모니터링 유형을 결정하는 유일한 기준이므로, 모델 영향도는 높습니다.
또한 참가자가 잘못 배치되어, 외래 모니터링으로 배정될 경우 치명적 부작용을 겪을 수 있으므로 결정 결과 또한 높아 전반적인 위험도는 높음으로 평가됩니다. | 충전량은 중요한 품질 속성이므로 영향도는 높습니다.
단, 제조업체에서 독립적으로 출고 테스트를 병행하기 때문에 위험도는 중간으로 평가할 수 있습니다. |