1. Collaborative Multi-Agent for Brain MRI Captioning
Medical 쪽에서 VLM이 많이 나오고 있지만, MRI 쪽에서는 그 pool이 적어 성능이 나오지 않는다.
전략: Multi-agent model frameworks
GOAL : Image captioning (image - text matching)
기존 method
- MRI image를 주고 여러 agent로 text generation을 한다.
- 이유: 각각의 agent마다 학습한 도메인이 다르기 때문에 여러 agent로 대답을 시키면 정보를 얻는 데 도움이 될 것.
-
- 추가로 collecting agent가 필요하며, 이 agent는 어느 agent로부터 어느 내용이 나왔는지 정리해야 한다.
- Evaluating agent는 다음의 두 가지 모델이 있다.
- VQA (qualitative evaluation)을 수행(conflict가 있으면 이를 해결하는 것)한다.
- Clip score로 quantitative evaluation도 한다.
- sentence와 paragraph 각각에 대한 agent가 있다.
문제점 1: 레드제놈?을 이용해서 정확도를 측정해보았으나 Gemini만 70%정도를 달성해 multi-agent의 효과가 별로 없었다.
문제점 2: 원래는 아무리 iter를 돌아도 VQA의 feedback 질문 자체가 똑같다. (이게 왜 이렇지?)
우리의 method
차이점: 맨 처음에 text만 내보내는 게 아니라 bounding box를 함께 내놓는다.
→ 이를 MedSAM으로 segmentation하고, 이 부분에서 mean, median 등의 통계적 값을 도출한다. 이를 통해 hyperintensity를 구분한다.
Debate) Ventricle이 커졌는지는 확인을 못한다?
BiomedCLIP을 이용해서 img2img retrieval을 수행, 비슷한 이미지를 ROCOv2에서 뽑아온다.
실험 결과
여러 metric을 이용해서 성능을 비교해본 결과 우리의 method가 더 좋다.
- 질적인 부분은 LLM으로 측정: modality, location, diagnosis 등.
- 여기는 확실히 우리 metric이 좋다.
- 양적 방법: BLEU, ROUGH (이하 translation), RaTE, BERTscore, RadGraph (이하 entity-based) 등…
- Translation metric들은 관사에 결과가 많이 바뀌는 등 부정확해서 medical domain에서 후순위.
- 여기는 우리 metric이 근소하게 딸린다.
- 질문) 레포트 형식만 맞추면 개선의 여지가 있지 않나?
Future Works
- Prompt optimization
- Report metric debugging
나의 생각
- 이걸 benchmarking을 어떻게 합리적으로 하지…? 내용/논리적인 부분 말고 어투나 구조에 대한 유사도 평가까지 많이 들어갈 것 같은데 어떻게 배제하는가.
- FastMRI에 사용할 수 있는 부분은 적을 것 같다.
- 기존의 multi-agent와 대조되는 개념이 맞는 건가?? 기존과 병행할 수 있는 방법론 같은데, 왜 기존의 방법론과 비교해서 제시한 것인지 궁금하다.
- Ventricle 확장을 왜 감지 못한다는 건지 이해가 잘 되지 않는다. 그냥 hypointensity가 되는 게 아닌가?
2. Progress Report
Foundation model training - fine-tune해서 recon.
이걸 image editing용으로 사용하자!
기본 구조: 우리의 foundation model에 generation head 추가.
여기에 추가: 더 센 foundation model (DINOv3?) + alpha
자연어 기반 editing의 issue:
- Counterfactual editing: 이 환자에 lesion이 생긴다면? 커진다면?
- preliminary: MedEdit - lesion metadata 기반 설계해서 lesion data 만듦.
- 이걸로 학습!
- 질문) MedEdit은 segMask가 있어야 하는데 이걸 어떻게 넣느냐?
- Metadata 이용?
Future Works
- Instruction conditioning을 더 잘하자
- Evaluation을 어떻게?: FID, CLIP similarity score?
제안) lesion을 만들어서 쓰면 MedEdit의 틀에서 벗어날 수 없다. 그래서 그냥 lesion이 잔뜩 있는 환자 뇌를 가져와서 하는 건?
나의 생각
- 이것도 평가를 어떻게…?
3. Progress Report
우리의 foundation model은 instruction tuning을 통해 multi-task를 수행할 수 있다.
예) aliased → T1 → T2 한번에 가능.
Instruction encoder는 아래의 셋 중 무엇을 쓸 것인가.
- CLIP
- LLM (Qwen 2.5) ← 얘가 SSIM, PSNR 제일 높긴 함
- LLM + LoRA
질문)
-
CLIP은 image를 내뱉는데 얘를 디코더 중간에 넣어서 어떤 의미가?
-
Capacity 문제 때문에 9000장보다 더 많은 데이터를 써야 하지 않는가?
-
FiLM-like vs. cross-attention
BraTs보다 FastMRI 데이터에서 정답률이 더 낮게 나옴.
- 이유는 FastMRI에 skull이 있어서?
의의) downstream task가 많아지면 그 조합 각각을 하나의 모델로 해결할 수 있다.
나의 생각
- 프롬프트를 앞에서 넣어주기 vs. 뒤에서 넣어주기 차이는?
4. Creative Month | 홍록기
크몬이 뭐하는 자리지…??? ㅇㅎ 휴가인듯
- 뉴올리언스는 재즈의 고향이라고 한다.
- 굴 안에 있던 진주를 씹어서 이가 깨졌는데 그 진주를 일단 가져왔다고 한다.
- 바다 출신이라서 마이애미 해변을 가고 싶었다고.
- 그러나 반팔 입어서 너무 추웠다고 한다.
- 수영은 했다고.
- 음주운전을 했다(?)
- 5일 분량의 디즈니 월드를 하루만에 다 봤다고 한다.
- 한국을 좋아하는 교수에게 길거리 캐스팅을 당했다(?)
- 딘타이펑 같은 ‘관광지 식당’ 안 가는데 나쁘진 않았다고. (내 입장에선 아주 모욕적)