Re: 상업용 의류이미지 분류 가격제시 모델
1. ✅ 학습 라벨 문제
문제점: 현재 분류기 학습 라벨은 카테고리 하나뿐 → 브랜드, 계절, 뒷부분(상품 유형) 추론에는 직접적 학습이 없음
개선안: 다중 출력 모델 또는 멀티태스크 학습
예: ResNet18 마지막 FC → 3개 분기: 카테고리, 계절, 브랜드
또는 category를 봄긴팔, 겨울긴팔, 반팔티, 백팩처럼 합성 레이블로 통합
2. ? OCR 품질 편차 처리
문제점: OCR 결과가 길이에 따라 좋은 결과로 판단됨 (30자 이상인 경우만 공유)
길이는 품질 기준이 아님 → 브랜드/사이즈 잘 나왔는지가 중요
개선안:
OCR confidence 기반 필터링 도입 (easyocr는 각 인식마다 confidence 제공함)
"기모", "두툼" 등의 단어 포함 여부 기반 계절성 추정도 추가 가능
3. ⚠️ YOLO 로고 탐지 결과 활용 미흡
YOLO 결과가 "logos"에만 저장되고 추론 결과엔 직접 영향 없음
개선안:
YOLO 탐지된 로고를 OCR 추출한 브랜드와 교차검증해서 정확도 향상
로고 탐지 박스 내부만 OCR 수행 시 더 정확할 수 있음 → ROI 기반 OCR
4. ? 모델 재사용 최적화
현재는 각 폴더마다 새로운 모델을 학습 (classifier.pt)
매우 비효율적이며, 중복된 데이터가 많을 경우 과적합 우려
개선안:
하나의 통합 모델을 만든 후 유지 (master.pt)
신규 폴더는 inference만 수행하고, 필요 시 성능 저하된 경우에만 미세조정(fine-tuning)
5. ? 추론 결과 중복 처리 개선
현재는 같은 순번의 여러 이미지가 있을 경우, 가장 긴 OCR 결과 기준으로 모두 공유
문제점: OCR 품질이 낮은 이미지에 강제로 덮어씌우는 방식
개선안:
OCR 신뢰도 높은 상위 N개 기준 평균/투표 기반으로 정제
OCR 품질 스코어 저장 (ocr_score) 등
6. ? 계절성 판단을 위한 분류기 추가 가능
현재 계절성(바지계절, 혹은 상의의 경우는 없음)은 추론 안 함
개선안:
카테고리와 별도로 계절 항목 (봄/여름/가을/겨울/공백)을 라벨로 분류기 학습
정답 데이터에 상의 계절을 추가 레이블링해야 가능
-
개선안: 다중 출력 모델 또는 멀티태스크 학습
예: ResNet18 마지막 FC → 3개 분기: 카테고리, 계절, 브랜드
OCR confidence 기반 필터링 도입 (easyocr는 각 인식마다 confidence 제공함)
YOLO 탐지된 로고를 OCR 추출한 브랜드와 교차검증해서 정확도 향상
하나의 통합 모델을 만든 후 유지 (master.pt)
신규 폴더는 inference만 수행하고, 필요 시 성능 저하된 경우에만 미세조정(fine-tuning)
OCR 품질 스코어 저장 (ocr_score) 등
개선안이 반영된 코드 템플릿