22.02.27 [kfood프로젝트] 5탄 lr 0.01, 0.002 epochs 10 Training 결과 YOLOv3
2022. 2. 27. 19:14ㆍ프로젝트/KFood
epochs 5 vs epochs 10
아예 bbox를 안 띄우는 건 학습이 덜 된 문제(=epochs 가 너무 작아서)
일단은 epoch 5보다는 epoch 10이 학습이 더 되어서,
그리고 label에 결측치값들이 좀 있어서 그거 정제하고 다시 lr 0.01 epoch 10을 다시 돌려보기로 했다.
위의 1 값이 넘는 이상한 좌표들을 1로 수정하고,
다시 wandb들어가보고 tmux 확인해보니 training이 crashed되고, tmux는 no server exists? 라고 떠서
데모영상 녹화로 인해 GPU 사용량이 넘쳐서? 꺼진 것 같다.
다시 10 epochs lr 0.01로 돌리기 시작!
python train.py --img 640 --batch 16 --epochs 10 --data kfood.yaml --weights yolov3.pt --name batch_16_0.01_epoch_10
뭔가 GPU 상황이 이상하면 아래 명령어로 GPU 사용량 확인!
watch nvidia-smi
결과는 다음 포스팅에 적겠다!