인턴(4)
-
22.04.26 Quantization
https://gaussian37.github.io/dl-concept-quantization/ 딥러닝의 Quantization (양자화)와 Quantization Aware Training gaussian37's blog gaussian37.github.io https://arxiv.org/pdf/1712.05877.pdf Quantization : 실수(Float)를 정수(Int)로 변환하는 과정. 보통 FP32를 INT8(8비트 정수) INT 16 등으로 변환한다. - 딥러닝에서 Quantization을 사용할 때는 NN의 weight나 acitivation function의 값이 어느 정도 범위 안에 있다고 가정하고 모델을 경량화하게 된다. - 예를 들어 실수 -1 부터 3 까지의 범위에 있는 데..
2022.04.27 -
22.04.12 Deep Learning - BERT 모델 Network Compression(하늘색 글씨 포스팅쓰기)
https://blog.est.ai/2020/03/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EB%AA%A8%EB%8D%B8-%EC%95%95%EC%B6%95-%EB%B0%A9%EB%B2%95%EB%A1%A0%EA%B3%BC-bert-%EC%95%95%EC%B6%95/ 딥러닝 모델 압축 방법론과 BERT 압축 딥러닝(Deep Learning)은 뛰어난 성능과 높은 모델의 확장성(Scalability)으로 인해 많은 주목을 받았고, 요즘 산업계에서도 활발하게 적용되고 있습니다. 하지만 모델의 높은 확장성은 또 다른 문제를 blog.est.ai https://blogs.nvidia.co.kr/2020/02/20/bert/ End-to-End BERT: 만능 모델 BERT 학습부터 추론 - NVIDI..
2022.04.24 -
22.04.12 Deep Learning - Quantization
https://wooono.tistory.com/405 [DL] 양자화(Quantization)란? 들어가기 앞서, 모바일이나 임베디드 환경에서, 딥러닝 모델을 사용한 추론은 어렵습니다. 일반 PC 와 달리, 메모리, 성능, 저장공간 등의 제한이 있기 때문입니다. 따라서, 딥러닝에서는 모델 경 wooono.tistory.com 딥러닝 시 경량화 연구가 시작된 이유 - 모바일이나 임베디드 환경에서 딥러닝 모델을 사용한 추론은 어렵다.(메모리, 성능, 저장공간 등의 제한이 있기 때문) - 그래서 딥러닝 모델을 가볍게 만드는 연구가 시작됨. 딥러닝 경량화 연구 크게 두 가지로 나뉨 1. 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계 2. 기존 모델의 파라미터들을 줄이거나 압축하는 연구 1. 모델을 구성..
2022.04.24 -
22.04.11 tensorRT에 쓰이는 개념들 - 빨간글씨 꼭 읽어보기
tensorRT란 딥러닝 모델을 최적화하여 NVIDIA GPU 상에서 추론속도를 수배~수십배 향상시켜주는 모델 최적화 엔진. (보통 conda, pyenv 등과 같은 가상환경에서는 사용하지 않고 Docker나 쌩 로컬환경에 설치하게 된다.) tensorRT는 Optimizer와 Runtim Engine으로 구성되어 있다. Optimizer란 NIVIDIA GPU 연산에 적합한 최적화 기법으로 딥러닝 모델을 최적화해주는 알고리즘? 기법? 이라고 생각하면 된다. Runtime Engine이란 다양한 GPU에서 모델 연산을 수행하는 것이다. 대부분의 딥러닝 프레임워크에서 학습된 모델을 지원하게 된다. tensorRT의 장점 - C++과 python을 API 레벨에서 지원하므로 CUDA를 잘 모르는 딥러닝개발자..
2022.04.12