View : 668 Download: 0

Fault-Location-Aware Fault-Tolerant Deep Learning Accelerator for Resource-Constrained Devices

Title
Fault-Location-Aware Fault-Tolerant Deep Learning Accelerator for Resource-Constrained Devices
Authors
박선영
Issue Date
2021
Department/Major
대학원 전자전기공학과
Publisher
이화여자대학교 대학원
Degree
Master
Advisors
김지훈
Abstract
The need for dedicated deep learning hardware exists due to the computation-intensive nature of deep learning. Recently, efforts have been increasing to perform the deep learning inference phase on resource-constrained edge devices. As the nanometer-scale CMOS technology evolves, the number of faults occurrence is increasing. Both transient faults and permanent faults have a direct impact on deep learning performance degradation, especially permanent faults cause significant performance degradation compared to transient faults. In this paper, a fault-location-aware fault-tolerant deep learning accelerator for resource-constrained devices is proposed. First, we propose a Reconfigurable Systolic Array which supports both the normal mode and split PE mode to reduce the number of times unintended data is delivered to the neighboring Processing Element (PE) due to the nature of the systolic array architecture when a stuck-at fault generated. As a result, 26.16% of the performance was improved by using split PE array mode. Second, quantify the descent rate by the fault characteristics such as the location of PE where the fault occurs, the type of bit, the type of fault, and the type of register. Then unable the corresponding rows and columns if the scores of each row and column were deemed to have a significant impact on performance drop. Subsequently, the operation was restarted, resulting in an average restore rate 96.16% with 15.58% execution time overhead. The proposed hardware is implemented in Samsung 28nm FDSOI technology and operates in 1.0 V supply voltage with 250 MHz clock frequency. The total gate count is 3.6M GE when GE represents the gate count of NAND2 logic. Compared to previous works, the proposed method improves performance with negligible area and time overhead. With these results, the fault-tolerant deep learning accelerator proposed in this paper is expected to provide solutions for resource-constrained edge devices. ;딥러닝의 계산 집약적 특성 때문에 딥러닝 전용 하드웨어의 필요성이 존재한다. 최근에는 엣지 디바이스에서 딥러닝 추론 단계를 수행하려는 노력이 많아지고 있다. 나노 스케일 공정으로 내려오게 되면서 Fault 발생 빈도가 늘어나고 있으며, Transient Fault와 Permanent Fault 모두 딥러닝 결과에 직접적인 영향을 주나 Permanent Fault의 경우 Transient Fault와 비교하였을 때 큰 퍼포먼스 저하를 야기한다. 본 논문에서는 리소스가 제한적인 엣지 디바이스에서의 Permanent Fault에 대한 Fault-Tolerant 딥러닝 가속기를 제안하고 있다. 첫째, Systolic Architecture의 특성으로 인하여 Stuck-at Fault가 발생하는 경우 의도하지 않은 데이터가 주변 Processing Element(PE)로 전달되는 횟수를 줄이기 위하여 Reconfigurable Systolic Array를 제안하였다. 그 결과, 26.16% 퍼포먼스 개선을 갖는 것을 확인하였다. 둘째, Fault가 발생하는 PE의 위치, 비트 위치, Fault의 종류, 레지스터 종류 등을 고려하여 정확도 저하에 미치는 영향을 정량적으로 계산하여 각 행과 열의 값이 성능에 큰 영향을 미친다고 판단되는 경우 해당하는 행 또는 열을 비활성화하였다. 그 후, 연산을 다시 시작하여 정확도를 개선하였고 그 결과 15.58% 실행 시간 오버헤드와 함께 평균 96.16%의 성능 복원률 보였다. 제안된 프로세서는 Samsung 28nm FDSOI로 구현되어 1.0 V 공급전압과 250 MHz 동작 주파수로 작동한다. GE가 NAND2 로직의 게이트 수를 나타낼 때, 해당 하드웨어의 총 게이트 수는 3.6M GE이다. 이전 연구와 비교하여 해당 연구는 무시 가능한 정도의 면적, 시간 오버헤드를 가지며 연산 결과 성능을 향상시킨다. 이러한 결과를 통해 본 논문에서 제안한 Fault-Tolerant Deep Learning Accelerator는 리소스가 제한적인 에지 디바이스에서의 솔루션을 제공할 것으로 기대된다.
Fulltext
Show the fulltext
Appears in Collections:
일반대학원 > 전자전기공학과 > Theses_Master
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

BROWSE