La instrucción AMD WMMA es una respuesta directa a NVIDIA Tensor Cores
[ad_1]
AMD ROCm 5.2 La actualización de API enumera el caso de uso para este tipo de instrucción, que puedes ver a continuación:
rocWMMA proporciona una API de C++ para facilitar la descomposición de la matriz, la multiplicación de los problemas acumulados en fragmentos y su uso en operaciones por bloques que se distribuyen en paralelo a través de los frentes de onda de la GPU.. La API es una biblioteca de encabezado de código de dispositivo GPU, lo que significa que la aceleración del núcleo de la matriz se puede compilar directamente en el código de su dispositivo kernel. Esto puede beneficiarse de la optimización del compilador en la generación del ensamblaje del kernel y no genera costos generales adicionales de vinculación a bibliotecas de tiempo de ejecución externas o tener que lanzar kernels separados..
rocWMMA se lanza como una biblioteca de encabezados e incluye proyectos de prueba y muestra para validar e ilustrar usos de ejemplo de la API de C++. La multiplicación de la matriz GEMM se usa como validación principal dado el fuerte precedente para la biblioteca. Sin embargo, la cartera de uso está creciendo significativamente y demuestra diferentes formas en que se puede consumir rocWMMA.
[ad_2]