FlashAttention-4 Hits 71% GPU Nutzung auf NVIDIA Blackwell B200
Mit dem FlashAttention-4 von AI erreicht man 1.605 TFLOPs/s auf B200 GPUs, bis zu 2,7x schneller als Triton. Neue Pipelining überwindet asymmetrische Hardware Skalierung Engpässe. (Weiterlesen)







