Make our trivial loop detector understand delinearize

krzysz00 · krzysz00 · commit de7e3137c395 · 2025-01-07T00:13:43.000Z
diff --git a/compiler/src/iree/compiler/Codegen/Common/test/remove_trivial_loops.mlir b/compiler/src/iree/compiler/Codegen/Common/test/remove_trivial_loops.mlir
@@ -240,3 +240,73 @@ hal.executable private @simple_mul {
 // CHECK-LABEL: func.func @simple_mul
 // CHECK:         scf.for
 // CHECK:         scf.for
+
+// -----
+
+#pipeline_layout = #hal.pipeline.layout<constants = 1, bindings = [
+  #hal.pipeline.binding<storage_buffer>,
+  #hal.pipeline.binding<storage_buffer>
+]>
+#translation_info = #iree_codegen.translation_info<pipeline = None workgroup_size = [64, 1, 1]>
+// CHECK-LABEL: func.func @dispatch_0()
+hal.executable private @dispatch_0  {
+  hal.executable.variant @cuda target(#hal.executable.target<"cuda", "cuda-nvptx-fb">) {
+    hal.executable.export @dispatch_0 layout(#pipeline_layout) {
+    ^bb0(%arg0: !hal.device) :
+      %c1 = arith.constant 1 : index
+      hal.return %c1, %c1, %c1 : index, index, index
+    }
+    builtin.module {
+      func.func @dispatch_0() attributes {translation_info = #translation_info} {
+        %c256 = arith.constant 256 : index
+        %tidx = gpu.thread_id x
+        %idsX:2 = affine.delinearize_index %tidx into (2, 32) : index, index
+        // CHECK-NOT: scf.for
+        //     CHECK: gpu.barrier
+        %0 = affine.apply affine_map<()[s0] -> (s0 * 128)>()[%idsX#0]
+        scf.for %arg4 = %0 to %c256 step %c256 {
+            gpu.barrier
+        }
+        // CHECK-NOT: scf.for
+        //     CHECK: gpu.barrier
+        %1 = affine.apply affine_map<()[s0] -> (s0 * 8)>()[%idsX#1]
+        scf.for %arg4 = %1 to %c256 step %c256 {
+            gpu.barrier
+        }
+        return
+      }
+    }
+  }
+}
+
+// -----
+
+#pipeline_layout = #hal.pipeline.layout<constants = 1, bindings = [
+  #hal.pipeline.binding<storage_buffer>,
+  #hal.pipeline.binding<storage_buffer>
+]>
+#translation_info = #iree_codegen.translation_info<pipeline = None workgroup_size = [64, 1, 1]>
+// CHECK-LABEL: func.func @dispatch_0()
+hal.executable private @dispatch_0  {
+  hal.executable.variant @cuda target(#hal.executable.target<"cuda", "cuda-nvptx-fb">) {
+    hal.executable.export @dispatch_0 layout(#pipeline_layout) {
+    ^bb0(%arg0: !hal.device) :
+      %c1 = arith.constant 1 : index
+      hal.return %c1, %c1, %c1 : index, index, index
+    }
+    builtin.module {
+      func.func @dispatch_0() attributes {translation_info = #translation_info} {
+        %c256 = arith.constant 256 : index
+        %0 = hal.interface.constant.load layout(#pipeline_layout) ordinal(0) : i32
+        %1 = arith.index_cast %0 : i32 to index
+        %2 = util.assume.int %1[<umin=0, umax=255>] : index
+        // CHECK-NOT: scf.for
+        //     CHECK: gpu.barrier
+        scf.for %arg4 = %2 to %c256 step %c256 {
+            gpu.barrier
+        }
+        return
+      }
+    }
+  }
+}
diff --git a/compiler/src/iree/compiler/Codegen/SPIRV/test/tile_and_vectorize_to_cooperative_ops.mlir b/compiler/src/iree/compiler/Codegen/SPIRV/test/tile_and_vectorize_to_cooperative_ops.mlir
@@ -109,10 +109,10 @@ func.func @matmul_256x1024x128_div_add() attributes {translation_info = #transla
 //       CHECK:     gpu.barrier
 //       CHECK:     scf.for %[[IV_Y:.+]] = %[[OFFSET_Y]] to %[[C32]] step %[[C32]]
 //       CHECK:       %[[LHS_VIEW:.+]] = memref.subview %[[LHS_ALLOC]][%[[IV_Y]], 0]
-//       CHECK:       scf.for %[[IV_X:.+]] = %[[OFFSET_X]] to %[[C32]] step %[[C32]]
-//       CHECK:         %[[RHS_VIEW:.+]] = memref.subview %[[RHS_ALLOC]][0, %[[IV_X]]]
 //   CHECK-DAG:         %[[READ0:.+]] = vector.transfer_read %[[LHS_VIEW]][%[[C0]], %[[C0]]]
 //   CHECK-DAG:         %[[READ1:.+]] = vector.transfer_read %[[LHS_VIEW]][%[[C0]], %[[C16]]]
+//       CHECK:       scf.for %[[IV_X:.+]] = %[[OFFSET_X]] to %[[C32]] step %[[C32]]
+//       CHECK:         %[[RHS_VIEW:.+]] = memref.subview %[[RHS_ALLOC]][0, %[[IV_X]]]
 //   CHECK-DAG:         %[[READ2:.+]] = vector.transfer_read %[[RHS_VIEW]][%[[C0]], %[[C0]]]
 //   CHECK-DAG:         %[[READ3:.+]] = vector.transfer_read %[[RHS_VIEW]][%[[C16]], %[[C0]]]
 //   CHECK-DAG:         %[[READ4:.+]] = vector.transfer_read %{{.+}}[%[[C0]], %[[C0]]]
@@ -246,10 +246,10 @@ func.func @matmul_256x1024x128_div_add() attributes {translation_info = #transla
 //       CHECK:     scf.for %[[IV_Z:.+]] = %[[ID_Z]] to %[[C1]] step %[[C1]]
 //       CHECK:       scf.for %[[IV_Y:.+]] = %[[OFFSET_Y]] to %[[C32]] step %[[C32]]
 //       CHECK:         %[[LHS_VIEW:.+]] = memref.subview %[[LHS_ALLOC]][%[[IV_Z]], %[[IV_Y]], 0] [1, 16, 32]
-//       CHECK:         scf.for %[[IV_X:.+]] = %[[OFFSET_X]] to %[[C32]] step %[[C32]] {
-//       CHECK:           %[[RHS_VIEW:.+]] = memref.subview %[[RHS_ALLOC]][%[[IV_Z]], 0, %[[IV_X]]] [1, 32, 16]
 //   CHECK-DAG:           %[[READ0:.+]] = vector.transfer_read %[[LHS_VIEW]][%[[C0]], %[[C0]], %[[C0]]]
 //   CHECK-DAG:           %[[READ1:.+]] = vector.transfer_read %[[LHS_VIEW]][%[[C0]], %[[C0]], %[[C16]]]
+//       CHECK:         scf.for %[[IV_X:.+]] = %[[OFFSET_X]] to %[[C32]] step %[[C32]] {
+//       CHECK:           %[[RHS_VIEW:.+]] = memref.subview %[[RHS_ALLOC]][%[[IV_Z]], 0, %[[IV_X]]] [1, 32, 16]
 //   CHECK-DAG:           %[[READ2:.+]] = vector.transfer_read %[[RHS_VIEW]][%[[C0]], %[[C0]], %[[C0]]]
 //   CHECK-DAG:           %[[READ3:.+]] = vector.transfer_read %[[RHS_VIEW]][%[[C0]], %[[C16]], %[[C0]]]
 //   CHECK-DAG:           %[[READ4:.+]] = vector.transfer_read %{{.+}}[%[[C0]], %[[C0]], %[[C0]]]
@@ -369,10 +369,10 @@ func.func @matmul_256x1024x128_mixed_signedness_int8() {
 //       CHECK:     gpu.barrier
 //       CHECK:     scf.for %[[IV_Y:.+]] = %[[OFFSET_Y]] to %[[C32]] step %[[C32]]
 //       CHECK:       %[[LHS_VIEW:.+]] = memref.subview %[[LHS_ALLOC]][%[[IV_Y]], 0]
-//       CHECK:       scf.for %[[IV_X:.+]] = %[[OFFSET_X]] to %[[C32]] step %[[C32]]
-//       CHECK:         %[[RHS_VIEW:.+]] = memref.subview %[[RHS_ALLOC]][0, %[[IV_X]]]
 //   CHECK-DAG:         %[[READ0:.+]] = vector.transfer_read %[[LHS_VIEW]][%[[C0]], %[[C0]]]
 //   CHECK-DAG:         %[[READ1:.+]] = vector.transfer_read %[[LHS_VIEW]][%[[C0]], %[[C16]]]
+//       CHECK:       scf.for %[[IV_X:.+]] = %[[OFFSET_X]] to %[[C32]] step %[[C32]]
+//       CHECK:         %[[RHS_VIEW:.+]] = memref.subview %[[RHS_ALLOC]][0, %[[IV_X]]]
 //   CHECK-DAG:         %[[READ2:.+]] = vector.transfer_read %[[RHS_VIEW]][%[[C0]], %[[C0]]]
 //   CHECK-DAG:         %[[READ3:.+]] = vector.transfer_read %[[RHS_VIEW]][%[[C16]], %[[C0]]]
 //   CHECK-DAG:         %[[READ4:.+]] = vector.transfer_read %{{.+}}[%[[C0]], %[[C0]]]
diff --git a/compiler/src/iree/compiler/Codegen/Transforms/RemoveSingleIterationLoop.cpp b/compiler/src/iree/compiler/Codegen/Transforms/RemoveSingleIterationLoop.cpp
@@ -17,13 +17,67 @@
 #include "mlir/Dialect/Affine/Utils.h"
 #include "mlir/IR/BuiltinOps.h"
 #include "mlir/IR/PatternMatch.h"
+#include "mlir/IR/Value.h"
 
 #define DEBUG_TYPE "iree-codegen-remove-single-iteration"
 
 #define DBGS() (llvm::dbgs() << "[" DEBUG_TYPE << "]: ")
 
 namespace mlir::iree_compiler {
 
+/// Traverse affine.delinearize_index and affine.linearize_index and util
+/// assumption ops to get bounds. In the long run, this should either be added
+/// as a composition utility to affine and/or as calls to
+/// IntRangeInferenceInterface.
+static std::optional<std::pair<AffineExpr, AffineExpr>>
+getMinMaxExprWrapper(Value dim, SmallVectorImpl<Value> &dims,
+                     SmallVectorImpl<Value> &syms,
+                     GetMinMaxExprFn getMinMaxExpr) {
+  if (auto delinOp = dim.getDefiningOp<affine::AffineDelinearizeIndexOp>()) {
+    if (!delinOp.getDynamicBasis().empty()) {
+      LLVM_DEBUG(
+          DBGS()
+          << "not handling delinearize with dynamic dimensions for now\n");
+      return std::nullopt;
+    }
+    Value linearIdx = delinOp.getLinearIndex();
+    ArrayRef<int64_t> basis = delinOp.getStaticBasis();
+    unsigned resultNum = cast<OpResult>(dim).getResultNumber();
+    auto linearMinMax =
+        getMinMaxExprWrapper(linearIdx, dims, syms, getMinMaxExpr);
+    if (resultNum == 0 && !delinOp.hasOuterBound()) {
+      if (!linearMinMax.has_value())
+        return std::nullopt;
+      auto [min, max] = *linearMinMax;
+      int64_t divisor = ShapedType::getNumElements(basis);
+      return std::make_pair(min.floorDiv(divisor), max.floorDiv(divisor));
+    }
+    unsigned basisArg = resultNum - (delinOp.hasOuterBound() ? 0 : 1);
+    int64_t modulus = basis[basisArg];
+    int64_t divisor = ShapedType::getNumElements(basis.drop_front(basisArg));
+    if (linearMinMax.has_value()) {
+      auto [min, max] = *linearMinMax;
+      return std::make_pair(min.floorDiv(divisor) % modulus,
+                            max.floorDiv(divisor) % modulus);
+    }
+    if (resultNum > 0)
+      return std::make_pair(
+          getAffineConstantExpr(0, dim.getContext()),
+          getAffineConstantExpr(modulus - 1, dim.getContext()));
+    return std::nullopt;
+  }
+
+  if (auto assumeOp = dim.getDefiningOp<IREE::Util::AssumeIntOp>()) {
+    auto [min, max] =
+        assumeOp.getUnionedUnsignedRange(cast<OpResult>(dim).getResultNumber());
+    if (!min || !max)
+      return std::nullopt;
+    return std::make_pair(getAffineConstantExpr(*min, dim.getContext()),
+                          getAffineConstantExpr(*max, dim.getContext()));
+  }
+  return getMinMaxExpr(dim, dims, syms);
+}
+
 /// Compose map with apply affine ops and try to simplify it.
 static void combineAndSimplifyMap(AffineMap &map, SmallVectorImpl<Value> &dims,
                                   SmallVectorImpl<Value> &symbols) {
@@ -52,7 +106,7 @@ static AffineMap substituteMin(AffineMap map, SmallVectorImpl<Value> &dims,
       substituted = false;
       for (unsigned dimIdx = 0; dimIdx < dims.size(); ++dimIdx) {
         Value dim = dims[dimIdx];
-        auto minMax = getMinMaxExpr(dim, dims, symbols);
+        auto minMax = getMinMaxExprWrapper(dim, dims, symbols, getMinMaxExpr);
         if (!minMax)
           continue;
         AffineExpr dimExpr = getAffineDimExpr(dimIdx, expr.getContext());
@@ -70,7 +124,7 @@ static AffineMap substituteMin(AffineMap map, SmallVectorImpl<Value> &dims,
       // Substitute symbols
       for (unsigned symIdx = 0; symIdx < symbols.size(); ++symIdx) {
         Value sym = symbols[symIdx];
-        auto minMax = getMinMaxExpr(sym, dims, symbols);
+        auto minMax = getMinMaxExprWrapper(sym, dims, symbols, getMinMaxExpr);
         if (!minMax)
           continue;
         AffineExpr symExpr = getAffineSymbolExpr(symIdx, expr.getContext());