adding test cases and transfer_read/write

lialan · lialan · commit b91faf6a5bfb · 2025-03-21T17:49:49.000Z
diff --git a/compiler/src/iree/compiler/Codegen/Common/DecomposeMemRefs.cpp b/compiler/src/iree/compiler/Codegen/Common/DecomposeMemRefs.cpp
@@ -10,13 +10,21 @@
 // upstream GPU/DecomposeMemRefs.cpp file. It adds a new option to not decompose
 // it into 0-rank memrefs but instead single-ranked memrefs.
 //
+// Question to answer at this point:
+// 1. should we disallow memrefs with non-identity layout? also cases where 
+// offset != 0 and stride != 1? if so we should update test cases.
+
+// TODO:
+// 1. update memref.subview. 
+// 2. vector dialects? masked{load|store}, transfer_{read|write}, etc?
 //===----------------------------------------------------------------------===//
 
 #include "mlir/Dialect/Affine/IR/AffineOps.h"
 #include "mlir/Dialect/Arith/IR/Arith.h"
 #include "mlir/Dialect/MemRef/IR/MemRef.h"
 #include "mlir/Dialect/Utils/IndexingUtils.h"
 #include "mlir/Dialect/Utils/StaticValueUtils.h"
+#include "mlir/Dialect/Vector/IR/VectorOps.h"
 #include "mlir/IR/AffineExpr.h"
 #include "mlir/IR/Attributes.h"
 #include "mlir/IR/Builders.h"
@@ -120,24 +128,16 @@ getFlatOffsetAndStrides(OpBuilder &rewriter, Location loc, Value source,
   return {newExtractStridedMetadata.getBaseBuffer(), finalOffset, strides};
 }
 
-static Value getFlatMemref(OpBuilder &rewriter, Location loc, Value source,
-                           ValueRange offsets) {
-  SmallVector<OpFoldResult> offsetsTemp = getAsOpFoldResult(offsets);
-  auto &&[base, offset, ignore] =
-      getFlatOffsetAndStrides(rewriter, loc, source, offsetsTemp);
-  MemRefType retType = inferCastResultType(base, offset);
-  return rewriter.create<memref::ReinterpretCastOp>(loc, retType, base, offset,
-                                                    std::nullopt, std::nullopt);
-}
-
+/// Returns a collapsed memref and the linearized index to access the element
+/// at the specified indices.
 static std::pair<Value, OpFoldResult> getCollapsedMemref(OpBuilder &rewriter,
                                                          Location loc,
                                                          Value source,
-                                                         ValueRange offsets) {
+                                                         ValueRange indices) {
   MemRefType memrefType = cast<MemRefType>(source.getType());
-  auto &&[base, offset, ignore] = getFlatOffsetAndStrides(
-      rewriter, loc, source, getAsOpFoldResult(offsets));
-  // expand contiguous shape
+  auto &&[base, index, _] = getFlatOffsetAndStrides(
+      rewriter, loc, source, getAsOpFoldResult(indices));
+  // We do not support non-contiguous memrefs.
   int64_t collapsedShape = 1;
   for (auto dim : memrefType.getShape()) {
     collapsedShape *= dim;
@@ -146,12 +146,12 @@ static std::pair<Value, OpFoldResult> getCollapsedMemref(OpBuilder &rewriter,
       MemRefType::get({collapsedShape}, memrefType.getElementType(), nullptr,
                       memrefType.getMemorySpace());
 
-  // TODO: implement offset.
+  // (lialan) TODO: should we keep `offset` in the result memref?
   return std::make_pair(rewriter.create<memref::ReinterpretCastOp>(
                             loc, retType, source, /* offset = */ 0,
                             /*shapes = */ ArrayRef<int64_t>{collapsedShape},
                             /* strides = */ ArrayRef<int64_t>{1}),
-                        offset);
+                        index);
 }
 
 static Value getValueFromOpFoldResult(PatternRewriter &rewriter, Location loc,
@@ -170,7 +170,6 @@ static bool needFlatten(Value val) {
 
 static bool checkLayout(Value val) {
   auto type = cast<MemRefType>(val.getType());
-  // TODO: is this correct?
   return type.getLayout().isIdentity() ||
          isa<StridedLayoutAttr>(type.getLayout());
 }
@@ -270,6 +269,99 @@ struct FlattenVectorStore : public OpRewritePattern<vector::StoreOp> {
   }
 };
 
+struct FlattenVectorMaskedLoad : public OpRewritePattern<vector::MaskedLoadOp> {
+  using OpRewritePattern::OpRewritePattern;
+
+  LogicalResult matchAndRewrite(vector::MaskedLoadOp op,
+                                PatternRewriter &rewriter) const override {
+    Value memref = op.getBase();
+    if (!needFlatten(memref))
+      return rewriter.notifyMatchFailure(op, "nothing to do");
+
+    if (!checkLayout(memref))
+      return rewriter.notifyMatchFailure(op, "unsupported layout");
+
+    Location loc = op.getLoc();
+    auto &&[flatMemref, offset] =
+        getCollapsedMemref(rewriter, loc, memref, op.getIndices());
+    Value offsetVal = getValueFromOpFoldResult(rewriter, loc, offset);
+    rewriter.replaceOpWithNewOp<vector::MaskedLoadOp>(
+        op, op.getType(), flatMemref, ValueRange{offsetVal}, op.getMask(),
+        op.getPassThru());
+    return success();
+  }
+};
+
+struct FlattenVectorMaskedStore : public OpRewritePattern<vector::MaskedStoreOp> {
+  using OpRewritePattern::OpRewritePattern;
+
+  LogicalResult matchAndRewrite(vector::MaskedStoreOp op,
+                                PatternRewriter &rewriter) const override {
+    Value memref = op.getBase();
+    if (!needFlatten(memref))
+      return rewriter.notifyMatchFailure(op, "nothing to do");
+
+    if (!checkLayout(memref))
+      return rewriter.notifyMatchFailure(op, "unsupported layout");
+
+    Location loc = op.getLoc();
+    auto &&[flatMemref, offset] =
+        getCollapsedMemref(rewriter, loc, memref, op.getIndices());
+    Value offsetVal = getValueFromOpFoldResult(rewriter, loc, offset);
+    rewriter.replaceOpWithNewOp<vector::MaskedStoreOp>(
+        op, flatMemref, ValueRange{offsetVal}, op.getMask(),
+        op.getValueToStore());
+    return success();
+  }
+};
+struct FlattenVectorTransferRead : public OpRewritePattern<vector::TransferReadOp> {
+  using OpRewritePattern::OpRewritePattern;
+
+  LogicalResult matchAndRewrite(vector::TransferReadOp op,
+                                PatternRewriter &rewriter) const override {
+    Value memref = op.getSource();
+    if (!needFlatten(memref))
+      return rewriter.notifyMatchFailure(op, "nothing to do");
+
+    if (!checkLayout(memref))
+      return rewriter.notifyMatchFailure(op, "unsupported layout");
+
+    Location loc = op.getLoc();
+
+    auto &&[flatMemref, offset] =
+        getCollapsedMemref(rewriter, loc, memref, op.getIndices());
+
+    Value offsetVal = getValueFromOpFoldResult(rewriter, loc, offset);
+    rewriter.replaceOpWithNewOp<vector::TransferReadOp>(
+        op, op.getType(), flatMemref, ValueRange{offsetVal}, op.getPadding());
+    return success();
+  }
+};
+
+struct FlattenVectorTransferWrite : public OpRewritePattern<vector::TransferWriteOp> {
+  using OpRewritePattern::OpRewritePattern;
+
+  LogicalResult matchAndRewrite(vector::TransferWriteOp op,
+                                PatternRewriter &rewriter) const override {
+    Value memref = op.getSource();
+    if (!needFlatten(memref))
+      return rewriter.notifyMatchFailure(op, "nothing to do");
+
+    if (!checkLayout(memref))
+      return rewriter.notifyMatchFailure(op, "unsupported layout");
+
+    Location loc = op.getLoc();
+    auto &&[flatMemref, offset] =
+        getCollapsedMemref(rewriter, loc, memref, op.getIndices());
+
+    Value offsetVal = getValueFromOpFoldResult(rewriter, loc, offset);
+    rewriter.replaceOpWithNewOp<vector::TransferWriteOp>(op, op.getVector(),
+                                                         flatMemref,
+                                                         ValueRange{offsetVal});
+    return success();
+  }
+};
+
 struct FlattenSubview : public OpRewritePattern<memref::SubViewOp> {
   using OpRewritePattern::OpRewritePattern;
 
@@ -339,8 +431,11 @@ struct DecomposeMemrefsPass
 
 namespace mlir::iree_compiler {
 void populateDecomposeMemrefsPatterns(RewritePatternSet &patterns) {
-  patterns.insert<FlattenMemrefLoad, FlattenVectorLoad, FlattenMemrefStore,
-                  FlattenVectorStore, FlattenSubview>(patterns.getContext());
+  patterns.insert<FlattenMemrefLoad, FlattenMemrefStore, FlattenSubview,
+                  FlattenVectorMaskedLoad, FlattenVectorMaskedStore,
+                  FlattenVectorLoad, FlattenVectorStore,
+                  FlattenVectorTransferRead, FlattenVectorTransferWrite>(
+      patterns.getContext());
 }
 
 std::unique_ptr<Pass> createDecomposeMemrefsPass() {
diff --git a/compiler/src/iree/compiler/Codegen/Common/test/decompose_memref.mlir b/compiler/src/iree/compiler/Codegen/Common/test/decompose_memref.mlir
@@ -1,8 +1,6 @@
 // RUN: iree-opt --split-input-file --pass-pipeline="builtin.module(func.func(iree-codegen-decompose-memrefs))" %s | FileCheck
 
 // TODO: support vector dialect.
-// TODO: support stores.
-// TODO: test subviews.
 
 // -----
 
@@ -17,59 +15,59 @@ func.func @load_scalar_from_memref(%input: memref<4x8xf32>) -> f32 {
 // -----
 
 func.func @load_scalar_from_memref_static_dim(%input: memref<4x8xf32, strided<[8, 12], offset: 100>>) -> f32 {
-  %c0 = arith.constant 0 : index
   %c1 = arith.constant 1 : index
-  %value = memref.load %input[%c0, %c1] : memref<4x8xf32, strided<[8, 12], offset: 100>>
+  %c2 = arith.constant 2 : index
+  %value = memref.load %input[%c1, %c2] : memref<4x8xf32, strided<[8, 12], offset: 100>>
   return %value : f32
 }
 // CHECK-LABEL: func @load_scalar_from_memref_static_dim
 
 // -----
 
 func.func @load_scalar_from_memref_static_dim_2(%input: memref<4x8xf32, strided<[8, 12], offset: 100>>, %row: index, %col: index) -> f32 {
-  %value = memref.load %input[%row, %col] : memref<4x8xf32, strided<[8, 12], offset: 100>>
+  %value = memref.load %input[%col, %row] : memref<4x8xf32, strided<[8, 12], offset: 100>>
   return %value : f32
 }
 // CHECK-LABEL: func @load_scalar_from_memref_static_dim_2
 
 // -----
 
-func.func @load_scalar_from_memref_dynamic_dim(%input: memref<4x8xf32, strided<[?, ?], offset: ?>>) -> f32 {
+func.func @load_scalar_from_memref_dynamic_dim(%input: memref<4x8xf32, strided<[?, ?], offset: ?>>, %row : index, %col : index) -> f32 {
   %c0 = arith.constant 0 : index
   %c1 = arith.constant 1 : index
-  %value = memref.load %input[%c0, %c1] : memref<4x8xf32, strided<[?, ?], offset: ?>>
+  %value = memref.load %input[%c1, %c0] : memref<4x8xf32, strided<[?, ?], offset: ?>>
   return %value : f32
 }
 // CHECK-LABEL: func @load_scalar_from_memref_dynamic_dim
 
 // -----
 
 func.func @load_scalar_from_memref_dynamic_dim_2(%input: memref<4x8xf32, strided<[?, ?], offset: ?>>, %row: index, %col: index) -> f32 {
-  %value = memref.load %input[%row, %col] : memref<4x8xf32, strided<[?, ?], offset: ?>>
+  %value = memref.load %input[%col, %row] : memref<4x8xf32, strided<[?, ?], offset: ?>>
   return %value : f32
 }
 // CHECK-LABEL: func @load_scalar_from_memref_dynamic_dim_2
 
 // -----
 
 func.func @load_scalar_from_memref_subview(%input: memref<4x8xf32>, %row: index, %col: index) -> memref<1x1xf32, strided<[8, 1], offset: ?>> {
-  %subview = memref.subview %input[%row, %col] [1, 1] [1, 1] : memref<4x8xf32> to memref<1x1xf32, strided<[8, 1], offset: ?>>
+  %subview = memref.subview %input[%col, %row] [1, 1] [1, 1] : memref<4x8xf32> to memref<1x1xf32, strided<[8, 1], offset: ?>>
   return %subview : memref<1x1xf32, strided<[8, 1], offset: ?>>
 }
 // CHECK-LABEL: func @load_scalar_from_memref_subview
 
 // -----
 
 func.func @store_scalar_from_memref_static_dim_2(%input: memref<4x8xf32, strided<[8, 12], offset: 100>>, %row: index, %col: index, %value: f32) {
-  memref.store %value, %input[%row, %col] : memref<4x8xf32, strided<[8, 12], offset: 100>>
+  memref.store %value, %input[%col, %row] : memref<4x8xf32, strided<[8, 12], offset: 100>>
   return
 }
 // CHECK-LABEL: func @store_scalar_from_memref_static_dim_2
 
 // -----
 
 func.func @store_scalar_from_memref_dynamic_dim_2(%input: memref<4x8xf32, strided<[?, ?], offset: ?>>, %row: index, %col: index, %value: f32) {
-  memref.store %value, %input[%row, %col] : memref<4x8xf32, strided<[?, ?], offset: ?>>
+  memref.store %value, %input[%col, %row] : memref<4x8xf32, strided<[?, ?], offset: ?>>
   return
 }
 // CHECK-LABEL: func @store_scalar_from_memref_dynamic_dim_2
@@ -97,7 +95,7 @@ func.func @load_vector_from_memref_odd(%input: memref<3x7xi2>) -> vector<3xi2> {
 // -----
 
 func.func @load_vector_from_memref_dynamic(%input: memref<3x7xi2>, %row: index, %col: index) -> vector<3xi2> {
-  %value = vector.load %input[%row, %col] : memref<3x7xi2>, vector<3xi2>
+  %value = vector.load %input[%col, %row] : memref<3x7xi2>, vector<3xi2>
   return %value : vector<3xi2>
 }
 // CHECK-LABEL: func @load_vector_from_memref_dynamic
@@ -115,7 +113,59 @@ func.func @store_vector_to_memref_odd(%input: memref<3x7xi2>, %value: vector<3xi
 // -----
 
 func.func @store_vector_to_memref_dynamic(%input: memref<3x7xi2>, %value: vector<3xi2>, %row: index, %col: index) {
-  vector.store %value, %input[%row, %col] : memref<3x7xi2>, vector<3xi2>
+  vector.store %value, %input[%col, %row] : memref<3x7xi2>, vector<3xi2>
   return
 }
 // CHECK-LABEL: func @store_vector_to_memref_dynamic
+
+// -----
+
+func.func @mask_store_vector_to_memref_odd(%input: memref<3x7xi2>, %value: vector<3xi2>, %mask: vector<3xi1>) {
+  %c1 = arith.constant 1 : index
+  %c3 = arith.constant 3 : index
+  vector.maskedstore %input[%c1, %c3], %mask, %value  : memref<3x7xi2>, vector<3xi1>, vector<3xi2>
+  return
+}
+// CHECK-LABEL: func @mask_store_vector_to_memref_odd
+
+// -----
+
+func.func @mask_store_vector_to_memref_dynamic(%input: memref<3x7xi2>, %value: vector<3xi2>, %row: index, %col: index, %mask: vector<3xi1>) {
+  vector.maskedstore %input[%col, %row], %mask, %value : memref<3x7xi2>, vector<3xi1>, vector<3xi2>
+  return
+}
+// CHECK-LABEL: func @mask_store_vector_to_memref_dynamic
+
+// -----
+func.func @mask_load_vector_from_memref_odd(%input: memref<3x7xi2>, %mask: vector<3xi1>, %passthru: vector<3xi2>) -> vector<3xi2> {
+  %c1 = arith.constant 1 : index
+  %c3 = arith.constant 3 : index
+  %result = vector.maskedload %input[%c1, %c3], %mask, %passthru : memref<3x7xi2>, vector<3xi1>, vector<3xi2> into vector<3xi2>
+  return %result : vector<3xi2>
+}
+// CHECK-LABEL: func @mask_load_vector_from_memref_odd
+
+// -----
+
+func.func @mask_load_vector_from_memref_dynamic(%input: memref<3x7xi2>, %row: index, %col: index, %mask: vector<3xi1>, %passthru: vector<3xi2>) -> vector<3xi2> {
+  %result = vector.maskedload %input[%col, %row], %mask, %passthru : memref<3x7xi2>, vector<3xi1>, vector<3xi2> into vector<3xi2>
+  return %result : vector<3xi2>
+}
+// CHECK-LABEL: func @mask_load_vector_from_memref_dynamic
+
+// -----
+
+func.func @transfer_read_memref(%input: memref<4x8xi2>, %value: vector<8xi2>, %row: index, %col: index) -> vector<8xi2> {
+   %c0 = arith.constant 0 : i2
+   %0 = vector.transfer_read %input[%col, %row], %c0 : memref<4x8xi2>, vector<8xi2>
+   return %0 : vector<8xi2>
+}
+// CHECK-LABEL: func @transfer_read_memref
+
+// -----
+
+func.func @transfer_write_memref(%input: memref<4x8xi2>, %value: vector<8xi2>, %row: index, %col: index) {
+   vector.transfer_write %value, %input[%col, %row] : vector<8xi2>, memref<4x8xi2>
+   return
+}
+// CHECK-LABEL: func @transfer_write_memref