feat/convolution: add shared workspace for convolution layer

hobofan · hobofan · commit f5f25c31a4c8 · 2016-03-02T15:13:53.000+01:00
diff --git a/Cargo.toml b/Cargo.toml
@@ -16,7 +16,7 @@ license = "MIT OR Apache-2.0"
 [dependencies]
 collenchyma = { version = "0.0.8", default-features = false }
 collenchyma-blas = { version = "0.2.0", default-features = false }
-collenchyma-nn = { version = "0.3.1", default-features = false }
+collenchyma-nn = { version = "0.3.2", default-features = false }
 
 log = "0.3.2"
 rand = "0.3.0"
diff --git a/examples/benchmarks.rs b/examples/benchmarks.rs
@@ -1,5 +1,6 @@
 #[macro_use]
 extern crate timeit;
+extern crate env_logger;
 extern crate collenchyma as co;
 extern crate leaf;
 
@@ -12,6 +13,8 @@ use std::rc::Rc;
 use std::env;
 
 fn main() {
+    env_logger::init().unwrap();
+
     let nets: Vec<String> = vec!("alexnet".to_string(), "overfeat".to_string(), "vgg".to_string());
     if let Some(net) = env::args().nth(1) {
         if nets.contains(&net) {
diff --git a/src/layer.rs b/src/layer.rs
@@ -192,6 +192,7 @@ impl<B: IBackend + LayerOps<f32> + 'static> Layer<B> {
 
         self.worker.init(self.backend.clone());
         self.reshape();
+        self.worker.resize_shared_workspace(self.backend.clone(), None);
         for t in &self.output_blobs_data {
             debug!("Layer {} - output shape: {:?}", self.name, t.read().unwrap().desc());
         }
@@ -719,6 +720,20 @@ pub trait ILayer<B: IBackend> : ComputeOutput<f32, B> + ComputeInputGradient<f32
                output_data: &mut Vec<ArcLock<SharedTensor<f32>>>,
                output_gradient: &mut Vec<ArcLock<SharedTensor<f32>>>) {}
 
+    /// Adjust size of shared workspace.
+    ///
+    /// Is used by layers that need a workspace.
+    /// The layer should either:
+    ///
+    /// - leave the workspace as is if it bigger than required by this layer
+    /// - resize the workspace to the required size if smaller
+    /// - create the workspace if the `workspace` is `None`
+    ///
+    /// The reference to the workspace should be saved in the layer.
+    fn resize_shared_workspace(&mut self, backend: Rc<B>, workspace: Option<ArcLock<SharedTensor<u8>>>) -> Option<ArcLock<SharedTensor<u8>>> {
+        workspace
+    }
+
     /// Compute the [feedforward][1] layer output using the provided Backend.
     /// [1]: https://en.wikipedia.org/wiki/Feedforward_neural_network
     ///
diff --git a/src/layers/activation/relu.rs b/src/layers/activation/relu.rs
@@ -34,9 +34,13 @@ impl<B: IBackend + Relu<f32> + ReluPointwise<f32>> ILayer<B> for ReLU {
         if let Some(inp) = input_data.get(0) {
             let read_inp = inp.read().unwrap();
             let input_desc = read_inp.desc();
+            debug!("ONE");
             input_gradient[0].write().unwrap().resize(input_desc).unwrap();
+            debug!("TWO");
             output_data[0].write().unwrap().resize(input_desc).unwrap();
+            debug!("THREE");
             output_gradient[0].write().unwrap().resize(input_desc).unwrap();
+            debug!("FOUR");
         }
     }
 }
diff --git a/src/layers/common/convolution.rs b/src/layers/common/convolution.rs
@@ -3,10 +3,12 @@
 //! Does this convolution with a set of learnable filters, each producing one
 //! feature map in the output tensor.
 use std::rc::Rc;
+use std::sync::{Arc, RwLock};
 use co::prelude::*;
 use conn;
+use conn::ConvolutionConfig as connConvolutionConfig;
 use layer::*;
-use util::{ArcLock, native_backend, cast_vec_usize_to_i32};
+use util::{ArcLock, cast_vec_usize_to_i32};
 use weight::FillerType;
 use super::FilterLayer;
 
@@ -19,7 +21,8 @@ pub struct Convolution<B: conn::Convolution<f32>> {
     stride: Vec<usize>,
     padding: Vec<usize>,
 
-    convolution_configs: Option<Rc<B::CC>>,
+    workspace: Option<ArcLock<SharedTensor<u8>>>,
+    convolution_config: Option<Rc<B::CC>>,
 }
 
 impl<B: conn::Convolution<f32>> Convolution<B> {
@@ -34,7 +37,8 @@ impl<B: conn::Convolution<f32>> Convolution<B> {
 
             axis: config.axis(),
 
-            convolution_configs: None,
+            workspace: None,
+            convolution_config: None,
         }
     }
 
@@ -103,7 +107,7 @@ impl<B: IBackend + conn::Convolution<f32>> ILayer<B> for Convolution<B> {
     }
 
     fn reshape(&mut self,
-               backend: ::std::rc::Rc<B>,
+               backend: Rc<B>,
                input_data: &mut Vec<ArcLock<SharedTensor<f32>>>,
                input_gradient: &mut Vec<ArcLock<SharedTensor<f32>>>,
                weights_data: &mut Vec<ArcLock<SharedTensor<f32>>>,
@@ -125,12 +129,10 @@ impl<B: IBackend + conn::Convolution<f32>> ILayer<B> for Convolution<B> {
             let stride = cast_vec_usize_to_i32(self.stride_dims(num_spatial_dims));
             let padding = cast_vec_usize_to_i32(self.padding_dims(num_spatial_dims));
 
-            // add copy on native as workaround for bug in new_convolution_config
-            let native = native_backend();
-            let _ = filter.add_device(native.device());
             let config = backend.new_convolution_config(&inp, &output_data, &mut filter,
                                                         conn::ConvForwardAlgo::Auto, conn::ConvBackwardFilterAlgo::Auto, conn::ConvBackwardDataAlgo::Auto,
                                                         &stride, &padding).unwrap();
+
             // resize and fill weights
             weights_data[0].write().unwrap().resize(filter.desc()).unwrap();
             let filler = FillerType::Glorot {
@@ -139,9 +141,27 @@ impl<B: IBackend + conn::Convolution<f32>> ILayer<B> for Convolution<B> {
             };
             filler.fill(&mut weights_data[0].write().unwrap());
             weights_gradient[0].write().unwrap().resize(filter.desc()).unwrap();
-            self.convolution_configs = Some(Rc::new(config));
+            self.convolution_config = Some(Rc::new(config));
         }
     }
+
+    fn resize_shared_workspace(&mut self, backend: Rc<B>, workspace: Option<ArcLock<SharedTensor<u8>>>) -> Option<ArcLock<SharedTensor<u8>>> {
+        let required_size = self.convolution_config.as_ref().unwrap().workspace_size();
+        let new_workspace = if workspace.is_none() {
+            Arc::new(RwLock::new(SharedTensor::<u8>::new(IBackend::device(&*backend), &(required_size)).unwrap()))
+        } else {
+            let old_workspace = workspace.as_ref().unwrap().clone();
+            let old_workspace_size = old_workspace.read().unwrap().capacity();
+            if old_workspace_size < required_size {
+                Arc::new(RwLock::new(SharedTensor::<u8>::new(IBackend::device(&*backend), &(required_size)).unwrap()))
+            } else {
+                workspace.unwrap()
+            }
+        };
+
+        self.workspace = Some(new_workspace.clone());
+        Some(new_workspace)
+    }
 }
 
 impl<B: IBackend + conn::Convolution<f32>> ComputeOutput<f32, B> for Convolution<B> {
@@ -151,8 +171,9 @@ impl<B: IBackend + conn::Convolution<f32>> ComputeOutput<f32, B> for Convolution
                       input_data: &[&SharedTensor<f32>],
                       output_data: &mut [&mut SharedTensor<f32>]) {
         let filter_data = weights[0];
-        let conv_config = self.convolution_configs.as_ref().unwrap();
-        backend.convolution_plain(filter_data, input_data[0], output_data[0], conv_config).unwrap();
+        let conv_config = self.convolution_config.as_ref().unwrap();
+        let mut workspace = self.workspace.as_ref().unwrap().write().unwrap();
+        backend.convolution_plain(filter_data, input_data[0], output_data[0], &mut workspace, conv_config).unwrap();
     }
 }
 
@@ -165,9 +186,10 @@ impl<B: IBackend + conn::Convolution<f32>> ComputeInputGradient<f32, B> for Conv
                               input_data: &[&SharedTensor<f32>],
                               input_gradients: &mut [&mut SharedTensor<f32>]) {
         let filter_data = weights_data[0];
-        let conv_config = self.convolution_configs.as_ref().unwrap();
+        let conv_config = self.convolution_config.as_ref().unwrap();
+        let mut workspace = self.workspace.as_ref().unwrap().write().unwrap();
         // compute gradient w.r.t. input
-        backend.convolution_grad_data_plain(filter_data, output_gradients[0], input_gradients[0], conv_config).unwrap();
+        backend.convolution_grad_data_plain(filter_data, output_gradients[0], input_gradients[0], &mut workspace, conv_config).unwrap();
     }
 }
 
@@ -180,9 +202,10 @@ impl<B: IBackend + conn::Convolution<f32>> ComputeParametersGradient<f32, B> for
                                    parameters_gradients: &mut [&mut SharedTensor<f32>]) {
         // TODO: compute gradient w.r.t to bias
         let filter_gradient = &mut parameters_gradients[0];
-        let conv_config = self.convolution_configs.as_ref().unwrap();
+        let conv_config = self.convolution_config.as_ref().unwrap();
+        let mut workspace = self.workspace.as_ref().unwrap().write().unwrap();
         // compute gradient w.r.t. filter
-        backend.convolution_grad_filter_plain(input_data[0], output_gradients[0], filter_gradient, conv_config).unwrap();
+        backend.convolution_grad_filter_plain(input_data[0], output_gradients[0], filter_gradient, &mut workspace, conv_config).unwrap();
     }
 }
 
diff --git a/src/layers/common/sequential.rs b/src/layers/common/sequential.rs
@@ -94,8 +94,10 @@ impl<B: IBackend + LayerOps<f32> + 'static> Sequential<B> {
             }
         }
 
+        let mut shared_workspace = None;
         for layer_config in &config.layers {
             self.init_layer(backend.clone(), &layer_config, &mut registry, weight_registry);
+            shared_workspace = self.resize_shared_workspace(backend.clone(), shared_workspace);
         }
 
         // Go through the net backwards to determine which blobs contribute to the
@@ -223,6 +225,17 @@ impl<B: IBackend + LayerOps<f32> + 'static> ILayer<B> for Sequential<B> {
         Some(gradients)
     }
 
+    fn resize_shared_workspace(&mut self, backend: Rc<B>, workspace: Option<ArcLock<SharedTensor<u8>>>) -> Option<ArcLock<SharedTensor<u8>>> {
+        debug!("Resizing shared workspace {:?}", workspace.is_some());
+        let mut shared_workspace = workspace;
+
+        for layer in &self.layers {
+            shared_workspace = layer.borrow_mut().worker.resize_shared_workspace(backend.clone(), shared_workspace);
+        }
+
+        shared_workspace
+    }
+
     fn forward(&self,
                backend: &B,
                input_data: &[ArcLock<SharedTensor<f32>>],

Original file line number	Diff line number	Diff line change
`@@ -34,9 +34,13 @@ impl<B: IBackend + Relu<f32> + ReluPointwise<f32>> ILayer<B> for ReLU {`
`34`	`34`	`if let Some(inp) = input_data.get(0) {`
`35`	`35`	`let read_inp = inp.read().unwrap();`
`36`	`36`	`let input_desc = read_inp.desc();`
	`37`	`+ debug!("ONE");`
`37`	`38`	`input_gradient[0].write().unwrap().resize(input_desc).unwrap();`
	`39`	`+ debug!("TWO");`
`38`	`40`	`output_data[0].write().unwrap().resize(input_desc).unwrap();`
	`41`	`+ debug!("THREE");`
`39`	`42`	`output_gradient[0].write().unwrap().resize(input_desc).unwrap();`
	`43`	`+ debug!("FOUR");`
`40`	`44`	`}`
`41`	`45`	`}`
`42`	`46`	`}`