fix/sgd: initialize weight gradient history with zeroes

alexandermorozov · alexandermorozov · commit 68689955c29c · 2016-03-21T16:23:32.000+03:00
SGD solver used unintialized history tensors. If there were some NaNs then whole network got poisoned after the first generation even if momentum was set to zero. This patch prefills gradient history with zeros. FIX: autumnai/leaf-examples#13
diff --git a/src/solvers/sgd/mod.rs b/src/solvers/sgd/mod.rs
@@ -31,7 +31,13 @@ macro_rules! impl_isolver_sgd {
 
                 for weight_gradient in net.learnable_weights_gradients() {
                     let shape = weight_gradient.read().unwrap().desc().clone();
-                    let history_tensor = Arc::new(RwLock::new(SharedTensor::new(IBackend::device(&*self.backend), &shape).unwrap()));
+                    let mut tensor = SharedTensor::new(IBackend::device(&*self.backend),
+                                                       &shape).unwrap();
+
+                    let filler = ::weight::FillerType::Constant { value: 0f32 };
+                    filler.fill(&mut tensor);
+
+                    let history_tensor = Arc::new(RwLock::new(tensor));
                     self.history.push(history_tensor);
                 }
             }

Original file line number	Diff line number	Diff line change
`@@ -31,7 +31,13 @@ macro_rules! impl_isolver_sgd {`
`31`	`31`
`32`	`32`	`for weight_gradient in net.learnable_weights_gradients() {`
`33`	`33`	`let shape = weight_gradient.read().unwrap().desc().clone();`
`34`		`- let history_tensor = Arc::new(RwLock::new(SharedTensor::new(IBackend::device(&*self.backend), &shape).unwrap()));`
	`34`	`+ let mut tensor = SharedTensor::new(IBackend::device(&*self.backend),`
	`35`	`+ &shape).unwrap();`
	`36`	`+`
	`37`	`+ let filler = ::weight::FillerType::Constant { value: 0f32 };`
	`38`	`+ filler.fill(&mut tensor);`
	`39`	`+`
	`40`	`+ let history_tensor = Arc::new(RwLock::new(tensor));`
`35`	`41`	`self.history.push(history_tensor);`
`36`	`42`	`}`
`37`	`43`	`}`