optimize langchain genai integration (#2715)

openvino-dev-samples · web-flow · commit 3bbfd413379d · 2025-02-05T17:55:19.000+04:00
diff --git a/notebooks/llm-rag-langchain/ov_langchain_helper.py b/notebooks/llm-rag-langchain/ov_langchain_helper.py
@@ -62,8 +62,6 @@ def from_model_path(
         model_path: str,
         device: str = "CPU",
         tokenizer: Any = None,
-        draft_model_path: Optional[str] = None,
-        draft_model_device: Optional[str] = "CPU",
         **kwargs: Any,
     ) -> OpenVINOLLM:
         """Construct the oepnvino object from model_path"""
@@ -206,11 +204,7 @@ def put(self, token_id: int) -> bool:
                     return False
                 return super().put(token_id)
 
-        if draft_model_path is not None:
-            draft_model = openvino_genai.draft_model(draft_model_path, draft_model_device)
-            pipe = openvino_genai.LLMPipeline(model_path, device, draft_model=draft_model)
-        else:
-            pipe = openvino_genai.LLMPipeline(model_path, device)
+        pipe = openvino_genai.LLMPipeline(model_path, device, **kwargs)
 
         config = pipe.get_generation_config()
         if tokenizer is None:
@@ -245,7 +239,7 @@ def _call(
             input_ids = tokens["input_ids"]
             attention_mask = tokens["attention_mask"]
             prompt = openvino_genai.TokenizedInputs(ov.Tensor(input_ids), ov.Tensor(attention_mask))
-        output = self.pipe.generate(prompt, self.config)
+        output = self.pipe.generate(prompt, self.config, **kwargs)
         if not isinstance(self.tokenizer, openvino_genai.Tokenizer):
             output = self.tokenizer.batch_decode(output.tokens, skip_special_tokens=True)[0]
         return output
@@ -280,7 +274,7 @@ def generate_and_signal_complete() -> None:
             genration function for single thread
             """
             self.streamer.reset()
-            self.pipe.generate(prompt, self.config, self.streamer)
+            self.pipe.generate(prompt, self.config, self.streamer, **kwargs)
             stream_complete.set()
             self.streamer.end()