[AUR-389] Add base interface and embedding model (#17)

This change provides the base interface of an embedding, and wrap the Langchain's OpenAI embedding. Usage as follow: ```python from kotaemon.embeddings import AzureOpenAIEmbeddings model = AzureOpenAIEmbeddings( model="text-embedding-ada-002", deployment="embedding-deployment", openai_api_base="https://test.openai.azure.com/", openai_api_key="some-key", ) output = model("Hello world") ```
2023-09-14 14:08:58 +07:00
parent 1061192731
commit c339912312
6 changed files with 4772 additions and 3 deletions
--- a/knowledgehub/embeddings/base.py
+++ b/knowledgehub/embeddings/base.py
@@ -0,0 +1,62 @@
+from typing import List, Type
+
+from langchain.embeddings.base import Embeddings as LCEmbeddings
+from theflow import Param
+
+from ..components import BaseComponent
+from ..documents.base import Document
+
+
+class Embeddings(BaseComponent):
+    ...
+
+
+class LangchainEmbeddings(Embeddings):
+    _lc_class: Type[LCEmbeddings]
+
+    def __init__(self, **params):
+        if self._lc_class is None:
+            raise AttributeError(
+                "Should set _lc_class attribute to the LLM class from Langchain "
+                "if using LLM from Langchain"
+            )
+
+        self._kwargs: dict = {}
+        for param in list(params.keys()):
+            if param in self._lc_class.__fields__:  # type: ignore
+                self._kwargs[param] = params.pop(param)
+        super().__init__(**params)
+
+    def __setattr__(self, name, value):
+        if name in self._lc_class.__fields__:
+            setattr(self.agent, name, value)
+        else:
+            super().__setattr__(name, value)
+
+    @Param.decorate(no_cache=True)
+    def agent(self):
+        return self._lc_class(**self._kwargs)
+
+    def run_raw(self, text: str) -> List[float]:
+        return self.agent.embed_query(text)  # type: ignore
+
+    def run_batch_raw(self, text: List[str]) -> List[List[float]]:
+        return self.agent.embed_documents(text)  # type: ignore
+
+    def run_document(self, text: Document) -> List[float]:
+        return self.agent.embed_query(text.text)  # type: ignore
+
+    def run_batch_document(self, text: List[Document]):
+        return self.agent.embed_documents([each.text for each in text])  # type: ignore
+
+    def is_document(self, text) -> bool:
+        if isinstance(text, Document):
+            return True
+        elif isinstance(text, List) and isinstance(text[0], Document):
+            return True
+        return False
+
+    def is_batch(self, text) -> bool:
+        if isinstance(text, list):
+            return True
+        return False
--- a/knowledgehub/embeddings/openai.py
+++ b/knowledgehub/embeddings/openai.py
@@ -0,0 +1,15 @@
+from langchain.embeddings import OpenAIEmbeddings as LCOpenAIEmbeddings
+
+from .base import LangchainEmbeddings
+
+
+class OpenAIEmbeddings(LangchainEmbeddings):
+    _lc_class = LCOpenAIEmbeddings
+
+
+class AzureOpenAIEmbeddings(LangchainEmbeddings):
+    _lc_class = LCOpenAIEmbeddings
+
+    def __init__(self, **params):
+        params["openai_api_type"] = "azure"
+        super().__init__(**params)
--- a/knowledgehub/llms/chats/base.py
+++ b/knowledgehub/llms/chats/base.py
@@ -30,8 +30,8 @@ class LangchainChatLLM(ChatLLM):
                self._kwargs[param] = params.pop(param)
        super().__init__(**params)

-    @Param.decorate()
-    def agent(self):
+    @Param.decorate(no_cache=True)
+    def agent(self) -> BaseLanguageModel:
        return self._lc_class(**self._kwargs)

    def run_raw(self, text: str) -> LLMInterface:
@@ -43,7 +43,7 @@ class LangchainChatLLM(ChatLLM):
        return self.run_batch_document(inputs)

    def run_document(self, text: List[Message]) -> LLMInterface:
-        pred = self.agent.generate([text])
+        pred = self.agent.generate([text])  # type: ignore
        return LLMInterface(
            text=[each.text for each in pred.generations[0]],
            completion_tokens=pred.llm_output["token_usage"]["completion_tokens"],