Merge branch 'main' into tasks/#41_assistant_base_tests

2026-03-18 13:07:27 +00:00 · 2023-10-12 16:21:50 +01:00
parent 5fdc5d676f 20f93cd510
commit fed97f81ad
31 changed files with 740 additions and 1577 deletions
--- a/src/assistant/.env.example
+++ b/src/assistant/.env.example
@@ -5,6 +5,12 @@ POSTGRES_USER=user
 POSTGRES_PASSWORD=Qwe123
 POSTGRES_DB_NAME=api_db

+PROXY_HOST=255.255.255.255
+PROXY_PORT=8888
+PROXY_USER=YOUR_USER
+PROXY_PASSWORD=YOUR_PASSWORD
+PROXY_ENABLE=False
+
 NGINX_PORT=80
 API_HOST=0.0.0.0
 API_PORT=8000
@@ -17,3 +23,10 @@ JWT_SECRET_KEY=v9LctjUWwol4XbvczPiLFMDtZ8aal7mm
 JWT_ALGORITHM=HS256

 APP_RELOAD=True
+
+VOICE_AVAILABLE_FORMATS=mp3,ogg,wav
+VOICE_MAX_INPUT_SIZE=5120  # 5MB
+VOICE_MAX_INPUT_SECONDS=30
+
+OPENAI_API_KEY=sk-1234567890
+OPENAI_STT_MODEL=whisper-1
--- a/src/assistant/lib/app/app.py
+++ b/src/assistant/lib/app/app.py
@@ -11,6 +11,7 @@ import lib.app.errors as app_errors
 import lib.app.settings as app_settings
 import lib.app.split_settings as app_split_settings
 import lib.clients as clients
+import lib.stt as stt

 logger = logging.getLogger(__name__)

@@ -57,9 +58,21 @@ class Application:

        logger.info("Initializing clients")

+        http_yandex_tts_client = clients.AsyncHttpClient(
+            base_url="yandex",  # todo add yandex api url from settings
+            proxy_settings=settings.proxy,
+        )
+        disposable_resources.append(
+            DisposableResource(
+                name="http_client yandex",
+                dispose_callback=http_yandex_tts_client.close(),
+            )
+        )
+
        # Repositories

        logger.info("Initializing repositories")
+        stt_repository: stt.STTProtocol = stt.OpenaiSpeechRepository(settings=settings)

        # Caches

@@ -68,6 +81,7 @@ class Application:
        # Services

        logger.info("Initializing services")
+        stt_service: stt.SpeechService = stt.SpeechService(repository=stt_repository)  # type: ignore

        # Handlers

--- a/src/assistant/lib/app/settings.py
+++ b/src/assistant/lib/app/settings.py
@@ -13,6 +13,12 @@ class Settings(pydantic_settings.BaseSettings):
    logger: app_split_settings.LoggingSettings = pydantic.Field(
        default_factory=lambda: app_split_settings.LoggingSettings()
    )
+    openai: app_split_settings.OpenaiSettings = pydantic.Field(
+        default_factory=lambda: app_split_settings.OpenaiSettings()
+    )
    project: app_split_settings.ProjectSettings = pydantic.Field(
        default_factory=lambda: app_split_settings.ProjectSettings()
    )
+
+    proxy: app_split_settings.ProxySettings = pydantic.Field(default_factory=lambda: app_split_settings.ProxySettings())
+    voice: app_split_settings.VoiceSettings = pydantic.Field(default_factory=lambda: app_split_settings.VoiceSettings())
--- a/src/assistant/lib/app/split_settings/init.py
+++ b/src/assistant/lib/app/split_settings/init.py
@@ -1,14 +1,20 @@
 from .api import *
 from .app import *
 from .logger import *
+from .openai import *
 from .postgres import *
 from .project import *
+from .proxy import *
+from .voice import *

 __all__ = [
    "ApiSettings",
    "AppSettings",
    "LoggingSettings",
+    "OpenaiSettings",
    "PostgresSettings",
    "ProjectSettings",
+    "ProxySettings",
+    "VoiceSettings",
    "get_logging_config",
 ]
--- a/src/assistant/lib/app/split_settings/logger.py
+++ b/src/assistant/lib/app/split_settings/logger.py
@@ -5,7 +5,9 @@ import lib.app.split_settings.utils as app_split_settings_utils

 class LoggingSettings(pydantic_settings.BaseSettings):
    model_config = pydantic_settings.SettingsConfigDict(
-        env_file=app_split_settings_utils.ENV_PATH, env_file_encoding="utf-8", extra="ignore"
+        env_file=app_split_settings_utils.ENV_PATH,
+        env_file_encoding="utf-8",
+        extra="ignore",
    )

    log_format: str = "%(asctime)s - %(name)s - %(levelname)s - %(message)s"
--- a/src/assistant/lib/app/split_settings/openai.py
+++ b/src/assistant/lib/app/split_settings/openai.py
@@ -0,0 +1,18 @@
+import pydantic
+import pydantic_settings
+
+import lib.app.split_settings.utils as app_split_settings_utils
+
+
+class OpenaiSettings(pydantic_settings.BaseSettings):
+    model_config = pydantic_settings.SettingsConfigDict(
+        env_file=app_split_settings_utils.ENV_PATH,
+        env_prefix="OPENAI_",
+        env_file_encoding="utf-8",
+        extra="ignore",
+    )
+
+    api_key: pydantic.SecretStr = pydantic.Field(
+        default=..., validation_alias=pydantic.AliasChoices("api_key", "openai_api_key")
+    )
+    stt_model: str = "whisper-1"
--- a/src/assistant/lib/app/split_settings/proxy.py
+++ b/src/assistant/lib/app/split_settings/proxy.py
@@ -0,0 +1,43 @@
+import typing
+
+import pydantic
+import pydantic_settings
+
+import lib.app.split_settings.utils as app_split_settings_utils
+
+
+class ProxySettings(pydantic_settings.BaseSettings):
+    model_config = pydantic_settings.SettingsConfigDict(
+        env_file=app_split_settings_utils.ENV_PATH,
+        env_prefix="PROXY_",
+        env_file_encoding="utf-8",
+        extra="ignore",
+    )
+    protocol: typing.Literal["http", "socks5"] = "http"
+    user: str | None = None
+    password: pydantic.SecretStr | None = None
+    host: str | None = None
+    port: int | None = None
+    enable: bool = False
+
+    @property
+    def dsn(self) -> str:
+        if self.user and self.password:
+            password = self.password.get_secret_value()
+            return f"{self.protocol}://{self.user}:{password}@{self.host}:{self.port}"
+        return f"{self.protocol}://{self.host}:{self.port}"
+
+    @pydantic.computed_field
+    @property
+    def dsn_as_safe_url(self) -> str:
+        if self.user and self.password:
+            return f"{self.protocol}://{self.user}:{self.password}@{self.host}:{self.port}"
+        return f"{self.protocol}://{self.host}:{self.port}"
+
+    @pydantic.model_validator(mode="after")
+    def check_proxy(self):
+        if not self.enable:
+            return self
+        if self.host and self.port:
+            return self
+        raise ValueError("Proxy settings must be set if use_proxy is True")
--- a/src/assistant/lib/app/split_settings/voice.py
+++ b/src/assistant/lib/app/split_settings/voice.py
@@ -0,0 +1,21 @@
+import pydantic
+import pydantic_settings
+
+import lib.app.split_settings.utils as app_split_settings_utils
+
+
+class VoiceSettings(pydantic_settings.BaseSettings):
+    model_config = pydantic_settings.SettingsConfigDict(
+        env_file=app_split_settings_utils.ENV_PATH,
+        env_prefix="VOICE_",
+        env_file_encoding="utf-8",
+        extra="ignore",
+    )
+
+    max_input_seconds: int = 30
+    max_input_size: int = 5120  # 5MB
+    available_formats: str = "wav,mp3,ogg"
+
+    @pydantic.field_validator("available_formats")
+    def validate_available_formats(cls, v: str) -> list[str]:
+        return v.split(",")
--- a/src/assistant/lib/clients/init.py
+++ b/src/assistant/lib/clients/init.py
@@ -1,3 +1,7 @@
+from .http_client import AsyncHttpClient
 from .postgres import AsyncPostgresClient

-__all__ = ["AsyncPostgresClient"]
+__all__ = [
+    "AsyncHttpClient",
+    "AsyncPostgresClient",
+]
--- a/src/assistant/lib/clients/http_client.py
+++ b/src/assistant/lib/clients/http_client.py
@@ -0,0 +1,29 @@
+import typing
+
+import httpx
+
+import lib.app.split_settings as app_split_settings
+
+
+class AsyncHttpClient(httpx.AsyncClient):
+    def __init__(
+        self,
+        proxy_settings: app_split_settings.ProxySettings,
+        base_url: str | None = None,
+        **client_params: typing.Any,
+    ) -> None:
+        self.base_url = base_url if base_url else ""
+        self.proxy_settings = proxy_settings
+        self.proxies = self.__get_proxies_from_settings()
+        self.client_params = client_params
+
+        super().__init__(base_url=self.base_url, proxies=self.proxies, **client_params)  # type: ignore[reportGeneralTypeIssues]
+
+    def __get_proxies_from_settings(self) -> dict[str, str] | None:
+        if not self.proxy_settings.enable:
+            return None
+        proxies = {"all://": self.proxy_settings.dsn}
+        return proxies
+
+    async def close(self) -> None:
+        await self.aclose()
--- a/src/assistant/lib/models/init.py
+++ b/src/assistant/lib/models/init.py
@@ -1,4 +1,20 @@
 from .orm import Base, IdCreatedUpdatedBaseMixin
 from .token import Token
+from .tts import *

-__all__ = ["Base", "IdCreatedUpdatedBaseMixin", "Token"]
+__all__ = [
+    "AVAILABLE_MODELS_TYPE",
+    "Base",
+    "BaseLanguageCodesEnum",
+    "BaseVoiceModel",
+    "ElevenLabsLanguageCodesEnum",
+    "IdCreatedUpdatedBaseMixin",
+    "LANGUAGE_CODES_ENUM_TYPE",
+    "LIST_VOICE_MODELS_TYPE",
+    "TTSCreateRequestModel",
+    "TTSCreateResponseModel",
+    "TTSSearchVoiceRequestModel",
+    "Token",
+    "VoiceModelProvidersEnum",
+    "YandexLanguageCodesEnum",
+]
--- a/src/assistant/lib/models/tts/init.py
+++ b/src/assistant/lib/models/tts/init.py
@@ -0,0 +1,16 @@
+from .models import *
+from .voice import *
+
+__all__ = [
+    "AVAILABLE_MODELS_TYPE",
+    "BaseLanguageCodesEnum",
+    "BaseVoiceModel",
+    "ElevenLabsLanguageCodesEnum",
+    "LANGUAGE_CODES_ENUM_TYPE",
+    "LIST_VOICE_MODELS_TYPE",
+    "TTSCreateRequestModel",
+    "TTSCreateResponseModel",
+    "TTSSearchVoiceRequestModel",
+    "VoiceModelProvidersEnum",
+    "YandexLanguageCodesEnum",
+]
--- a/src/assistant/lib/models/tts/models.py
+++ b/src/assistant/lib/models/tts/models.py
@@ -0,0 +1,31 @@
+import pydantic
+
+import lib.models.tts.voice as models_tts_voice
+import lib.models.tts.voice.languages as models_tts_languages
+
+AVAILABLE_MODELS_TYPE = models_tts_voice.YandexVoiceModel | models_tts_voice.ElevenLabsVoiceModel
+LIST_VOICE_MODELS_TYPE = models_tts_voice.YandexListVoiceModelsModel | models_tts_voice.ElevenLabsListVoiceModelsModel
+
+
+class TTSCreateRequestModel(pydantic.BaseModel):
+    model_config = pydantic.ConfigDict(use_enum_values=True)
+
+    voice_model: AVAILABLE_MODELS_TYPE
+    text: str
+
+
+class TTSCreateResponseModel(pydantic.BaseModel):
+    audio_content: bytes
+
+
+class TTSSearchVoiceRequestModel(pydantic.BaseModel):
+    voice_id: str | None = None
+    voice_name: str | None = None
+    languages: list[models_tts_languages.LANGUAGE_CODES_ENUM_TYPE] | None = None
+    company_name: str | None = None
+
+    @pydantic.model_validator(mode="after")
+    def check_at_least_one_field(self):
+        if not any((self.voice_name, self.languages, self.company_name)):
+            raise ValueError("At least one field required")
+        return self
--- a/src/assistant/lib/models/tts/voice/init.py
+++ b/src/assistant/lib/models/tts/voice/init.py
@@ -0,0 +1,17 @@
+from .base import *
+from .eleven_labs import *
+from .languages import *
+from .yandex import *
+
+__all__ = [
+    "BaseLanguageCodesEnum",
+    "BaseVoiceModel",
+    "ElevenLabsLanguageCodesEnum",
+    "ElevenLabsListVoiceModelsModel",
+    "ElevenLabsVoiceModel",
+    "LANGUAGE_CODES_ENUM_TYPE",
+    "VoiceModelProvidersEnum",
+    "YandexLanguageCodesEnum",
+    "YandexListVoiceModelsModel",
+    "YandexVoiceModel",
+]
--- a/src/assistant/lib/models/tts/voice/base.py
+++ b/src/assistant/lib/models/tts/voice/base.py
@@ -0,0 +1,27 @@
+import enum
+import typing
+
+import pydantic
+
+import lib.models.tts.voice.languages as models_tts_languages
+
+
+class VoiceModelProvidersEnum(enum.Enum):
+    YANDEX = "yandex"
+    ELEVEN_LABS = "eleven_labs"
+
+
+class BaseVoiceModel(pydantic.BaseModel):
+    voice_id: str
+    voice_name: str | None = None
+    languages: list[models_tts_languages.LANGUAGE_CODES_ENUM_TYPE]
+    provider: VoiceModelProvidersEnum
+
+    @pydantic.model_validator(mode="before")
+    @classmethod
+    def check_voice_name_exists(cls, data: typing.Any) -> typing.Any:
+        voice_id = data.get("voice_id")
+        voice_name = data.get("voice_name")
+        if not voice_name and voice_id:
+            data["voice_name"] = voice_id
+        return data
--- a/src/assistant/lib/models/tts/voice/eleven_labs.py
+++ b/src/assistant/lib/models/tts/voice/eleven_labs.py
@@ -0,0 +1,75 @@
+import typing
+
+import pydantic
+
+import lib.models.tts.voice.base as models_tts_base
+import lib.models.tts.voice.languages as models_tts_languages
+
+
+class ElevenLabsVoiceModel(models_tts_base.BaseVoiceModel):
+    model_config = pydantic.ConfigDict(use_enum_values=True)
+    voice_id: str
+    voice_name: str | None = None
+    languages: list[models_tts_languages.LANGUAGE_CODES_ENUM_TYPE]
+    provider: models_tts_base.VoiceModelProvidersEnum = models_tts_base.VoiceModelProvidersEnum.ELEVEN_LABS
+
+
+class ElevenLabsListVoiceModelsModel(pydantic.BaseModel):
+    models: list[ElevenLabsVoiceModel] = [
+        ElevenLabsVoiceModel(
+            voice_id="eleven_multilingual_v1",
+            languages=[
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ENGLISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.GERMAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.POLISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.SPANISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ITALIAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.FRENCH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.PORTUGUESE,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.HINDI,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ARABIC,
+            ],
+        ),
+        ElevenLabsVoiceModel(
+            voice_id="eleven_multilingual_v2",
+            languages=[
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ENGLISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.JAPANESE,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.CHINESE,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.GERMAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.HINDI,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.FRENCH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.KOREAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.PORTUGUESE,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ITALIAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.SPANISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.INDONESIAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.DUTCH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.TURKISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.FILIPINO,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.POLISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.SWEDISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.BULGARIAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ROMANIAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.ARABIC,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.CZECH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.GREEK,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.FINNISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.CROATIAN,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.MALAY,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.SLOVAK,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.DANISH,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.TAMIL,
+                models_tts_languages.ElevenLabsLanguageCodesEnum.UKRAINIAN,
+            ],
+        ),
+        ElevenLabsVoiceModel(
+            voice_id="eleven_multilingual_v2",
+            languages=[models_tts_languages.ElevenLabsLanguageCodesEnum.ENGLISH],
+        ),
+    ]
+
+    @classmethod
+    def from_api(cls, voice_models_from_api: list[dict[str, typing.Any]]) -> typing.Self:
+        voice_models = [ElevenLabsVoiceModel.model_validate(voice_model) for voice_model in voice_models_from_api]
+        return ElevenLabsListVoiceModelsModel(models=voice_models)
--- a/src/assistant/lib/models/tts/voice/languages.py
+++ b/src/assistant/lib/models/tts/voice/languages.py
@@ -0,0 +1,83 @@
+import enum
+
+
+class BaseLanguageCodesEnum(enum.Enum):
+    RUSSIAN = "ru"
+    ENGLISH = "en"
+    KAZAKH = "kk"
+    GERMAN = "de"
+    HEBREW = "he"
+    UZBEK = "uz"
+    JAPANESE = "ja"
+    CHINESE = "zh"
+    HINDI = "hi"
+    FRENCH = "fr"
+    KOREAN = "ko"
+    PORTUGUESE = "pt"
+    ITALIAN = "it"
+    SPANISH = "es"
+    INDONESIAN = "id"
+    DUTCH = "nl"
+    TURKISH = "tr"
+    FILIPINO = "fil"
+    POLISH = "pl"
+    SWEDISH = "sv"
+    BULGARIAN = "bg"
+    ROMANIAN = "ro"
+    ARABIC = "ar"
+    CZECH = "cs"
+    GREEK = "el"
+    FINNISH = "fi"
+    CROATIAN = "hr"
+    MALAY = "ms"
+    SLOVAK = "sk"
+    DANISH = "da"
+    TAMIL = "ta"
+    UKRAINIAN = "uk"
+
+
+class ElevenLabsLanguageCodesEnum(enum.Enum):
+    RUSSIAN = "ru"
+    ENGLISH = "en"
+    KAZAKH = "kk"
+    GERMAN = "de"
+    HEBREW = "he"
+    UZBEK = "uz"
+    JAPANESE = "ja"
+    CHINESE = "zh"
+    HINDI = "hi"
+    FRENCH = "fr"
+    KOREAN = "ko"
+    PORTUGUESE = "pt"
+    ITALIAN = "it"
+    SPANISH = "es"
+    INDONESIAN = "id"
+    DUTCH = "nl"
+    TURKISH = "tr"
+    FILIPINO = "fil"
+    POLISH = "pl"
+    SWEDISH = "sv"
+    BULGARIAN = "bg"
+    ROMANIAN = "ro"
+    ARABIC = "ar"
+    CZECH = "cs"
+    GREEK = "el"
+    FINNISH = "fi"
+    CROATIAN = "hr"
+    MALAY = "ms"
+    SLOVAK = "sk"
+    DANISH = "da"
+    TAMIL = "ta"
+    UKRAINIAN = "uk"
+
+
+class YandexLanguageCodesEnum(enum.Enum):
+    RUSSIAN = "ru-RU"
+    ENGLISH = "en-US"
+    KAZAKH = "kk-KK"
+    GERMAN = "de-DE"
+    HEBREW = "he-IL"
+    UZBEK = "uz-UZ"
+
+
+LANGUAGE_CODES_ENUM_TYPE = BaseLanguageCodesEnum | ElevenLabsLanguageCodesEnum | YandexLanguageCodesEnum
--- a/src/assistant/lib/models/tts/voice/yandex.py
+++ b/src/assistant/lib/models/tts/voice/yandex.py
@@ -0,0 +1,97 @@
+import typing
+
+import pydantic
+
+import lib.models.tts.voice.base as models_tts_base
+import lib.models.tts.voice.languages as models_tts_languages
+
+
+class YandexVoiceModel(models_tts_base.BaseVoiceModel):
+    voice_id: str
+    voice_name: str | None = None
+    languages: list[models_tts_languages.LANGUAGE_CODES_ENUM_TYPE]
+    provider: models_tts_base.VoiceModelProvidersEnum = models_tts_base.VoiceModelProvidersEnum.YANDEX
+    role: str | None = None
+
+    @pydantic.model_validator(mode="before")
+    @classmethod
+    def check_voice_name_exists(cls, data: typing.Any) -> typing.Any:
+        voice_id = data.get("voice_id")
+        voice_name = data.get("voice_name")
+        role = data.get("role")
+        if not voice_name and voice_id:
+            data["voice_name"] = f"{voice_id} {role}" if role else voice_id
+        return data
+
+
+class YandexListVoiceModelsModel(pydantic.BaseModel):
+    models: list[YandexVoiceModel] = [
+        YandexVoiceModel(
+            voice_id="ermil", role="neutral", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="ermil", role="good", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="alena", role="neutral", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="alena", role="good", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="jane", role="neutral", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="jane", role="good", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="jane", role="evil", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="omazh", role="neutral", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="omazh", role="evil", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="zahar", role="neutral", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="zahar", role="good", languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="filipp", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="madirus", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(voice_id="dasha", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]),
+        YandexVoiceModel(voice_id="julia", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]),
+        YandexVoiceModel(voice_id="lera", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]),
+        YandexVoiceModel(
+            voice_id="marina", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="alexander", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(
+            voice_id="kirill", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]
+        ),
+        YandexVoiceModel(voice_id="anton", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.RUSSIAN]),
+        YandexVoiceModel(voice_id="john", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.ENGLISH]),
+        YandexVoiceModel(voice_id="amira", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.KAZAKH]),
+        YandexVoiceModel(voice_id="madi", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.KAZAKH]),
+        YandexVoiceModel(voice_id="lea", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.GERMAN]),
+        YandexVoiceModel(
+            voice_id="naomi", role="modern", languages=[models_tts_languages.YandexLanguageCodesEnum.HEBREW]
+        ),
+        YandexVoiceModel(
+            voice_id="naomi", role="classic", languages=[models_tts_languages.YandexLanguageCodesEnum.HEBREW]
+        ),
+        YandexVoiceModel(voice_id="nigora", role=None, languages=[models_tts_languages.YandexLanguageCodesEnum.UZBEK]),
+    ]
+
+    @classmethod
+    def from_api(cls, voice_models_from_api: list[dict[str, typing.Any]]) -> typing.Self:
+        voice_models = [YandexVoiceModel.model_validate(voice_model) for voice_model in voice_models_from_api]
+        return YandexListVoiceModelsModel(models=voice_models)
--- a/src/assistant/lib/stt/init.py
+++ b/src/assistant/lib/stt/init.py
@@ -0,0 +1,10 @@
+from .models import *
+from .repositories import *
+from .services import *
+
+__all__ = [
+    "OpenaiSpeechRepository",
+    "STTProtocol",
+    "SpeechService",
+    "SttVoice",
+]
--- a/src/assistant/lib/stt/models.py
+++ b/src/assistant/lib/stt/models.py
@@ -0,0 +1,25 @@
+import typing
+
+import pydantic
+
+import lib.app.split_settings as app_split_settings
+
+
+class SttVoice(pydantic.BaseModel):
+    audio_size: int
+    audio_format: str
+    audio_name: str = "voice"
+    audio_data: bytes
+    voice_settings: app_split_settings.VoiceSettings
+
+    @pydantic.model_validator(mode="before")
+    @classmethod
+    def validate_audio(cls, v: dict[str, typing.Any]) -> dict[str, typing.Any]:
+        settings: app_split_settings.VoiceSettings = v["voice_settings"]
+        if v["audio_size"] > settings.max_input_size:
+            raise ValueError(f"Audio size is too big: {v['audio_size']}")
+        if v["audio_format"] not in settings.available_formats:
+            raise ValueError(f"Audio format is not supported: {v['audio_format']}")
+        if "audio_name" not in v or not v["audio_name"]:
+            v["audio_name"] = f"audio.{v['audio_format']}"
+        return v
--- a/src/assistant/lib/stt/repositories.py
+++ b/src/assistant/lib/stt/repositories.py
@@ -0,0 +1,47 @@
+import mimetypes
+import tempfile
+
+import magic
+import openai
+
+import lib.app.settings as app_settings
+import lib.stt as stt
+
+
+class OpenaiSpeechRepository:
+    def __init__(self, settings: app_settings.Settings):
+        self.settings = settings
+        openai.api_key = self.settings.openai.api_key.get_secret_value()
+
+    @staticmethod
+    def __get_file_extension_from_bytes(audio: bytes) -> str | None:
+        mime: magic.Magic = magic.Magic(mime=True)
+        mime_type: str = mime.from_buffer(audio)
+        extension: str | None = mimetypes.guess_extension(mime_type)
+        if extension:
+            extension = extension.replace(".", "")
+        return extension
+
+    async def speech_to_text(self, audio: bytes) -> str:
+        file_extension = self.__get_file_extension_from_bytes(audio)
+        if not file_extension:
+            raise ValueError("File extension is not supported")
+
+        voice: stt.models.SttVoice = stt.models.SttVoice(
+            audio_size=len(audio) // 1024,  # audio size in MB,
+            audio_format=file_extension,
+            audio_data=audio,
+            voice_settings=self.settings.voice,
+        )
+
+        try:
+            with tempfile.NamedTemporaryFile(suffix=f".{file_extension}") as temp_file:
+                temp_file.write(voice.audio_data)
+                temp_file.seek(0)
+                transcript = openai.Audio.transcribe(self.settings.openai.stt_model, temp_file)  # type: ignore
+        except openai.error.InvalidRequestError as e:  # type: ignore[reportGeneralTypeIssues]
+            raise ValueError(f"OpenAI API error: {e}")
+        except openai.error.OpenAIError as e:  # type: ignore[reportGeneralTypeIssues]
+            raise ValueError(f"OpenAI API error: {e}")
+
+        return transcript.text  # type: ignore[reportUnknownVariableType]
--- a/src/assistant/lib/stt/services.py
+++ b/src/assistant/lib/stt/services.py
@@ -0,0 +1,14 @@
+import typing
+
+
+class STTProtocol(typing.Protocol):
+    async def speech_to_text(self, audio: bytes) -> str:
+        ...
+
+
+class SpeechService:
+    def __init__(self, repository: STTProtocol):
+        self.repository = repository
+
+    async def recognize(self, audio: bytes) -> str:
+        return await self.repository.speech_to_text(audio)
--- a/src/assistant/lib/tts/init.py
+++ b/src/assistant/lib/tts/init.py
--- a/src/assistant/lib/tts/models/init.py
+++ b/src/assistant/lib/tts/models/init.py
@@ -0,0 +1,5 @@
+from .protocols import *
+
+__all__ = [
+    "TTSRepositoryProtocol",
+]
--- a/src/assistant/lib/tts/models/protocols.py
+++ b/src/assistant/lib/tts/models/protocols.py
@@ -0,0 +1,14 @@
+import typing
+
+import lib.models as models
+
+
+class TTSRepositoryProtocol(typing.Protocol):
+    def get_audio_as_bytes(self, request: models.TTSCreateRequestModel) -> models.TTSCreateResponseModel:
+        ...
+
+    def get_voice_model_by_name(self, voice_model_name: str) -> models.BaseVoiceModel | None:
+        ...
+
+    def get_voice_models_by_fields(self, fields: models.TTSSearchVoiceRequestModel) -> models.LIST_VOICE_MODELS_TYPE:
+        ...
--- a/src/assistant/lib/tts/repositories/init.py
+++ b/src/assistant/lib/tts/repositories/init.py
@@ -0,0 +1,5 @@
+from .base import *
+
+__all__ = [
+    "TTSBaseRepository",
+]
--- a/src/assistant/lib/tts/repositories/base.py
+++ b/src/assistant/lib/tts/repositories/base.py
@@ -0,0 +1,57 @@
+import abc
+
+import lib.models as models
+
+
+class HttpClient:  # Mocked class todo remove and use real http client from lib.clients.http_client
+    ...
+
+
+class TTSBaseRepository(abc.ABC):
+    def __init__(self, client: HttpClient, is_models_from_api: bool = False):
+        self.http_client = client
+        self.is_models_from_api = is_models_from_api
+
+    @property
+    @abc.abstractmethod
+    def voice_models(self) -> models.LIST_VOICE_MODELS_TYPE:
+        ...
+
+    @abc.abstractmethod
+    def get_audio_as_bytes(self, request: models.TTSCreateRequestModel) -> models.TTSCreateResponseModel:
+        raise NotImplementedError
+
+    def get_voice_model_by_name(self, voice_model_name: str) -> models.BaseVoiceModel | None:
+        """
+        Search voice model by name
+        :param voice_model_name: String name
+        :return: Voice model that match the name
+        """
+        for voice_model in self.voice_models.models:
+            if voice_model.voice_name == voice_model_name:
+                return voice_model
+
+    def get_list_voice_models_by_fields(
+        self, fields: models.TTSSearchVoiceRequestModel
+    ) -> list[models.AVAILABLE_MODELS_TYPE]:
+        """
+        Search voice model by fields
+        :param fields: Any fields from TTSSearchVoiceRequestModel
+        :return: All voice models that match the fields
+        """
+        fields_dump = fields.model_dump(exclude_none=True)
+        voice_models_response = []
+        for voice_model in self.voice_models.models:
+            for field, field_value in fields_dump.items():
+                if field == "languages":  # language is a list
+                    language_names: set[str] = {item.name for item in field_value}
+                    voice_model_language_names: set[str] = {item.name for item in voice_model.languages}
+                    if language_names.issubset(voice_model_language_names):
+                        continue
+                    break
+                voice_model_dump = voice_model.model_dump()
+                if voice_model_dump[field] != field_value.name:
+                    break
+            else:
+                voice_models_response.append(voice_model)
+        return voice_models_response  # type: ignore[reportUnknownVariableType]
--- a/src/assistant/lib/tts/services.py
+++ b/src/assistant/lib/tts/services.py
@@ -0,0 +1,35 @@
+import lib.app.settings as app_settings
+import lib.models as models
+import lib.tts.models as tts_models
+
+
+class TTSService:
+    def __init__(
+        self,
+        settings: app_settings.Settings,
+        repositories: dict[models.VoiceModelProvidersEnum, tts_models.TTSRepositoryProtocol],
+    ):
+        self.settings = settings
+        self.repositories = repositories
+
+    def get_audio_as_bytes(self, request: models.TTSCreateRequestModel) -> models.TTSCreateResponseModel:
+        model = request.voice_model
+        repository = self.repositories[model.provider]
+        audio_response = repository.get_audio_as_bytes(request)
+        return audio_response
+
+    def get_voice_model_by_name(self, voice_model_name: str) -> models.BaseVoiceModel | None:
+        for repository in self.repositories.values():
+            voice_model = repository.get_voice_model_by_name(voice_model_name)
+            if voice_model:
+                return voice_model
+
+    def get_list_voice_models_by_fields(
+        self, fields: models.TTSSearchVoiceRequestModel
+    ) -> list[models.AVAILABLE_MODELS_TYPE]:
+        response_models: list[models.AVAILABLE_MODELS_TYPE] = []
+        for repository in self.repositories.values():
+            voice_models = repository.get_voice_models_by_fields(fields)
+            if voice_models.models:
+                response_models.extend(voice_models.models)
+        return response_models
--- a/src/assistant/poetry.lock
+++ b/src/assistant/poetry.lock
--- a/src/assistant/pyproject.toml
+++ b/src/assistant/pyproject.toml
@@ -27,7 +27,8 @@ fastapi = "0.103.1"
 greenlet = "^2.0.2"
 httpx = "^0.25.0"
 multidict = "^6.0.4"
-orjson = "^3.9.7"
+openai = "^0.28.1"
+orjson = "3.9.7"
 psycopg2-binary = "^2.9.9"
 pydantic = {extras = ["email"], version = "^2.3.0"}
 pydantic-settings = "^2.0.3"
@@ -35,6 +36,7 @@ pytest = "^7.4.2"
 pytest-asyncio = "^0.21.1"
 python = "^3.11"
 python-jose = "^3.3.0"
+python-magic = "^0.4.27"
 sqlalchemy = "^2.0.20"
 uvicorn = "^0.23.2"
 wrapt = "^1.15.0"
--- a/src/template/lib/app/split_settings/logger.py
+++ b/src/template/lib/app/split_settings/logger.py
@@ -1,11 +1,12 @@
-import pydantic_settings
-
 import lib.app.split_settings.utils as app_split_settings_utils
+import pydantic_settings


 class LoggingSettings(pydantic_settings.BaseSettings):
    model_config = pydantic_settings.SettingsConfigDict(
-        env_file=app_split_settings_utils.ENV_PATH, env_file_encoding="utf-8", extra="ignore"
+        env_file=app_split_settings_utils.ENV_PATH,
+        env_file_encoding="utf-8",
+        extra="ignore",
    )

    log_format: str = "%(asctime)s - %(name)s - %(levelname)s - %(message)s"