Combining Search and Chat Backend (#3273)

* k * k * fix slack issues * rebase * k
2025-04-01 16:38:11 +02:00 · 2024-12-03 14:37:14 -08:00 · 2024-12-03 14:37:14 -08:00 · aa1c4c635a
commit aa1c4c635a
parent 13f6e8a6b4
47 changed files with 762 additions and 1655 deletions
--- a/backend/alembic/versions/9f696734098f_combine_search_and_chat.py
+++ b/backend/alembic/versions/9f696734098f_combine_search_and_chat.py
@ -0,0 +1,36 @@
+"""Combine Search and Chat
+
+Revision ID: 9f696734098f
+Revises: a8c2065484e6
+Create Date: 2024-11-27 15:32:19.694972
+
+"""
+from alembic import op
+import sqlalchemy as sa
+
+# revision identifiers, used by Alembic.
+revision = "9f696734098f"
+down_revision = "a8c2065484e6"
+branch_labels = None
+depends_on = None
+
+
+def upgrade() -> None:
+    op.alter_column("chat_session", "description", nullable=True)
+    op.drop_column("chat_session", "one_shot")
+    op.drop_column("slack_channel_config", "response_type")
+
+
+def downgrade() -> None:
+    op.execute("UPDATE chat_session SET description = '' WHERE description IS NULL")
+    op.alter_column("chat_session", "description", nullable=False)
+    op.add_column(
+        "chat_session",
+        sa.Column("one_shot", sa.Boolean(), nullable=False, server_default=sa.false()),
+    )
+    op.add_column(
+        "slack_channel_config",
+        sa.Column(
+            "response_type", sa.String(), nullable=False, server_default="citations"
+        ),
+    )
--- a/backend/danswer/chat/chat_utils.py
+++ b/backend/danswer/chat/chat_utils.py
@ -2,20 +2,79 @@ import re
 from typing import cast
 from uuid import UUID

+from fastapi import HTTPException
 from fastapi.datastructures import Headers
 from sqlalchemy.orm import Session

+from danswer.auth.users import is_user_admin
 from danswer.chat.models import CitationInfo
 from danswer.chat.models import LlmDoc
+from danswer.chat.models import PersonaOverrideConfig
+from danswer.chat.models import ThreadMessage
+from danswer.configs.constants import DEFAULT_PERSONA_ID
+from danswer.configs.constants import MessageType
 from danswer.context.search.models import InferenceSection
+from danswer.context.search.models import RerankingDetails
+from danswer.context.search.models import RetrievalDetails
+from danswer.db.chat import create_chat_session
 from danswer.db.chat import get_chat_messages_by_session
+from danswer.db.llm import fetch_existing_doc_sets
+from danswer.db.llm import fetch_existing_tools
 from danswer.db.models import ChatMessage
+from danswer.db.models import Persona
+from danswer.db.models import Prompt
+from danswer.db.models import Tool
+from danswer.db.models import User
+from danswer.db.persona import get_prompts_by_ids
 from danswer.llm.answering.models import PreviousMessage
+from danswer.natural_language_processing.utils import BaseTokenizer
+from danswer.server.query_and_chat.models import CreateChatMessageRequest
+from danswer.tools.tool_implementations.custom.custom_tool import (
+    build_custom_tools_from_openapi_schema_and_headers,
+)
 from danswer.utils.logger import setup_logger

 logger = setup_logger()


+def prepare_chat_message_request(
+    message_text: str,
+    user: User | None,
+    persona_id: int | None,
+    # Does the question need to have a persona override
+    persona_override_config: PersonaOverrideConfig | None,
+    prompt: Prompt | None,
+    message_ts_to_respond_to: str | None,
+    retrieval_details: RetrievalDetails | None,
+    rerank_settings: RerankingDetails | None,
+    db_session: Session,
+) -> CreateChatMessageRequest:
+    # Typically used for one shot flows like SlackBot or non-chat API endpoint use cases
+    new_chat_session = create_chat_session(
+        db_session=db_session,
+        description=None,
+        user_id=user.id if user else None,
+        # If using an override, this id will be ignored later on
+        persona_id=persona_id or DEFAULT_PERSONA_ID,
+        danswerbot_flow=True,
+        slack_thread_id=message_ts_to_respond_to,
+    )
+
+    return CreateChatMessageRequest(
+        chat_session_id=new_chat_session.id,
+        parent_message_id=None,  # It's a standalone chat session each time
+        message=message_text,
+        file_descriptors=[],  # Currently SlackBot/answer api do not support files in the context
+        prompt_id=prompt.id if prompt else None,
+        # Can always override the persona for the single query, if it's a normal persona
+        # then it will be treated the same
+        persona_override_config=persona_override_config,
+        search_doc_ids=None,
+        retrieval_options=retrieval_details,
+        rerank_settings=rerank_settings,
+    )
+
+
 def llm_doc_from_inference_section(inference_section: InferenceSection) -> LlmDoc:
    return LlmDoc(
        document_id=inference_section.center_chunk.document_id,
@ -35,6 +94,45 @@ def llm_doc_from_inference_section(inference_section: InferenceSection) -> LlmDo
    )


+def combine_message_thread(
+    messages: list[ThreadMessage],
+    max_tokens: int | None,
+    llm_tokenizer: BaseTokenizer,
+) -> str:
+    """Used to create a single combined message context from threads"""
+    if not messages:
+        return ""
+
+    message_strs: list[str] = []
+    total_token_count = 0
+
+    for message in reversed(messages):
+        if message.role == MessageType.USER:
+            role_str = message.role.value.upper()
+            if message.sender:
+                role_str += " " + message.sender
+            else:
+                # Since other messages might have the user identifying information
+                # better to use Unknown for symmetry
+                role_str += " Unknown"
+        else:
+            role_str = message.role.value.upper()
+
+        msg_str = f"{role_str}:\n{message.message}"
+        message_token_count = len(llm_tokenizer.encode(msg_str))
+
+        if (
+            max_tokens is not None
+            and total_token_count + message_token_count > max_tokens
+        ):
+            break
+
+        message_strs.insert(0, msg_str)
+        total_token_count += message_token_count
+
+    return "\n\n".join(message_strs)
+
+
 def create_chat_chain(
    chat_session_id: UUID,
    db_session: Session,
@ -197,3 +295,71 @@ def extract_headers(
            if lowercase_key in headers:
                extracted_headers[lowercase_key] = headers[lowercase_key]
    return extracted_headers
+
+
+def create_temporary_persona(
+    persona_config: PersonaOverrideConfig, db_session: Session, user: User | None = None
+) -> Persona:
+    if not is_user_admin(user):
+        raise HTTPException(
+            status_code=403,
+            detail="User is not authorized to create a persona in one shot queries",
+        )
+
+    """Create a temporary Persona object from the provided configuration."""
+    persona = Persona(
+        name=persona_config.name,
+        description=persona_config.description,
+        num_chunks=persona_config.num_chunks,
+        llm_relevance_filter=persona_config.llm_relevance_filter,
+        llm_filter_extraction=persona_config.llm_filter_extraction,
+        recency_bias=persona_config.recency_bias,
+        llm_model_provider_override=persona_config.llm_model_provider_override,
+        llm_model_version_override=persona_config.llm_model_version_override,
+    )
+
+    if persona_config.prompts:
+        persona.prompts = [
+            Prompt(
+                name=p.name,
+                description=p.description,
+                system_prompt=p.system_prompt,
+                task_prompt=p.task_prompt,
+                include_citations=p.include_citations,
+                datetime_aware=p.datetime_aware,
+            )
+            for p in persona_config.prompts
+        ]
+    elif persona_config.prompt_ids:
+        persona.prompts = get_prompts_by_ids(
+            db_session=db_session, prompt_ids=persona_config.prompt_ids
+        )
+
+    persona.tools = []
+    if persona_config.custom_tools_openapi:
+        for schema in persona_config.custom_tools_openapi:
+            tools = cast(
+                list[Tool],
+                build_custom_tools_from_openapi_schema_and_headers(schema),
+            )
+            persona.tools.extend(tools)
+
+    if persona_config.tools:
+        tool_ids = [tool.id for tool in persona_config.tools]
+        persona.tools.extend(
+            fetch_existing_tools(db_session=db_session, tool_ids=tool_ids)
+        )
+
+    if persona_config.tool_ids:
+        persona.tools.extend(
+            fetch_existing_tools(
+                db_session=db_session, tool_ids=persona_config.tool_ids
+            )
+        )
+
+    fetched_docs = fetch_existing_doc_sets(
+        db_session=db_session, doc_ids=persona_config.document_set_ids
+    )
+    persona.document_sets = fetched_docs
+
+    return persona
--- a/backend/danswer/chat/models.py
+++ b/backend/danswer/chat/models.py
@ -4,12 +4,14 @@ from enum import Enum
 from typing import Any

 from pydantic import BaseModel
+from pydantic import Field

 from danswer.configs.constants import DocumentSource
+from danswer.configs.constants import MessageType
 from danswer.context.search.enums import QueryFlow
+from danswer.context.search.enums import RecencyBiasSetting
 from danswer.context.search.enums import SearchType
 from danswer.context.search.models import RetrievalDocs
-from danswer.context.search.models import SearchResponse
 from danswer.tools.tool_implementations.custom.base_tool_types import ToolResultType


@ -118,20 +120,6 @@ class StreamingError(BaseModel):
    stack_trace: str | None = None


-class DanswerQuote(BaseModel):
-    # This is during inference so everything is a string by this point
-    quote: str
-    document_id: str
-    link: str | None
-    source_type: str
-    semantic_identifier: str
-    blurb: str
-
-
-class DanswerQuotes(BaseModel):
-    quotes: list[DanswerQuote]
-
-
 class DanswerContext(BaseModel):
    content: str
    document_id: str
@ -147,14 +135,20 @@ class DanswerAnswer(BaseModel):
    answer: str | None


-class QAResponse(SearchResponse, DanswerAnswer):
-    quotes: list[DanswerQuote] | None
-    contexts: list[DanswerContexts] | None
-    predicted_flow: QueryFlow
-    predicted_search: SearchType
-    eval_res_valid: bool | None = None
+class ThreadMessage(BaseModel):
+    message: str
+    sender: str | None = None
+    role: MessageType = MessageType.USER
+
+
+class ChatDanswerBotResponse(BaseModel):
+    answer: str | None = None
+    citations: list[CitationInfo] | None = None
+    docs: QADocsResponse | None = None
    llm_selected_doc_indices: list[int] | None = None
    error_msg: str | None = None
+    chat_message_id: int | None = None
+    answer_valid: bool = True  # Reflexion result, default True if Reflexion not run


 class FileChatDisplay(BaseModel):
@ -166,9 +160,41 @@ class CustomToolResponse(BaseModel):
    tool_name: str


+class ToolConfig(BaseModel):
+    id: int
+
+
+class PromptOverrideConfig(BaseModel):
+    name: str
+    description: str = ""
+    system_prompt: str
+    task_prompt: str = ""
+    include_citations: bool = True
+    datetime_aware: bool = True
+
+
+class PersonaOverrideConfig(BaseModel):
+    name: str
+    description: str
+    search_type: SearchType = SearchType.SEMANTIC
+    num_chunks: float | None = None
+    llm_relevance_filter: bool = False
+    llm_filter_extraction: bool = False
+    recency_bias: RecencyBiasSetting = RecencyBiasSetting.AUTO
+    llm_model_provider_override: str | None = None
+    llm_model_version_override: str | None = None
+
+    prompts: list[PromptOverrideConfig] = Field(default_factory=list)
+    prompt_ids: list[int] = Field(default_factory=list)
+
+    document_set_ids: list[int] = Field(default_factory=list)
+    tools: list[ToolConfig] = Field(default_factory=list)
+    tool_ids: list[int] = Field(default_factory=list)
+    custom_tools_openapi: list[dict[str, Any]] = Field(default_factory=list)
+
+
 AnswerQuestionPossibleReturn = (
    DanswerAnswerPiece
-    | DanswerQuotes
    | CitationInfo
    | DanswerContexts
    | FileChatDisplay
--- a/backend/danswer/chat/process_message.py
+++ b/backend/danswer/chat/process_message.py
@ -7,10 +7,13 @@ from typing import cast
 from sqlalchemy.orm import Session

 from danswer.chat.chat_utils import create_chat_chain
+from danswer.chat.chat_utils import create_temporary_persona
 from danswer.chat.models import AllCitations
+from danswer.chat.models import ChatDanswerBotResponse
 from danswer.chat.models import CitationInfo
 from danswer.chat.models import CustomToolResponse
 from danswer.chat.models import DanswerAnswerPiece
+from danswer.chat.models import DanswerContexts
 from danswer.chat.models import FileChatDisplay
 from danswer.chat.models import FinalUsedContextDocsResponse
 from danswer.chat.models import LLMRelevanceFilterResponse
@ -102,6 +105,7 @@ from danswer.tools.tool_implementations.internet_search.internet_search_tool imp
 from danswer.tools.tool_implementations.search.search_tool import (
    FINAL_CONTEXT_DOCUMENTS_ID,
 )
+from danswer.tools.tool_implementations.search.search_tool import SEARCH_DOC_CONTENT_ID
 from danswer.tools.tool_implementations.search.search_tool import (
    SEARCH_RESPONSE_SUMMARY_ID,
 )
@ -113,8 +117,10 @@ from danswer.tools.tool_implementations.search.search_tool import (
 from danswer.tools.tool_runner import ToolCallFinalResult
 from danswer.utils.logger import setup_logger
 from danswer.utils.long_term_log import LongTermLogger
+from danswer.utils.timing import log_function_time
 from danswer.utils.timing import log_generator_function_time

+
 logger = setup_logger()


@ -256,6 +262,7 @@ def _get_force_search_settings(
 ChatPacket = (
    StreamingError
    | QADocsResponse
+    | DanswerContexts
    | LLMRelevanceFilterResponse
    | FinalUsedContextDocsResponse
    | ChatMessageDetail
@ -286,6 +293,8 @@ def stream_chat_message_objects(
    custom_tool_additional_headers: dict[str, str] | None = None,
    is_connected: Callable[[], bool] | None = None,
    enforce_chat_session_id_for_search_docs: bool = True,
+    bypass_acl: bool = False,
+    include_contexts: bool = False,
 ) -> ChatPacketStream:
    """Streams in order:
    1. [conditional] Retrieved documents if a search needs to be run
@ -322,17 +331,31 @@ def stream_chat_message_objects(
            metadata={"user_id": str(user_id), "chat_session_id": str(chat_session_id)}
        )

-        # use alternate persona if alternative assistant id is passed in
        if alternate_assistant_id is not None:
+            # Allows users to specify a temporary persona (assistant) in the chat session
+            # this takes highest priority since it's user specified
            persona = get_persona_by_id(
                alternate_assistant_id,
                user=user,
                db_session=db_session,
                is_for_edit=False,
            )
+        elif new_msg_req.persona_override_config:
+            # Certain endpoints allow users to specify arbitrary persona settings
+            # this should never conflict with the alternate_assistant_id
+            persona = persona = create_temporary_persona(
+                db_session=db_session,
+                persona_config=new_msg_req.persona_override_config,
+                user=user,
+            )
        else:
            persona = chat_session.persona

+        if not persona:
+            raise RuntimeError("No persona specified or found for chat session")
+
+        # If a prompt override is specified via the API, use that with highest priority
+        # but for saving it, we are just mapping it to an existing prompt
        prompt_id = new_msg_req.prompt_id
        if prompt_id is None and persona.prompts:
            prompt_id = sorted(persona.prompts, key=lambda x: x.id)[-1].id
@ -555,19 +578,34 @@ def stream_chat_message_objects(
            reserved_message_id=reserved_message_id,
        )

-        if not final_msg.prompt:
-            raise RuntimeError("No Prompt found")
-
-        prompt_config = (
-            PromptConfig.from_model(
-                final_msg.prompt,
-                prompt_override=(
-                    new_msg_req.prompt_override or chat_session.prompt_override
-                ),
+        prompt_override = new_msg_req.prompt_override or chat_session.prompt_override
+        if new_msg_req.persona_override_config:
+            prompt_config = PromptConfig(
+                system_prompt=new_msg_req.persona_override_config.prompts[
+                    0
+                ].system_prompt,
+                task_prompt=new_msg_req.persona_override_config.prompts[0].task_prompt,
+                datetime_aware=new_msg_req.persona_override_config.prompts[
+                    0
+                ].datetime_aware,
+                include_citations=new_msg_req.persona_override_config.prompts[
+                    0
+                ].include_citations,
            )
-            if not persona
-            else PromptConfig.from_model(persona.prompts[0])
-        )
+        elif prompt_override:
+            if not final_msg.prompt:
+                raise ValueError(
+                    "Prompt override cannot be applied, no base prompt found."
+                )
+            prompt_config = PromptConfig.from_model(
+                final_msg.prompt,
+                prompt_override=prompt_override,
+            )
+        elif final_msg.prompt:
+            prompt_config = PromptConfig.from_model(final_msg.prompt)
+        else:
+            prompt_config = PromptConfig.from_model(persona.prompts[0])
+
        answer_style_config = AnswerStyleConfig(
            citation_config=CitationConfig(
                all_docs_useful=selected_db_search_docs is not None
@ -587,11 +625,13 @@ def stream_chat_message_objects(
                answer_style_config=answer_style_config,
                document_pruning_config=document_pruning_config,
                retrieval_options=retrieval_options or RetrievalDetails(),
+                rerank_settings=new_msg_req.rerank_settings,
                selected_sections=selected_sections,
                chunks_above=new_msg_req.chunks_above,
                chunks_below=new_msg_req.chunks_below,
                full_doc=new_msg_req.full_doc,
                latest_query_files=latest_query_files,
+                bypass_acl=bypass_acl,
            ),
            internet_search_tool_config=InternetSearchToolConfig(
                answer_style_config=answer_style_config,
@ -737,6 +777,8 @@ def stream_chat_message_objects(
                            response=custom_tool_response.tool_result,
                            tool_name=custom_tool_response.tool_name,
                        )
+                elif packet.id == SEARCH_DOC_CONTENT_ID and include_contexts:
+                    yield cast(DanswerContexts, packet.response)

            elif isinstance(packet, StreamStopInfo):
                pass
@ -845,3 +887,30 @@ def stream_chat_message(
        )
        for obj in objects:
            yield get_json_line(obj.model_dump())
+
+
+@log_function_time()
+def gather_stream_for_slack(
+    packets: ChatPacketStream,
+) -> ChatDanswerBotResponse:
+    response = ChatDanswerBotResponse()
+
+    answer = ""
+    for packet in packets:
+        if isinstance(packet, DanswerAnswerPiece) and packet.answer_piece:
+            answer += packet.answer_piece
+        elif isinstance(packet, QADocsResponse):
+            response.docs = packet
+        elif isinstance(packet, StreamingError):
+            response.error_msg = packet.error
+        elif isinstance(packet, ChatMessageDetail):
+            response.chat_message_id = packet.message_id
+        elif isinstance(packet, LLMRelevanceFilterResponse):
+            response.llm_selected_doc_indices = packet.llm_selected_doc_indices
+        elif isinstance(packet, AllCitations):
+            response.citations = packet.citations
+
+    if answer:
+        response.answer = answer
+
+    return response
--- a/backend/danswer/configs/app_configs.py
+++ b/backend/danswer/configs/app_configs.py
@ -522,3 +522,6 @@ API_KEY_HASH_ROUNDS = (

 POD_NAME = os.environ.get("POD_NAME")
 POD_NAMESPACE = os.environ.get("POD_NAMESPACE")
+
+
+DEV_MODE = os.environ.get("DEV_MODE", "").lower() == "true"
--- a/backend/danswer/configs/constants.py
+++ b/backend/danswer/configs/constants.py
@ -31,6 +31,8 @@ DISABLED_GEN_AI_MSG = (
    "You can still use Danswer as a search engine."
 )

+DEFAULT_PERSONA_ID = 0
+
 # Postgres connection constants for application_name
 POSTGRES_WEB_APP_NAME = "web"
 POSTGRES_INDEXER_APP_NAME = "indexer"
--- a/backend/danswer/configs/danswerbot_configs.py
+++ b/backend/danswer/configs/danswerbot_configs.py
@ -4,11 +4,8 @@ import os
 # Danswer Slack Bot Configs
 #####
 DANSWER_BOT_NUM_RETRIES = int(os.environ.get("DANSWER_BOT_NUM_RETRIES", "5"))
-DANSWER_BOT_ANSWER_GENERATION_TIMEOUT = int(
-    os.environ.get("DANSWER_BOT_ANSWER_GENERATION_TIMEOUT", "90")
-)
 # How much of the available input context can be used for thread context
-DANSWER_BOT_TARGET_CHUNK_PERCENTAGE = 512 * 2 / 3072
+MAX_THREAD_CONTEXT_PERCENTAGE = 512 * 2 / 3072
 # Number of docs to display in "Reference Documents"
 DANSWER_BOT_NUM_DOCS_TO_DISPLAY = int(
    os.environ.get("DANSWER_BOT_NUM_DOCS_TO_DISPLAY", "5")
@ -47,17 +44,6 @@ DANSWER_BOT_DISPLAY_ERROR_MSGS = os.environ.get(
 DANSWER_BOT_RESPOND_EVERY_CHANNEL = (
    os.environ.get("DANSWER_BOT_RESPOND_EVERY_CHANNEL", "").lower() == "true"
 )
-# Add a second LLM call post Answer to verify if the Answer is valid
-# Throws out answers that don't directly or fully answer the user query
-# This is the default for all DanswerBot channels unless the channel is configured individually
-# Set/unset by "Hide Non Answers"
-ENABLE_DANSWERBOT_REFLEXION = (
-    os.environ.get("ENABLE_DANSWERBOT_REFLEXION", "").lower() == "true"
-)
-# Currently not support chain of thought, probably will add back later
-DANSWER_BOT_DISABLE_COT = True
-# if set, will default DanswerBot to use quotes and reference documents
-DANSWER_BOT_USE_QUOTES = os.environ.get("DANSWER_BOT_USE_QUOTES", "").lower() == "true"

 # Maximum Questions Per Minute, Default Uncapped
 DANSWER_BOT_MAX_QPM = int(os.environ.get("DANSWER_BOT_MAX_QPM") or 0) or None
--- a/backend/danswer/danswerbot/slack/blocks.py
+++ b/backend/danswer/danswerbot/slack/blocks.py
@ -16,7 +16,7 @@ from slack_sdk.models.blocks import SectionBlock
 from slack_sdk.models.blocks.basic_components import MarkdownTextObject
 from slack_sdk.models.blocks.block_elements import ImageElement

-from danswer.chat.models import DanswerQuote
+from danswer.chat.models import ChatDanswerBotResponse
 from danswer.configs.app_configs import DISABLE_GENERATIVE_AI
 from danswer.configs.app_configs import WEB_DOMAIN
 from danswer.configs.constants import DocumentSource
@ -40,10 +40,7 @@ from danswer.danswerbot.slack.utils import translate_vespa_highlight_to_slack
 from danswer.db.chat import get_chat_session_by_message_id
 from danswer.db.engine import get_session_with_tenant
 from danswer.db.models import ChannelConfig
-from danswer.db.models import Persona
-from danswer.one_shot_answer.models import OneShotQAResponse
 from danswer.utils.text_processing import decode_escapes
-from danswer.utils.text_processing import replace_whitespaces_w_space

 _MAX_BLURB_LEN = 45

@ -327,7 +324,7 @@ def _build_sources_blocks(


 def _priority_ordered_documents_blocks(
-    answer: OneShotQAResponse,
+    answer: ChatDanswerBotResponse,
 ) -> list[Block]:
    docs_response = answer.docs if answer.docs else None
    top_docs = docs_response.top_documents if docs_response else []
@ -350,7 +347,7 @@ def _priority_ordered_documents_blocks(


 def _build_citations_blocks(
-    answer: OneShotQAResponse,
+    answer: ChatDanswerBotResponse,
 ) -> list[Block]:
    docs_response = answer.docs if answer.docs else None
    top_docs = docs_response.top_documents if docs_response else []
@ -369,51 +366,8 @@ def _build_citations_blocks(
    return citations_block


-def _build_quotes_block(
-    quotes: list[DanswerQuote],
-) -> list[Block]:
-    quote_lines: list[str] = []
-    doc_to_quotes: dict[str, list[str]] = {}
-    doc_to_link: dict[str, str] = {}
-    doc_to_sem_id: dict[str, str] = {}
-    for q in quotes:
-        quote = q.quote
-        doc_id = q.document_id
-        doc_link = q.link
-        doc_name = q.semantic_identifier
-        if doc_link and doc_name and doc_id and quote:
-            if doc_id not in doc_to_quotes:
-                doc_to_quotes[doc_id] = [quote]
-                doc_to_link[doc_id] = doc_link
-                doc_to_sem_id[doc_id] = (
-                    doc_name
-                    if q.source_type != DocumentSource.SLACK.value
-                    else "#" + doc_name
-                )
-            else:
-                doc_to_quotes[doc_id].append(quote)
-
-    for doc_id, quote_strs in doc_to_quotes.items():
-        quotes_str_clean = [
-            replace_whitespaces_w_space(q_str).strip() for q_str in quote_strs
-        ]
-        longest_quotes = sorted(quotes_str_clean, key=len, reverse=True)[:5]
-        single_quote_str = "\n".join([f"```{q_str}```" for q_str in longest_quotes])
-        link = doc_to_link[doc_id]
-        sem_id = doc_to_sem_id[doc_id]
-        quote_lines.append(
-            f"<{link}|{sem_id}>:\n{remove_slack_text_interactions(single_quote_str)}"
-        )
-
-    if not doc_to_quotes:
-        return []
-
-    return [SectionBlock(text="*Relevant Snippets*\n" + "\n".join(quote_lines))]
-
-
 def _build_qa_response_blocks(
-    answer: OneShotQAResponse,
-    skip_quotes: bool = False,
+    answer: ChatDanswerBotResponse,
    process_message_for_citations: bool = False,
 ) -> list[Block]:
    retrieval_info = answer.docs
@ -422,13 +376,10 @@ def _build_qa_response_blocks(
        raise RuntimeError("Failed to retrieve docs, cannot answer question.")

    formatted_answer = format_slack_message(answer.answer) if answer.answer else None
-    quotes = answer.quotes.quotes if answer.quotes else None

    if DISABLE_GENERATIVE_AI:
        return []

-    quotes_blocks: list[Block] = []
-
    filter_block: Block | None = None
    if (
        retrieval_info.applied_time_cutoff
@ -471,16 +422,6 @@ def _build_qa_response_blocks(
        answer_blocks = [
            SectionBlock(text=text) for text in _split_text(answer_processed)
        ]
-        if quotes:
-            quotes_blocks = _build_quotes_block(quotes)
-
-        # if no quotes OR `_build_quotes_block()` did not give back any blocks
-        if not quotes_blocks:
-            quotes_blocks = [
-                SectionBlock(
-                    text="*Warning*: no sources were quoted for this answer, so it may be unreliable 😔"
-                )
-            ]

    response_blocks: list[Block] = []

@ -489,9 +430,6 @@ def _build_qa_response_blocks(

    response_blocks.extend(answer_blocks)

-    if not skip_quotes:
-        response_blocks.extend(quotes_blocks)
-
    return response_blocks


@ -567,10 +505,9 @@ def build_follow_up_resolved_blocks(


 def build_slack_response_blocks(
+    answer: ChatDanswerBotResponse,
    tenant_id: str | None,
    message_info: SlackMessageInfo,
-    answer: OneShotQAResponse,
-    persona: Persona | None,
    channel_conf: ChannelConfig | None,
    use_citations: bool,
    feedback_reminder_id: str | None,
@ -587,7 +524,6 @@ def build_slack_response_blocks(

    answer_blocks = _build_qa_response_blocks(
        answer=answer,
-        skip_quotes=persona is not None or use_citations,
        process_message_for_citations=use_citations,
    )

@ -617,8 +553,7 @@ def build_slack_response_blocks(

    citations_blocks = []
    document_blocks = []
-    if use_citations:
-        # if citations are enabled, only show cited documents
+    if use_citations and answer.citations:
        citations_blocks = _build_citations_blocks(answer)
    else:
        document_blocks = _priority_ordered_documents_blocks(answer)
@ -637,4 +572,5 @@ def build_slack_response_blocks(
        + web_follow_up_block
        + follow_up_block
    )
+
    return all_blocks
--- a/backend/danswer/danswerbot/slack/handlers/handle_regular_answer.py
+++ b/backend/danswer/danswerbot/slack/handlers/handle_regular_answer.py
@ -1,7 +1,6 @@
 import functools
 from collections.abc import Callable
 from typing import Any
-from typing import cast
 from typing import Optional
 from typing import TypeVar

@ -9,46 +8,36 @@ from retry import retry
 from slack_sdk import WebClient
 from slack_sdk.models.blocks import SectionBlock

+from danswer.chat.chat_utils import prepare_chat_message_request
+from danswer.chat.models import ChatDanswerBotResponse
+from danswer.chat.process_message import gather_stream_for_slack
+from danswer.chat.process_message import stream_chat_message_objects
 from danswer.configs.app_configs import DISABLE_GENERATIVE_AI
-from danswer.configs.danswerbot_configs import DANSWER_BOT_ANSWER_GENERATION_TIMEOUT
-from danswer.configs.danswerbot_configs import DANSWER_BOT_DISABLE_COT
+from danswer.configs.constants import DEFAULT_PERSONA_ID
 from danswer.configs.danswerbot_configs import DANSWER_BOT_DISABLE_DOCS_ONLY_ANSWER
 from danswer.configs.danswerbot_configs import DANSWER_BOT_DISPLAY_ERROR_MSGS
 from danswer.configs.danswerbot_configs import DANSWER_BOT_NUM_RETRIES
-from danswer.configs.danswerbot_configs import DANSWER_BOT_TARGET_CHUNK_PERCENTAGE
-from danswer.configs.danswerbot_configs import DANSWER_BOT_USE_QUOTES
 from danswer.configs.danswerbot_configs import DANSWER_FOLLOWUP_EMOJI
 from danswer.configs.danswerbot_configs import DANSWER_REACT_EMOJI
-from danswer.configs.danswerbot_configs import ENABLE_DANSWERBOT_REFLEXION
+from danswer.configs.danswerbot_configs import MAX_THREAD_CONTEXT_PERCENTAGE
 from danswer.context.search.enums import OptionalSearchSetting
 from danswer.context.search.models import BaseFilters
-from danswer.context.search.models import RerankingDetails
 from danswer.context.search.models import RetrievalDetails
 from danswer.danswerbot.slack.blocks import build_slack_response_blocks
 from danswer.danswerbot.slack.handlers.utils import send_team_member_message
+from danswer.danswerbot.slack.handlers.utils import slackify_message_thread
 from danswer.danswerbot.slack.models import SlackMessageInfo
 from danswer.danswerbot.slack.utils import respond_in_thread
 from danswer.danswerbot.slack.utils import SlackRateLimiter
 from danswer.danswerbot.slack.utils import update_emote_react
 from danswer.db.engine import get_session_with_tenant
-from danswer.db.models import Persona
-from danswer.db.models import SlackBotResponseType
 from danswer.db.models import SlackChannelConfig
-from danswer.db.persona import fetch_persona_by_id
-from danswer.db.search_settings import get_current_search_settings
+from danswer.db.models import User
+from danswer.db.persona import get_persona_by_id
 from danswer.db.users import get_user_by_email
-from danswer.llm.answering.prompts.citations_prompt import (
-    compute_max_document_tokens_for_persona,
-)
-from danswer.llm.factory import get_llms_for_persona
-from danswer.llm.utils import check_number_of_tokens
-from danswer.llm.utils import get_max_input_tokens
-from danswer.one_shot_answer.answer_question import get_search_answer
-from danswer.one_shot_answer.models import DirectQARequest
-from danswer.one_shot_answer.models import OneShotQAResponse
+from danswer.server.query_and_chat.models import CreateChatMessageRequest
 from danswer.utils.logger import DanswerLoggingAdapter

-
 srl = SlackRateLimiter()

 RT = TypeVar("RT")  # return type
@ -83,16 +72,14 @@ def handle_regular_answer(
    feedback_reminder_id: str | None,
    tenant_id: str | None,
    num_retries: int = DANSWER_BOT_NUM_RETRIES,
-    answer_generation_timeout: int = DANSWER_BOT_ANSWER_GENERATION_TIMEOUT,
-    thread_context_percent: float = DANSWER_BOT_TARGET_CHUNK_PERCENTAGE,
+    thread_context_percent: float = MAX_THREAD_CONTEXT_PERCENTAGE,
    should_respond_with_error_msgs: bool = DANSWER_BOT_DISPLAY_ERROR_MSGS,
    disable_docs_only_answer: bool = DANSWER_BOT_DISABLE_DOCS_ONLY_ANSWER,
-    disable_cot: bool = DANSWER_BOT_DISABLE_COT,
-    reflexion: bool = ENABLE_DANSWERBOT_REFLEXION,
 ) -> bool:
    channel_conf = slack_channel_config.channel_config if slack_channel_config else None

    messages = message_info.thread_messages
+
    message_ts_to_respond_to = message_info.msg_to_respond
    is_bot_msg = message_info.is_bot_msg
    user = None
@ -102,9 +89,18 @@ def handle_regular_answer(
                user = get_user_by_email(message_info.email, db_session)

    document_set_names: list[str] | None = None
-    persona = slack_channel_config.persona if slack_channel_config else None
    prompt = None
-    if persona:
+    # If no persona is specified, use the default search based persona
+    # This way slack flow always has a persona
+    persona = slack_channel_config.persona if slack_channel_config else None
+    if not persona:
+        with get_session_with_tenant(tenant_id) as db_session:
+            persona = get_persona_by_id(DEFAULT_PERSONA_ID, user, db_session)
+            document_set_names = [
+                document_set.name for document_set in persona.document_sets
+            ]
+            prompt = persona.prompts[0] if persona.prompts else None
+    else:
        document_set_names = [
            document_set.name for document_set in persona.document_sets
        ]
@ -112,6 +108,26 @@ def handle_regular_answer(

    should_respond_even_with_no_docs = persona.num_chunks == 0 if persona else False

+    # TODO: Add in support for Slack to truncate messages based on max LLM context
+    # llm, _ = get_llms_for_persona(persona)
+
+    # llm_tokenizer = get_tokenizer(
+    #     model_name=llm.config.model_name,
+    #     provider_type=llm.config.model_provider,
+    # )
+
+    # # In cases of threads, split the available tokens between docs and thread context
+    # input_tokens = get_max_input_tokens(
+    #     model_name=llm.config.model_name,
+    #     model_provider=llm.config.model_provider,
+    # )
+    # max_history_tokens = int(input_tokens * thread_context_percent)
+    # combined_message = combine_message_thread(
+    #     messages, max_tokens=max_history_tokens, llm_tokenizer=llm_tokenizer
+    # )
+
+    combined_message = slackify_message_thread(messages)
+
    bypass_acl = False
    if (
        slack_channel_config
@ -122,13 +138,6 @@ def handle_regular_answer(
        # with non-public document sets
        bypass_acl = True

-    # figure out if we want to use citations or quotes
-    use_citations = (
-        not DANSWER_BOT_USE_QUOTES
-        if slack_channel_config is None
-        else slack_channel_config.response_type == SlackBotResponseType.CITATIONS
-    )
-
    if not message_ts_to_respond_to and not is_bot_msg:
        # if the message is not "/danswer" command, then it should have a message ts to respond to
        raise RuntimeError(
@ -141,75 +150,23 @@ def handle_regular_answer(
        backoff=2,
    )
    @rate_limits(client=client, channel=channel, thread_ts=message_ts_to_respond_to)
-    def _get_answer(new_message_request: DirectQARequest) -> OneShotQAResponse | None:
-        max_document_tokens: int | None = None
-        max_history_tokens: int | None = None
-
+    def _get_slack_answer(
+        new_message_request: CreateChatMessageRequest, danswer_user: User | None
+    ) -> ChatDanswerBotResponse:
        with get_session_with_tenant(tenant_id) as db_session:
-            if len(new_message_request.messages) > 1:
-                if new_message_request.persona_config:
-                    raise RuntimeError("Slack bot does not support persona config")
-                elif new_message_request.persona_id is not None:
-                    persona = cast(
-                        Persona,
-                        fetch_persona_by_id(
-                            db_session,
-                            new_message_request.persona_id,
-                            user=None,
-                            get_editable=False,
-                        ),
-                    )
-                else:
-                    raise RuntimeError(
-                        "No persona id provided, this should never happen."
-                    )
-
-                llm, _ = get_llms_for_persona(persona)
-
-                # In cases of threads, split the available tokens between docs and thread context
-                input_tokens = get_max_input_tokens(
-                    model_name=llm.config.model_name,
-                    model_provider=llm.config.model_provider,
-                )
-                max_history_tokens = int(input_tokens * thread_context_percent)
-
-                remaining_tokens = input_tokens - max_history_tokens
-
-                query_text = new_message_request.messages[0].message
-                if persona:
-                    max_document_tokens = compute_max_document_tokens_for_persona(
-                        persona=persona,
-                        actual_user_input=query_text,
-                        max_llm_token_override=remaining_tokens,
-                    )
-                else:
-                    max_document_tokens = (
-                        remaining_tokens
-                        - 512  # Needs to be more than any of the QA prompts
-                        - check_number_of_tokens(query_text)
-                    )
-
-            if DISABLE_GENERATIVE_AI:
-                return None
-
-            # This also handles creating the query event in postgres
-            answer = get_search_answer(
-                query_req=new_message_request,
-                user=user,
-                max_document_tokens=max_document_tokens,
-                max_history_tokens=max_history_tokens,
+            packets = stream_chat_message_objects(
+                new_msg_req=new_message_request,
+                user=danswer_user,
                db_session=db_session,
-                answer_generation_timeout=answer_generation_timeout,
-                enable_reflexion=reflexion,
                bypass_acl=bypass_acl,
-                use_citations=use_citations,
-                danswerbot_flow=True,
            )

-            if not answer.error_msg:
-                return answer
-            else:
-                raise RuntimeError(answer.error_msg)
+            answer = gather_stream_for_slack(packets)
+
+        if answer.error_msg:
+            raise RuntimeError(answer.error_msg)
+
+        return answer

    try:
        # By leaving time_cutoff and favor_recent as None, and setting enable_auto_detect_filters
@ -239,26 +196,24 @@ def handle_regular_answer(
            enable_auto_detect_filters=auto_detect_filters,
        )

-        # Always apply reranking settings if it exists, this is the non-streaming flow
        with get_session_with_tenant(tenant_id) as db_session:
-            saved_search_settings = get_current_search_settings(db_session)
-
-        # This includes throwing out answer via reflexion
-        answer = _get_answer(
-            DirectQARequest(
-                messages=messages,
-                multilingual_query_expansion=saved_search_settings.multilingual_expansion
-                if saved_search_settings
-                else None,
-                prompt_id=prompt.id if prompt else None,
-                persona_id=persona.id if persona is not None else 0,
-                retrieval_options=retrieval_details,
-                chain_of_thought=not disable_cot,
-                rerank_settings=RerankingDetails.from_db_model(saved_search_settings)
-                if saved_search_settings
-                else None,
+            answer_request = prepare_chat_message_request(
+                message_text=combined_message,
+                user=user,
+                persona_id=persona.id,
+                # This is not used in the Slack flow, only in the answer API
+                persona_override_config=None,
+                prompt=prompt,
+                message_ts_to_respond_to=message_ts_to_respond_to,
+                retrieval_details=retrieval_details,
+                rerank_settings=None,  # Rerank customization supported in Slack flow
+                db_session=db_session,
            )
+
+        answer = _get_slack_answer(
+            new_message_request=answer_request, danswer_user=user
        )
+
    except Exception as e:
        logger.exception(
            f"Unable to process message - did not successfully answer "
@ -359,7 +314,7 @@ def handle_regular_answer(
    top_docs = retrieval_info.top_documents
    if not top_docs and not should_respond_even_with_no_docs:
        logger.error(
-            f"Unable to answer question: '{answer.rephrase}' - no documents found"
+            f"Unable to answer question: '{combined_message}' - no documents found"
        )
        # Optionally, respond in thread with the error message
        # Used primarily for debugging purposes
@ -380,18 +335,18 @@ def handle_regular_answer(
        )
        return True

-    only_respond_with_citations_or_quotes = (
+    only_respond_if_citations = (
        channel_conf
        and "well_answered_postfilter" in channel_conf.get("answer_filters", [])
    )
-    has_citations_or_quotes = bool(answer.citations or answer.quotes)
+
    if (
-        only_respond_with_citations_or_quotes
-        and not has_citations_or_quotes
+        only_respond_if_citations
+        and not answer.citations
        and not message_info.bypass_filters
    ):
        logger.error(
-            f"Unable to find citations or quotes to answer: '{answer.rephrase}' - not answering!"
+            f"Unable to find citations to answer: '{answer.answer}' - not answering!"
        )
        # Optionally, respond in thread with the error message
        # Used primarily for debugging purposes
@ -409,9 +364,8 @@ def handle_regular_answer(
        tenant_id=tenant_id,
        message_info=message_info,
        answer=answer,
-        persona=persona,
        channel_conf=channel_conf,
-        use_citations=use_citations,
+        use_citations=True,  # No longer supporting quotes
        feedback_reminder_id=feedback_reminder_id,
    )

--- a/backend/danswer/danswerbot/slack/handlers/utils.py
+++ b/backend/danswer/danswerbot/slack/handlers/utils.py
@ -1,8 +1,33 @@
 from slack_sdk import WebClient

+from danswer.chat.models import ThreadMessage
+from danswer.configs.constants import MessageType
 from danswer.danswerbot.slack.utils import respond_in_thread


+def slackify_message_thread(messages: list[ThreadMessage]) -> str:
+    # Note: this does not handle extremely long threads, every message will be included
+    # with weaker LLMs, this could cause issues with exceeeding the token limit
+    if not messages:
+        return ""
+
+    message_strs: list[str] = []
+    for message in messages:
+        if message.role == MessageType.USER:
+            message_text = (
+                f"{message.sender or 'Unknown User'} said in Slack:\n{message.message}"
+            )
+        elif message.role == MessageType.ASSISTANT:
+            message_text = f"AI said in Slack:\n{message.message}"
+        else:
+            message_text = (
+                f"{message.role.value.upper()} said in Slack:\n{message.message}"
+            )
+        message_strs.append(message_text)
+
+    return "\n\n".join(message_strs)
+
+
 def send_team_member_message(
    client: WebClient,
    channel: str,
--- a/backend/danswer/danswerbot/slack/listener.py
+++ b/backend/danswer/danswerbot/slack/listener.py
@ -19,6 +19,8 @@ from slack_sdk.socket_mode.request import SocketModeRequest
 from slack_sdk.socket_mode.response import SocketModeResponse
 from sqlalchemy.orm import Session

+from danswer.chat.models import ThreadMessage
+from danswer.configs.app_configs import DEV_MODE
 from danswer.configs.app_configs import POD_NAME
 from danswer.configs.app_configs import POD_NAMESPACE
 from danswer.configs.constants import DanswerRedisLocks
@ -74,7 +76,6 @@ from danswer.db.slack_bot import fetch_slack_bots
 from danswer.key_value_store.interface import KvKeyNotFoundError
 from danswer.natural_language_processing.search_nlp_models import EmbeddingModel
 from danswer.natural_language_processing.search_nlp_models import warm_up_bi_encoder
-from danswer.one_shot_answer.models import ThreadMessage
 from danswer.redis.redis_pool import get_redis_client
 from danswer.server.manage.models import SlackBotTokens
 from danswer.utils.logger import setup_logger
@ -250,7 +251,7 @@ class SlackbotHandler:
                nx=True,
                ex=TENANT_LOCK_EXPIRATION,
            )
-            if not acquired:
+            if not acquired and not DEV_MODE:
                logger.debug(f"Another pod holds the lock for tenant {tenant_id}")
                continue

--- a/backend/danswer/danswerbot/slack/models.py
+++ b/backend/danswer/danswerbot/slack/models.py
@ -1,6 +1,6 @@
 from pydantic import BaseModel

-from danswer.one_shot_answer.models import ThreadMessage
+from danswer.chat.models import ThreadMessage


 class SlackMessageInfo(BaseModel):
--- a/backend/danswer/danswerbot/slack/utils.py
+++ b/backend/danswer/danswerbot/slack/utils.py
@ -30,13 +30,13 @@ from danswer.configs.danswerbot_configs import (
 from danswer.connectors.slack.utils import make_slack_api_rate_limited
 from danswer.connectors.slack.utils import SlackTextCleaner
 from danswer.danswerbot.slack.constants import FeedbackVisibility
+from danswer.danswerbot.slack.models import ThreadMessage
 from danswer.db.engine import get_session_with_tenant
 from danswer.db.users import get_user_by_email
 from danswer.llm.exceptions import GenAIDisabledException
 from danswer.llm.factory import get_default_llms
 from danswer.llm.utils import dict_based_prompt_to_langchain_prompt
 from danswer.llm.utils import message_to_string
-from danswer.one_shot_answer.models import ThreadMessage
 from danswer.prompts.miscellaneous_prompts import SLACK_LANGUAGE_REPHRASE_PROMPT
 from danswer.utils.logger import setup_logger
 from danswer.utils.telemetry import optional_telemetry
--- a/backend/danswer/db/chat.py
+++ b/backend/danswer/db/chat.py
@ -145,16 +145,10 @@ def get_chat_sessions_by_user(
    user_id: UUID | None,
    deleted: bool | None,
    db_session: Session,
-    only_one_shot: bool = False,
    limit: int = 50,
 ) -> list[ChatSession]:
    stmt = select(ChatSession).where(ChatSession.user_id == user_id)

-    if only_one_shot:
-        stmt = stmt.where(ChatSession.one_shot.is_(True))
-    else:
-        stmt = stmt.where(ChatSession.one_shot.is_(False))
-
    stmt = stmt.order_by(desc(ChatSession.time_created))

    if deleted is not None:
@ -226,12 +220,11 @@ def delete_messages_and_files_from_chat_session(

 def create_chat_session(
    db_session: Session,
-    description: str,
+    description: str | None,
    user_id: UUID | None,
    persona_id: int | None,  # Can be none if temporary persona is used
    llm_override: LLMOverride | None = None,
    prompt_override: PromptOverride | None = None,
-    one_shot: bool = False,
    danswerbot_flow: bool = False,
    slack_thread_id: str | None = None,
 ) -> ChatSession:
@ -241,7 +234,6 @@ def create_chat_session(
        description=description,
        llm_override=llm_override,
        prompt_override=prompt_override,
-        one_shot=one_shot,
        danswerbot_flow=danswerbot_flow,
        slack_thread_id=slack_thread_id,
    )
@ -287,8 +279,6 @@ def duplicate_chat_session_for_user_from_slack(
        description="",
        llm_override=chat_session.llm_override,
        prompt_override=chat_session.prompt_override,
-        # Chat sessions from Slack should put people in the chat UI, not the search
-        one_shot=False,
        # Chat is in UI now so this is false
        danswerbot_flow=False,
        # Maybe we want this in the future to track if it was created from Slack
--- a/backend/danswer/db/models.py
+++ b/backend/danswer/db/models.py
@ -1,6 +1,5 @@
 import datetime
 import json
-from enum import Enum as PyEnum
 from typing import Any
 from typing import Literal
 from typing import NotRequired
@ -964,9 +963,8 @@ class ChatSession(Base):
    persona_id: Mapped[int | None] = mapped_column(
        ForeignKey("persona.id"), nullable=True
    )
-    description: Mapped[str] = mapped_column(Text)
-    # One-shot direct answering, currently the two types of chats are not mixed
-    one_shot: Mapped[bool] = mapped_column(Boolean, default=False)
+    description: Mapped[str | None] = mapped_column(Text, nullable=True)
+    # This chat created by DanswerBot
    danswerbot_flow: Mapped[bool] = mapped_column(Boolean, default=False)
    # Only ever set to True if system is set to not hard-delete chats
    deleted: Mapped[bool] = mapped_column(Boolean, default=False)
@ -1488,11 +1486,6 @@ class ChannelConfig(TypedDict):
    show_continue_in_web_ui: NotRequired[bool]  # defaults to False


-class SlackBotResponseType(str, PyEnum):
-    QUOTES = "quotes"
-    CITATIONS = "citations"
-
-
 class SlackChannelConfig(Base):
    __tablename__ = "slack_channel_config"

@ -1505,9 +1498,6 @@ class SlackChannelConfig(Base):
    channel_config: Mapped[ChannelConfig] = mapped_column(
        postgresql.JSONB(), nullable=False
    )
-    response_type: Mapped[SlackBotResponseType] = mapped_column(
-        Enum(SlackBotResponseType, native_enum=False), nullable=False
-    )

    enable_auto_filters: Mapped[bool] = mapped_column(
        Boolean, nullable=False, default=False
--- a/backend/danswer/db/slack_channel_config.py
+++ b/backend/danswer/db/slack_channel_config.py
@ -10,7 +10,6 @@ from danswer.db.constants import SLACK_BOT_PERSONA_PREFIX
 from danswer.db.models import ChannelConfig
 from danswer.db.models import Persona
 from danswer.db.models import Persona__DocumentSet
-from danswer.db.models import SlackBotResponseType
 from danswer.db.models import SlackChannelConfig
 from danswer.db.models import User
 from danswer.db.persona import get_default_prompt
@ -83,7 +82,6 @@ def insert_slack_channel_config(
    slack_bot_id: int,
    persona_id: int | None,
    channel_config: ChannelConfig,
-    response_type: SlackBotResponseType,
    standard_answer_category_ids: list[int],
    enable_auto_filters: bool,
 ) -> SlackChannelConfig:
@ -115,7 +113,6 @@ def insert_slack_channel_config(
        slack_bot_id=slack_bot_id,
        persona_id=persona_id,
        channel_config=channel_config,
-        response_type=response_type,
        standard_answer_categories=existing_standard_answer_categories,
        enable_auto_filters=enable_auto_filters,
    )
@ -130,7 +127,6 @@ def update_slack_channel_config(
    slack_channel_config_id: int,
    persona_id: int | None,
    channel_config: ChannelConfig,
-    response_type: SlackBotResponseType,
    standard_answer_category_ids: list[int],
    enable_auto_filters: bool,
 ) -> SlackChannelConfig:
@ -170,7 +166,6 @@ def update_slack_channel_config(
    # will encounter `violates foreign key constraint` errors
    slack_channel_config.persona_id = persona_id
    slack_channel_config.channel_config = channel_config
-    slack_channel_config.response_type = response_type
    slack_channel_config.standard_answer_categories = list(
        existing_standard_answer_categories
    )
--- a/backend/danswer/llm/answering/answer.py
+++ b/backend/danswer/llm/answering/answer.py
@ -18,18 +18,12 @@ from danswer.llm.answering.models import PromptConfig
 from danswer.llm.answering.prompts.build import AnswerPromptBuilder
 from danswer.llm.answering.prompts.build import default_build_system_message
 from danswer.llm.answering.prompts.build import default_build_user_message
-from danswer.llm.answering.stream_processing.answer_response_handler import (
-    AnswerResponseHandler,
-)
 from danswer.llm.answering.stream_processing.answer_response_handler import (
    CitationResponseHandler,
 )
 from danswer.llm.answering.stream_processing.answer_response_handler import (
    DummyAnswerResponseHandler,
 )
-from danswer.llm.answering.stream_processing.answer_response_handler import (
-    QuotesResponseHandler,
-)
 from danswer.llm.answering.stream_processing.utils import map_document_id_order
 from danswer.llm.answering.tool.tool_response_handler import ToolResponseHandler
 from danswer.llm.interfaces import LLM
@ -214,18 +208,23 @@ class Answer:

        search_result = SearchTool.get_search_result(current_llm_call) or []

-        answer_handler: AnswerResponseHandler
-        if self.answer_style_config.citation_config:
-            answer_handler = CitationResponseHandler(
-                context_docs=search_result,
-                doc_id_to_rank_map=map_document_id_order(search_result),
-            )
-        elif self.answer_style_config.quotes_config:
-            answer_handler = QuotesResponseHandler(
-                context_docs=search_result,
-            )
-        else:
-            raise ValueError("No answer style config provided")
+        # Quotes are no longer supported
+        # answer_handler: AnswerResponseHandler
+        # if self.answer_style_config.citation_config:
+        #     answer_handler = CitationResponseHandler(
+        #         context_docs=search_result,
+        #         doc_id_to_rank_map=map_document_id_order(search_result),
+        #     )
+        # elif self.answer_style_config.quotes_config:
+        #     answer_handler = QuotesResponseHandler(
+        #         context_docs=search_result,
+        #     )
+        # else:
+        #     raise ValueError("No answer style config provided")
+        answer_handler = CitationResponseHandler(
+            context_docs=search_result,
+            doc_id_to_rank_map=map_document_id_order(search_result),
+        )

        response_handler_manager = LLMResponseHandlerManager(
            tool_call_handler, answer_handler, self.is_cancelled
--- a/backend/danswer/llm/answering/llm_response_handler.py
+++ b/backend/danswer/llm/answering/llm_response_handler.py
@ -8,7 +8,6 @@ from pydantic.v1 import BaseModel as BaseModel__v1

 from danswer.chat.models import CitationInfo
 from danswer.chat.models import DanswerAnswerPiece
-from danswer.chat.models import DanswerQuotes
 from danswer.chat.models import StreamStopInfo
 from danswer.chat.models import StreamStopReason
 from danswer.file_store.models import InMemoryChatFile
@ -30,7 +29,6 @@ if TYPE_CHECKING:
 ResponsePart = (
    DanswerAnswerPiece
    | CitationInfo
-    | DanswerQuotes
    | ToolCallKickoff
    | ToolResponse
    | ToolCallFinalResult
--- a/backend/danswer/llm/answering/stream_processing/answer_response_handler.py
+++ b/backend/danswer/llm/answering/stream_processing/answer_response_handler.py
@ -9,9 +9,6 @@ from danswer.llm.answering.llm_response_handler import ResponsePart
 from danswer.llm.answering.stream_processing.citation_processing import (
    CitationProcessor,
 )
-from danswer.llm.answering.stream_processing.quotes_processing import (
-    QuotesProcessor,
-)
 from danswer.llm.answering.stream_processing.utils import DocumentIdOrderMapping
 from danswer.utils.logger import setup_logger

@ -70,28 +67,29 @@ class CitationResponseHandler(AnswerResponseHandler):
        yield from self.citation_processor.process_token(content)


-class QuotesResponseHandler(AnswerResponseHandler):
-    def __init__(
-        self,
-        context_docs: list[LlmDoc],
-        is_json_prompt: bool = True,
-    ):
-        self.quotes_processor = QuotesProcessor(
-            context_docs=context_docs,
-            is_json_prompt=is_json_prompt,
-        )
+# No longer in use, remove later
+# class QuotesResponseHandler(AnswerResponseHandler):
+#     def __init__(
+#         self,
+#         context_docs: list[LlmDoc],
+#         is_json_prompt: bool = True,
+#     ):
+#         self.quotes_processor = QuotesProcessor(
+#             context_docs=context_docs,
+#             is_json_prompt=is_json_prompt,
+#         )

-    def handle_response_part(
-        self,
-        response_item: BaseMessage | None,
-        previous_response_items: list[BaseMessage],
-    ) -> Generator[ResponsePart, None, None]:
-        if response_item is None:
-            yield from self.quotes_processor.process_token(None)
-            return
+#     def handle_response_part(
+#         self,
+#         response_item: BaseMessage | None,
+#         previous_response_items: list[BaseMessage],
+#     ) -> Generator[ResponsePart, None, None]:
+#         if response_item is None:
+#             yield from self.quotes_processor.process_token(None)
+#             return

-        content = (
-            response_item.content if isinstance(response_item.content, str) else ""
-        )
+#         content = (
+#             response_item.content if isinstance(response_item.content, str) else ""
+#         )

-        yield from self.quotes_processor.process_token(content)
+#         yield from self.quotes_processor.process_token(content)
--- a/backend/danswer/llm/answering/stream_processing/quotes_processing.py
+++ b/backend/danswer/llm/answering/stream_processing/quotes_processing.py
@ -1,3 +1,4 @@
+# THIS IS NO LONGER IN USE
 import math
 import re
 from collections.abc import Generator
@ -5,11 +6,10 @@ from json import JSONDecodeError
 from typing import Optional

 import regex
+from pydantic import BaseModel

 from danswer.chat.models import DanswerAnswer
 from danswer.chat.models import DanswerAnswerPiece
-from danswer.chat.models import DanswerQuote
-from danswer.chat.models import DanswerQuotes
 from danswer.chat.models import LlmDoc
 from danswer.configs.chat_configs import QUOTE_ALLOWED_ERROR_PERCENT
 from danswer.context.search.models import InferenceChunk
@ -26,6 +26,20 @@ logger = setup_logger()
 answer_pattern = re.compile(r'{\s*"answer"\s*:\s*"', re.IGNORECASE)


+class DanswerQuote(BaseModel):
+    # This is during inference so everything is a string by this point
+    quote: str
+    document_id: str
+    link: str | None
+    source_type: str
+    semantic_identifier: str
+    blurb: str
+
+
+class DanswerQuotes(BaseModel):
+    quotes: list[DanswerQuote]
+
+
 def _extract_answer_quotes_freeform(
    answer_raw: str,
 ) -> tuple[Optional[str], Optional[list[str]]]:
--- a/backend/danswer/llm/factory.py
+++ b/backend/danswer/llm/factory.py
@ -1,5 +1,6 @@
 from typing import Any

+from danswer.chat.models import PersonaOverrideConfig
 from danswer.configs.app_configs import DISABLE_GENERATIVE_AI
 from danswer.configs.chat_configs import QA_TIMEOUT
 from danswer.configs.model_configs import GEN_AI_MODEL_FALLBACK_MAX_TOKENS
@ -13,8 +14,11 @@ from danswer.llm.exceptions import GenAIDisabledException
 from danswer.llm.interfaces import LLM
 from danswer.llm.override_models import LLMOverride
 from danswer.utils.headers import build_llm_extra_headers
+from danswer.utils.logger import setup_logger
 from danswer.utils.long_term_log import LongTermLogger

+logger = setup_logger()
+

 def _build_extra_model_kwargs(provider: str) -> dict[str, Any]:
    """Ollama requires us to specify the max context window.
@ -32,11 +36,15 @@ def get_main_llm_from_tuple(


 def get_llms_for_persona(
-    persona: Persona,
+    persona: Persona | PersonaOverrideConfig | None,
    llm_override: LLMOverride | None = None,
    additional_headers: dict[str, str] | None = None,
    long_term_logger: LongTermLogger | None = None,
 ) -> tuple[LLM, LLM]:
+    if persona is None:
+        logger.warning("No persona provided, using default LLMs")
+        return get_default_llms()
+
    model_provider_override = llm_override.model_provider if llm_override else None
    model_version_override = llm_override.model_version if llm_override else None
    temperature_override = llm_override.temperature if llm_override else None
--- a/backend/danswer/one_shot_answer/init.py
+++ b/backend/danswer/one_shot_answer/init.py
--- a/backend/danswer/one_shot_answer/answer_question.py
+++ b/backend/danswer/one_shot_answer/answer_question.py
@ -1,456 +0,0 @@
-from collections.abc import Callable
-from collections.abc import Iterator
-from typing import cast
-
-from sqlalchemy.orm import Session
-
-from danswer.chat.chat_utils import reorganize_citations
-from danswer.chat.models import CitationInfo
-from danswer.chat.models import DanswerAnswerPiece
-from danswer.chat.models import DanswerContexts
-from danswer.chat.models import DanswerQuotes
-from danswer.chat.models import DocumentRelevance
-from danswer.chat.models import LLMRelevanceFilterResponse
-from danswer.chat.models import QADocsResponse
-from danswer.chat.models import RelevanceAnalysis
-from danswer.chat.models import StreamingError
-from danswer.configs.chat_configs import DISABLE_LLM_DOC_RELEVANCE
-from danswer.configs.chat_configs import MAX_CHUNKS_FED_TO_CHAT
-from danswer.configs.chat_configs import QA_TIMEOUT
-from danswer.configs.constants import MessageType
-from danswer.context.search.enums import LLMEvaluationType
-from danswer.context.search.models import RerankMetricsContainer
-from danswer.context.search.models import RetrievalMetricsContainer
-from danswer.context.search.utils import chunks_or_sections_to_search_docs
-from danswer.context.search.utils import dedupe_documents
-from danswer.db.chat import create_chat_session
-from danswer.db.chat import create_db_search_doc
-from danswer.db.chat import create_new_chat_message
-from danswer.db.chat import get_or_create_root_message
-from danswer.db.chat import translate_db_message_to_chat_message_detail
-from danswer.db.chat import translate_db_search_doc_to_server_search_doc
-from danswer.db.chat import update_search_docs_table_with_relevance
-from danswer.db.engine import get_session_context_manager
-from danswer.db.models import Persona
-from danswer.db.models import User
-from danswer.db.persona import get_prompt_by_id
-from danswer.llm.answering.answer import Answer
-from danswer.llm.answering.models import AnswerStyleConfig
-from danswer.llm.answering.models import CitationConfig
-from danswer.llm.answering.models import DocumentPruningConfig
-from danswer.llm.answering.models import PromptConfig
-from danswer.llm.answering.models import QuotesConfig
-from danswer.llm.factory import get_llms_for_persona
-from danswer.llm.factory import get_main_llm_from_tuple
-from danswer.natural_language_processing.utils import get_tokenizer
-from danswer.one_shot_answer.models import DirectQARequest
-from danswer.one_shot_answer.models import OneShotQAResponse
-from danswer.one_shot_answer.models import QueryRephrase
-from danswer.one_shot_answer.qa_utils import combine_message_thread
-from danswer.one_shot_answer.qa_utils import slackify_message_thread
-from danswer.secondary_llm_flows.answer_validation import get_answer_validity
-from danswer.secondary_llm_flows.query_expansion import thread_based_query_rephrase
-from danswer.server.query_and_chat.models import ChatMessageDetail
-from danswer.server.utils import get_json_line
-from danswer.tools.force import ForceUseTool
-from danswer.tools.models import ToolResponse
-from danswer.tools.tool_implementations.search.search_tool import SEARCH_DOC_CONTENT_ID
-from danswer.tools.tool_implementations.search.search_tool import (
-    SEARCH_RESPONSE_SUMMARY_ID,
-)
-from danswer.tools.tool_implementations.search.search_tool import SearchResponseSummary
-from danswer.tools.tool_implementations.search.search_tool import SearchTool
-from danswer.tools.tool_implementations.search.search_tool import (
-    SECTION_RELEVANCE_LIST_ID,
-)
-from danswer.tools.tool_runner import ToolCallKickoff
-from danswer.utils.logger import setup_logger
-from danswer.utils.long_term_log import LongTermLogger
-from danswer.utils.timing import log_generator_function_time
-from danswer.utils.variable_functionality import fetch_ee_implementation_or_noop
-
-logger = setup_logger()
-
-AnswerObjectIterator = Iterator[
-    QueryRephrase
-    | QADocsResponse
-    | LLMRelevanceFilterResponse
-    | DanswerAnswerPiece
-    | DanswerQuotes
-    | DanswerContexts
-    | StreamingError
-    | ChatMessageDetail
-    | CitationInfo
-    | ToolCallKickoff
-    | DocumentRelevance
-]
-
-
-def stream_answer_objects(
-    query_req: DirectQARequest,
-    user: User | None,
-    # These need to be passed in because in Web UI one shot flow,
-    # we can have much more document as there is no history.
-    # For Slack flow, we need to save more tokens for the thread context
-    max_document_tokens: int | None,
-    max_history_tokens: int | None,
-    db_session: Session,
-    # Needed to translate persona num_chunks to tokens to the LLM
-    default_num_chunks: float = MAX_CHUNKS_FED_TO_CHAT,
-    timeout: int = QA_TIMEOUT,
-    bypass_acl: bool = False,
-    use_citations: bool = False,
-    danswerbot_flow: bool = False,
-    retrieval_metrics_callback: (
-        Callable[[RetrievalMetricsContainer], None] | None
-    ) = None,
-    rerank_metrics_callback: Callable[[RerankMetricsContainer], None] | None = None,
-) -> AnswerObjectIterator:
-    """Streams in order:
-    1. [always] Retrieved documents, stops flow if nothing is found
-    2. [conditional] LLM selected chunk indices if LLM chunk filtering is turned on
-    3. [always] A set of streamed DanswerAnswerPiece and DanswerQuotes at the end
-                or an error anywhere along the line if something fails
-    4. [always] Details on the final AI response message that is created
-    """
-    user_id = user.id if user is not None else None
-    query_msg = query_req.messages[-1]
-    history = query_req.messages[:-1]
-
-    chat_session = create_chat_session(
-        db_session=db_session,
-        description="",  # One shot queries don't need naming as it's never displayed
-        user_id=user_id,
-        persona_id=query_req.persona_id,
-        one_shot=True,
-        danswerbot_flow=danswerbot_flow,
-    )
-
-    # permanent "log" store, used primarily for debugging
-    long_term_logger = LongTermLogger(
-        metadata={"user_id": str(user_id), "chat_session_id": str(chat_session.id)}
-    )
-
-    temporary_persona: Persona | None = None
-
-    if query_req.persona_config is not None:
-        temporary_persona = fetch_ee_implementation_or_noop(
-            "danswer.server.query_and_chat.utils", "create_temporary_persona", None
-        )(db_session=db_session, persona_config=query_req.persona_config, user=user)
-
-    persona = temporary_persona if temporary_persona else chat_session.persona
-
-    try:
-        llm, fast_llm = get_llms_for_persona(
-            persona=persona, long_term_logger=long_term_logger
-        )
-    except ValueError as e:
-        logger.error(
-            f"Failed to initialize LLMs for persona '{persona.name}': {str(e)}"
-        )
-        if "No LLM provider" in str(e):
-            raise ValueError(
-                "Please configure a Generative AI model to use this feature."
-            ) from e
-        raise ValueError(
-            "Failed to initialize the AI model. Please check your configuration and try again."
-        ) from e
-
-    llm_tokenizer = get_tokenizer(
-        model_name=llm.config.model_name,
-        provider_type=llm.config.model_provider,
-    )
-
-    # Create a chat session which will just store the root message, the query, and the AI response
-    root_message = get_or_create_root_message(
-        chat_session_id=chat_session.id, db_session=db_session
-    )
-
-    history_str = combine_message_thread(
-        messages=history,
-        max_tokens=max_history_tokens,
-        llm_tokenizer=llm_tokenizer,
-    )
-
-    rephrased_query = query_req.query_override or thread_based_query_rephrase(
-        user_query=query_msg.message,
-        history_str=history_str,
-    )
-
-    # Given back ahead of the documents for latency reasons
-    # In chat flow it's given back along with the documents
-    yield QueryRephrase(rephrased_query=rephrased_query)
-
-    prompt = None
-    if query_req.prompt_id is not None:
-        # NOTE: let the user access any prompt as long as the Persona is shared
-        # with them
-        prompt = get_prompt_by_id(
-            prompt_id=query_req.prompt_id, user=None, db_session=db_session
-        )
-    if prompt is None:
-        if not persona.prompts:
-            raise RuntimeError(
-                "Persona does not have any prompts - this should never happen"
-            )
-        prompt = persona.prompts[0]
-
-    user_message_str = query_msg.message
-    # For this endpoint, we only save one user message to the chat session
-    # However, for slackbot, we want to include the history of the entire thread
-    if danswerbot_flow:
-        # Right now, we only support bringing over citations and search docs
-        # from the last message in the thread, not the entire thread
-        # in the future, we may want to retrieve the entire thread
-        user_message_str = slackify_message_thread(query_req.messages)
-
-    # Create the first User query message
-    new_user_message = create_new_chat_message(
-        chat_session_id=chat_session.id,
-        parent_message=root_message,
-        prompt_id=query_req.prompt_id,
-        message=user_message_str,
-        token_count=len(llm_tokenizer.encode(user_message_str)),
-        message_type=MessageType.USER,
-        db_session=db_session,
-        commit=True,
-    )
-
-    prompt_config = PromptConfig.from_model(prompt)
-    document_pruning_config = DocumentPruningConfig(
-        max_chunks=int(
-            persona.num_chunks if persona.num_chunks is not None else default_num_chunks
-        ),
-        max_tokens=max_document_tokens,
-    )
-
-    answer_config = AnswerStyleConfig(
-        citation_config=CitationConfig() if use_citations else None,
-        quotes_config=QuotesConfig() if not use_citations else None,
-        document_pruning_config=document_pruning_config,
-    )
-
-    search_tool = SearchTool(
-        db_session=db_session,
-        user=user,
-        evaluation_type=(
-            LLMEvaluationType.SKIP
-            if DISABLE_LLM_DOC_RELEVANCE
-            else query_req.evaluation_type
-        ),
-        persona=persona,
-        retrieval_options=query_req.retrieval_options,
-        prompt_config=prompt_config,
-        llm=llm,
-        fast_llm=fast_llm,
-        pruning_config=document_pruning_config,
-        answer_style_config=answer_config,
-        bypass_acl=bypass_acl,
-        chunks_above=query_req.chunks_above,
-        chunks_below=query_req.chunks_below,
-        full_doc=query_req.full_doc,
-    )
-
-    answer = Answer(
-        question=query_msg.message,
-        answer_style_config=answer_config,
-        prompt_config=PromptConfig.from_model(prompt),
-        llm=get_main_llm_from_tuple(
-            get_llms_for_persona(persona=persona, long_term_logger=long_term_logger)
-        ),
-        single_message_history=history_str,
-        tools=[search_tool] if search_tool else [],
-        force_use_tool=(
-            ForceUseTool(
-                tool_name=search_tool.name,
-                args={"query": rephrased_query},
-                force_use=True,
-            )
-        ),
-        # for now, don't use tool calling for this flow, as we haven't
-        # tested quotes with tool calling too much yet
-        skip_explicit_tool_calling=True,
-        return_contexts=query_req.return_contexts,
-        skip_gen_ai_answer_generation=query_req.skip_gen_ai_answer_generation,
-    )
-    # won't be any FileChatDisplay responses since that tool is never passed in
-    for packet in cast(AnswerObjectIterator, answer.processed_streamed_output):
-        # for one-shot flow, don't currently do anything with these
-        if isinstance(packet, ToolResponse):
-            # (likely fine that it comes after the initial creation of the search docs)
-            if packet.id == SEARCH_RESPONSE_SUMMARY_ID:
-                search_response_summary = cast(SearchResponseSummary, packet.response)
-
-                top_docs = chunks_or_sections_to_search_docs(
-                    search_response_summary.top_sections
-                )
-
-                # Deduping happens at the last step to avoid harming quality by dropping content early on
-                deduped_docs = top_docs
-                if query_req.retrieval_options.dedupe_docs:
-                    deduped_docs, dropped_inds = dedupe_documents(top_docs)
-
-                reference_db_search_docs = [
-                    create_db_search_doc(server_search_doc=doc, db_session=db_session)
-                    for doc in deduped_docs
-                ]
-
-                response_docs = [
-                    translate_db_search_doc_to_server_search_doc(db_search_doc)
-                    for db_search_doc in reference_db_search_docs
-                ]
-
-                initial_response = QADocsResponse(
-                    rephrased_query=rephrased_query,
-                    top_documents=response_docs,
-                    predicted_flow=search_response_summary.predicted_flow,
-                    predicted_search=search_response_summary.predicted_search,
-                    applied_source_filters=search_response_summary.final_filters.source_type,
-                    applied_time_cutoff=search_response_summary.final_filters.time_cutoff,
-                    recency_bias_multiplier=search_response_summary.recency_bias_multiplier,
-                )
-
-                yield initial_response
-
-            elif packet.id == SEARCH_DOC_CONTENT_ID:
-                yield packet.response
-
-            elif packet.id == SECTION_RELEVANCE_LIST_ID:
-                document_based_response = {}
-
-                if packet.response is not None:
-                    for evaluation in packet.response:
-                        document_based_response[
-                            evaluation.document_id
-                        ] = RelevanceAnalysis(
-                            relevant=evaluation.relevant, content=evaluation.content
-                        )
-
-                evaluation_response = DocumentRelevance(
-                    relevance_summaries=document_based_response
-                )
-                if reference_db_search_docs is not None:
-                    update_search_docs_table_with_relevance(
-                        db_session=db_session,
-                        reference_db_search_docs=reference_db_search_docs,
-                        relevance_summary=evaluation_response,
-                    )
-                yield evaluation_response
-
-        else:
-            yield packet
-
-    # Saving Gen AI answer and responding with message info
-    gen_ai_response_message = create_new_chat_message(
-        chat_session_id=chat_session.id,
-        parent_message=new_user_message,
-        prompt_id=query_req.prompt_id,
-        message=answer.llm_answer,
-        token_count=len(llm_tokenizer.encode(answer.llm_answer)),
-        message_type=MessageType.ASSISTANT,
-        error=None,
-        reference_docs=reference_db_search_docs,
-        db_session=db_session,
-        commit=True,
-    )
-
-    msg_detail_response = translate_db_message_to_chat_message_detail(
-        gen_ai_response_message
-    )
-    yield msg_detail_response
-
-
-@log_generator_function_time()
-def stream_search_answer(
-    query_req: DirectQARequest,
-    user: User | None,
-    max_document_tokens: int | None,
-    max_history_tokens: int | None,
-) -> Iterator[str]:
-    with get_session_context_manager() as session:
-        objects = stream_answer_objects(
-            query_req=query_req,
-            user=user,
-            max_document_tokens=max_document_tokens,
-            max_history_tokens=max_history_tokens,
-            db_session=session,
-        )
-        for obj in objects:
-            yield get_json_line(obj.model_dump())
-
-
-def get_search_answer(
-    query_req: DirectQARequest,
-    user: User | None,
-    max_document_tokens: int | None,
-    max_history_tokens: int | None,
-    db_session: Session,
-    answer_generation_timeout: int = QA_TIMEOUT,
-    enable_reflexion: bool = False,
-    bypass_acl: bool = False,
-    use_citations: bool = False,
-    danswerbot_flow: bool = False,
-    retrieval_metrics_callback: (
-        Callable[[RetrievalMetricsContainer], None] | None
-    ) = None,
-    rerank_metrics_callback: Callable[[RerankMetricsContainer], None] | None = None,
-) -> OneShotQAResponse:
-    """Collects the streamed one shot answer responses into a single object"""
-    qa_response = OneShotQAResponse()
-
-    results = stream_answer_objects(
-        query_req=query_req,
-        user=user,
-        max_document_tokens=max_document_tokens,
-        max_history_tokens=max_history_tokens,
-        db_session=db_session,
-        bypass_acl=bypass_acl,
-        use_citations=use_citations,
-        danswerbot_flow=danswerbot_flow,
-        timeout=answer_generation_timeout,
-        retrieval_metrics_callback=retrieval_metrics_callback,
-        rerank_metrics_callback=rerank_metrics_callback,
-    )
-
-    answer = ""
-    for packet in results:
-        if isinstance(packet, QueryRephrase):
-            qa_response.rephrase = packet.rephrased_query
-        if isinstance(packet, DanswerAnswerPiece) and packet.answer_piece:
-            answer += packet.answer_piece
-        elif isinstance(packet, QADocsResponse):
-            qa_response.docs = packet
-        elif isinstance(packet, LLMRelevanceFilterResponse):
-            qa_response.llm_selected_doc_indices = packet.llm_selected_doc_indices
-        elif isinstance(packet, DanswerQuotes):
-            qa_response.quotes = packet
-        elif isinstance(packet, CitationInfo):
-            if qa_response.citations:
-                qa_response.citations.append(packet)
-            else:
-                qa_response.citations = [packet]
-        elif isinstance(packet, DanswerContexts):
-            qa_response.contexts = packet
-        elif isinstance(packet, StreamingError):
-            qa_response.error_msg = packet.error
-        elif isinstance(packet, ChatMessageDetail):
-            qa_response.chat_message_id = packet.message_id
-
-    if answer:
-        qa_response.answer = answer
-
-    if enable_reflexion:
-        # Because follow up messages are explicitly tagged, we don't need to verify the answer
-        if len(query_req.messages) == 1:
-            first_query = query_req.messages[0].message
-            qa_response.answer_valid = get_answer_validity(first_query, answer)
-        else:
-            qa_response.answer_valid = True
-
-    if use_citations and qa_response.answer and qa_response.citations:
-        # Reorganize citation nums to be in the same order as the answer
-        qa_response.answer, qa_response.citations = reorganize_citations(
-            qa_response.answer, qa_response.citations
-        )
-
-    return qa_response
--- a/backend/danswer/one_shot_answer/models.py
+++ b/backend/danswer/one_shot_answer/models.py
@ -1,114 +0,0 @@
-from typing import Any
-
-from pydantic import BaseModel
-from pydantic import Field
-from pydantic import model_validator
-
-from danswer.chat.models import CitationInfo
-from danswer.chat.models import DanswerContexts
-from danswer.chat.models import DanswerQuotes
-from danswer.chat.models import QADocsResponse
-from danswer.configs.constants import MessageType
-from danswer.context.search.enums import LLMEvaluationType
-from danswer.context.search.enums import RecencyBiasSetting
-from danswer.context.search.enums import SearchType
-from danswer.context.search.models import ChunkContext
-from danswer.context.search.models import RerankingDetails
-from danswer.context.search.models import RetrievalDetails
-
-
-class QueryRephrase(BaseModel):
-    rephrased_query: str
-
-
-class ThreadMessage(BaseModel):
-    message: str
-    sender: str | None = None
-    role: MessageType = MessageType.USER
-
-
-class PromptConfig(BaseModel):
-    name: str
-    description: str = ""
-    system_prompt: str
-    task_prompt: str = ""
-    include_citations: bool = True
-    datetime_aware: bool = True
-
-
-class ToolConfig(BaseModel):
-    id: int
-
-
-class PersonaConfig(BaseModel):
-    name: str
-    description: str
-    search_type: SearchType = SearchType.SEMANTIC
-    num_chunks: float | None = None
-    llm_relevance_filter: bool = False
-    llm_filter_extraction: bool = False
-    recency_bias: RecencyBiasSetting = RecencyBiasSetting.AUTO
-    llm_model_provider_override: str | None = None
-    llm_model_version_override: str | None = None
-
-    prompts: list[PromptConfig] = Field(default_factory=list)
-    prompt_ids: list[int] = Field(default_factory=list)
-
-    document_set_ids: list[int] = Field(default_factory=list)
-    tools: list[ToolConfig] = Field(default_factory=list)
-    tool_ids: list[int] = Field(default_factory=list)
-    custom_tools_openapi: list[dict[str, Any]] = Field(default_factory=list)
-
-
-class DirectQARequest(ChunkContext):
-    persona_config: PersonaConfig | None = None
-    persona_id: int | None = None
-
-    messages: list[ThreadMessage]
-    prompt_id: int | None = None
-    multilingual_query_expansion: list[str] | None = None
-    retrieval_options: RetrievalDetails = Field(default_factory=RetrievalDetails)
-    rerank_settings: RerankingDetails | None = None
-    evaluation_type: LLMEvaluationType = LLMEvaluationType.UNSPECIFIED
-
-    chain_of_thought: bool = False
-    return_contexts: bool = False
-
-    # allows the caller to specify the exact search query they want to use
-    # can be used if the message sent to the LLM / query should not be the same
-    # will also disable Thread-based Rewording if specified
-    query_override: str | None = None
-
-    # If True, skips generative an AI response to the search query
-    skip_gen_ai_answer_generation: bool = False
-
-    @model_validator(mode="after")
-    def check_persona_fields(self) -> "DirectQARequest":
-        if (self.persona_config is None) == (self.persona_id is None):
-            raise ValueError("Exactly one of persona_config or persona_id must be set")
-        return self
-
-    @model_validator(mode="after")
-    def check_chain_of_thought_and_prompt_id(self) -> "DirectQARequest":
-        if self.chain_of_thought and self.prompt_id is not None:
-            raise ValueError(
-                "If chain_of_thought is True, prompt_id must be None"
-                "The chain of thought prompt is only for question "
-                "answering and does not accept customizing."
-            )
-
-        return self
-
-
-class OneShotQAResponse(BaseModel):
-    # This is built piece by piece, any of these can be None as the flow could break
-    answer: str | None = None
-    rephrase: str | None = None
-    quotes: DanswerQuotes | None = None
-    citations: list[CitationInfo] | None = None
-    docs: QADocsResponse | None = None
-    llm_selected_doc_indices: list[int] | None = None
-    error_msg: str | None = None
-    answer_valid: bool = True  # Reflexion result, default True if Reflexion not run
-    chat_message_id: int | None = None
-    contexts: DanswerContexts | None = None
--- a/backend/danswer/one_shot_answer/qa_utils.py
+++ b/backend/danswer/one_shot_answer/qa_utils.py
@ -1,81 +0,0 @@
-from collections.abc import Generator
-
-from danswer.configs.constants import MessageType
-from danswer.natural_language_processing.utils import BaseTokenizer
-from danswer.one_shot_answer.models import ThreadMessage
-from danswer.utils.logger import setup_logger
-
-logger = setup_logger()
-
-
-def simulate_streaming_response(model_out: str) -> Generator[str, None, None]:
-    """Mock streaming by generating the passed in model output, character by character"""
-    for token in model_out:
-        yield token
-
-
-def combine_message_thread(
-    messages: list[ThreadMessage],
-    max_tokens: int | None,
-    llm_tokenizer: BaseTokenizer,
-) -> str:
-    """Used to create a single combined message context from threads"""
-    if not messages:
-        return ""
-
-    message_strs: list[str] = []
-    total_token_count = 0
-
-    for message in reversed(messages):
-        if message.role == MessageType.USER:
-            role_str = message.role.value.upper()
-            if message.sender:
-                role_str += " " + message.sender
-            else:
-                # Since other messages might have the user identifying information
-                # better to use Unknown for symmetry
-                role_str += " Unknown"
-        else:
-            role_str = message.role.value.upper()
-
-        msg_str = f"{role_str}:\n{message.message}"
-        message_token_count = len(llm_tokenizer.encode(msg_str))
-
-        if (
-            max_tokens is not None
-            and total_token_count + message_token_count > max_tokens
-        ):
-            break
-
-        message_strs.insert(0, msg_str)
-        total_token_count += message_token_count
-
-    return "\n\n".join(message_strs)
-
-
-def slackify_message(message: ThreadMessage) -> str:
-    if message.role != MessageType.USER:
-        return message.message
-
-    return f"{message.sender or 'Unknown User'} said in Slack:\n{message.message}"
-
-
-def slackify_message_thread(messages: list[ThreadMessage]) -> str:
-    if not messages:
-        return ""
-
-    message_strs: list[str] = []
-    for message in messages:
-        if message.role == MessageType.USER:
-            message_text = (
-                f"{message.sender or 'Unknown User'} said in Slack:\n{message.message}"
-            )
-        elif message.role == MessageType.ASSISTANT:
-            message_text = f"DanswerBot said in Slack:\n{message.message}"
-        else:
-            message_text = (
-                f"{message.role.value.upper()} said in Slack:\n{message.message}"
-            )
-        message_strs.append(message_text)
-
-    return "\n\n".join(message_strs)
--- a/backend/danswer/server/manage/models.py
+++ b/backend/danswer/server/manage/models.py
@ -1,4 +1,5 @@
 from datetime import datetime
+from enum import Enum
 from typing import TYPE_CHECKING

 from pydantic import BaseModel
@ -15,7 +16,6 @@ from danswer.danswerbot.slack.config import VALID_SLACK_FILTERS
 from danswer.db.models import AllowedAnswerFilters
 from danswer.db.models import ChannelConfig
 from danswer.db.models import SlackBot as SlackAppModel
-from danswer.db.models import SlackBotResponseType
 from danswer.db.models import SlackChannelConfig as SlackChannelConfigModel
 from danswer.db.models import User
 from danswer.server.features.persona.models import PersonaSnapshot
@ -148,6 +148,12 @@ class SlackBotTokens(BaseModel):
    model_config = ConfigDict(frozen=True)


+# TODO No longer in use, remove later
+class SlackBotResponseType(str, Enum):
+    QUOTES = "quotes"
+    CITATIONS = "citations"
+
+
 class SlackChannelConfigCreationRequest(BaseModel):
    slack_bot_id: int
    # currently, a persona is created for each Slack channel config
@ -197,7 +203,6 @@ class SlackChannelConfig(BaseModel):
    id: int
    persona: PersonaSnapshot | None
    channel_config: ChannelConfig
-    response_type: SlackBotResponseType
    # XXX this is going away soon
    standard_answer_categories: list[StandardAnswerCategory]
    enable_auto_filters: bool
@ -217,7 +222,6 @@ class SlackChannelConfig(BaseModel):
                else None
            ),
            channel_config=slack_channel_config_model.channel_config,
-            response_type=slack_channel_config_model.response_type,
            # XXX this is going away soon
            standard_answer_categories=[
                StandardAnswerCategory.from_model(standard_answer_category_model)
--- a/backend/danswer/server/manage/slack_bot.py
+++ b/backend/danswer/server/manage/slack_bot.py
@ -118,7 +118,6 @@ def create_slack_channel_config(
        slack_bot_id=slack_channel_config_creation_request.slack_bot_id,
        persona_id=persona_id,
        channel_config=channel_config,
-        response_type=slack_channel_config_creation_request.response_type,
        standard_answer_category_ids=slack_channel_config_creation_request.standard_answer_categories,
        db_session=db_session,
        enable_auto_filters=slack_channel_config_creation_request.enable_auto_filters,
@ -182,7 +181,6 @@ def patch_slack_channel_config(
        slack_channel_config_id=slack_channel_config_id,
        persona_id=persona_id,
        channel_config=channel_config,
-        response_type=slack_channel_config_creation_request.response_type,
        standard_answer_category_ids=slack_channel_config_creation_request.standard_answer_categories,
        enable_auto_filters=slack_channel_config_creation_request.enable_auto_filters,
    )
--- a/backend/danswer/server/openai_assistants_api/runs_api.py
+++ b/backend/danswer/server/openai_assistants_api/runs_api.py
@ -109,6 +109,7 @@ def process_run_in_background(
        prompt_id=chat_session.persona.prompts[0].id,
        search_doc_ids=None,
        retrieval_options=search_tool_retrieval_details,  # Adjust as needed
+        rerank_settings=None,
        query_override=None,
        regenerate=None,
        llm_override=None,
--- a/backend/danswer/server/query_and_chat/models.py
+++ b/backend/danswer/server/query_and_chat/models.py
@ -5,12 +5,14 @@ from uuid import UUID
 from pydantic import BaseModel
 from pydantic import model_validator

+from danswer.chat.models import PersonaOverrideConfig
 from danswer.chat.models import RetrievalDocs
 from danswer.configs.constants import DocumentSource
 from danswer.configs.constants import MessageType
 from danswer.configs.constants import SearchFeedbackType
 from danswer.context.search.models import BaseFilters
 from danswer.context.search.models import ChunkContext
+from danswer.context.search.models import RerankingDetails
 from danswer.context.search.models import RetrievalDetails
 from danswer.context.search.models import SearchDoc
 from danswer.context.search.models import Tag
@ -87,6 +89,8 @@ class CreateChatMessageRequest(ChunkContext):
    # If search_doc_ids provided, then retrieval options are unused
    search_doc_ids: list[int] | None
    retrieval_options: RetrievalDetails | None
+    # Useable via the APIs but not recommended for most flows
+    rerank_settings: RerankingDetails | None = None
    # allows the caller to specify the exact search query they want to use
    # will disable Query Rewording if specified
    query_override: str | None = None
@ -102,6 +106,10 @@ class CreateChatMessageRequest(ChunkContext):
    # allow user to specify an alternate assistnat
    alternate_assistant_id: int | None = None

+    # This takes the priority over the prompt_override
+    # This won't be a type that's passed in directly from the API
+    persona_override_config: PersonaOverrideConfig | None = None
+
    # used for seeded chats to kick off the generation of an AI answer
    use_existing_user_message: bool = False

@ -145,7 +153,7 @@ class RenameChatSessionResponse(BaseModel):

 class ChatSessionDetails(BaseModel):
    id: UUID
-    name: str
+    name: str | None
    persona_id: int | None = None
    time_created: str
    shared_status: ChatSessionSharedStatus
@ -198,14 +206,14 @@ class ChatMessageDetail(BaseModel):

 class SearchSessionDetailResponse(BaseModel):
    search_session_id: UUID
-    description: str
+    description: str | None
    documents: list[SearchDoc]
    messages: list[ChatMessageDetail]


 class ChatSessionDetailResponse(BaseModel):
    chat_session_id: UUID
-    description: str
+    description: str | None
    persona_id: int | None = None
    persona_name: str | None
    messages: list[ChatMessageDetail]
--- a/backend/danswer/server/query_and_chat/query_backend.py
+++ b/backend/danswer/server/query_and_chat/query_backend.py
@ -1,15 +1,11 @@
-import json
-from collections.abc import Generator
 from uuid import UUID

 from fastapi import APIRouter
 from fastapi import Depends
 from fastapi import HTTPException
-from fastapi.responses import StreamingResponse
 from sqlalchemy.orm import Session

 from danswer.auth.users import current_curator_or_admin_user
-from danswer.auth.users import current_limited_user
 from danswer.auth.users import current_user
 from danswer.configs.constants import DocumentSource
 from danswer.configs.constants import MessageType
@ -32,8 +28,6 @@ from danswer.db.search_settings import get_current_search_settings
 from danswer.db.tag import find_tags
 from danswer.document_index.factory import get_default_document_index
 from danswer.document_index.vespa.index import VespaIndex
-from danswer.one_shot_answer.answer_question import stream_search_answer
-from danswer.one_shot_answer.models import DirectQARequest
 from danswer.server.query_and_chat.models import AdminSearchRequest
 from danswer.server.query_and_chat.models import AdminSearchResponse
 from danswer.server.query_and_chat.models import ChatSessionDetails
@ -41,7 +35,6 @@ from danswer.server.query_and_chat.models import ChatSessionsResponse
 from danswer.server.query_and_chat.models import SearchSessionDetailResponse
 from danswer.server.query_and_chat.models import SourceTag
 from danswer.server.query_and_chat.models import TagResponse
-from danswer.server.query_and_chat.token_limit import check_token_rate_limits
 from danswer.utils.logger import setup_logger

 logger = setup_logger()
@ -140,7 +133,7 @@ def get_user_search_sessions(

    try:
        search_sessions = get_chat_sessions_by_user(
-            user_id=user_id, deleted=False, db_session=db_session, only_one_shot=True
+            user_id=user_id, deleted=False, db_session=db_session
        )
    except ValueError:
        raise HTTPException(
@ -229,29 +222,3 @@ def get_search_session(
        ],
    )
    return response
-
-
-@basic_router.post("/stream-answer-with-quote")
-def get_answer_with_quote(
-    query_request: DirectQARequest,
-    user: User = Depends(current_limited_user),
-    _: None = Depends(check_token_rate_limits),
-) -> StreamingResponse:
-    query = query_request.messages[0].message
-
-    logger.notice(f"Received query for one shot answer with quotes: {query}")
-
-    def stream_generator() -> Generator[str, None, None]:
-        try:
-            for packet in stream_search_answer(
-                query_req=query_request,
-                user=user,
-                max_document_tokens=None,
-                max_history_tokens=0,
-            ):
-                yield json.dumps(packet) if isinstance(packet, dict) else packet
-        except Exception as e:
-            logger.exception("Error in search answer streaming")
-            yield json.dumps({"error": str(e)})
-
-    return StreamingResponse(stream_generator(), media_type="application/json")
--- a/backend/danswer/tools/tool_constructor.py
+++ b/backend/danswer/tools/tool_constructor.py
@ -13,6 +13,7 @@ from danswer.configs.chat_configs import BING_API_KEY
 from danswer.configs.model_configs import GEN_AI_TEMPERATURE
 from danswer.context.search.enums import LLMEvaluationType
 from danswer.context.search.models import InferenceSection
+from danswer.context.search.models import RerankingDetails
 from danswer.context.search.models import RetrievalDetails
 from danswer.db.llm import fetch_existing_llm_providers
 from danswer.db.models import Persona
@ -102,11 +103,14 @@ class SearchToolConfig(BaseModel):
        default_factory=DocumentPruningConfig
    )
    retrieval_options: RetrievalDetails = Field(default_factory=RetrievalDetails)
+    rerank_settings: RerankingDetails | None = None
    selected_sections: list[InferenceSection] | None = None
    chunks_above: int = 0
    chunks_below: int = 0
    full_doc: bool = False
    latest_query_files: list[InMemoryChatFile] | None = None
+    # Use with care, should only be used for DanswerBot in channels with multiple users
+    bypass_acl: bool = False


 class InternetSearchToolConfig(BaseModel):
@ -170,6 +174,8 @@ def construct_tools(
                        if persona.llm_relevance_filter
                        else LLMEvaluationType.SKIP
                    ),
+                    rerank_settings=search_tool_config.rerank_settings,
+                    bypass_acl=search_tool_config.bypass_acl,
                )
                tool_dict[db_tool_model.id] = [search_tool]

--- a/backend/danswer/tools/tool_implementations/search/search_tool.py
+++ b/backend/danswer/tools/tool_implementations/search/search_tool.py
@ -19,6 +19,7 @@ from danswer.context.search.enums import QueryFlow
 from danswer.context.search.enums import SearchType
 from danswer.context.search.models import IndexFilters
 from danswer.context.search.models import InferenceSection
+from danswer.context.search.models import RerankingDetails
 from danswer.context.search.models import RetrievalDetails
 from danswer.context.search.models import SearchRequest
 from danswer.context.search.pipeline import SearchPipeline
@ -103,6 +104,7 @@ class SearchTool(Tool):
        chunks_below: int | None = None,
        full_doc: bool = False,
        bypass_acl: bool = False,
+        rerank_settings: RerankingDetails | None = None,
    ) -> None:
        self.user = user
        self.persona = persona
@ -118,6 +120,9 @@ class SearchTool(Tool):
        self.bypass_acl = bypass_acl
        self.db_session = db_session

+        # Only used via API
+        self.rerank_settings = rerank_settings
+
        self.chunks_above = (
            chunks_above
            if chunks_above is not None
@ -292,6 +297,7 @@ class SearchTool(Tool):
                    self.retrieval_options.offset if self.retrieval_options else None
                ),
                limit=self.retrieval_options.limit if self.retrieval_options else None,
+                rerank_settings=self.rerank_settings,
                chunks_above=self.chunks_above,
                chunks_below=self.chunks_below,
                full_doc=self.full_doc,
--- a/backend/ee/danswer/chat/process_message.py
+++ b/backend/ee/danswer/chat/process_message.py
@ -0,0 +1,41 @@
+from danswer.chat.models import AllCitations
+from danswer.chat.models import DanswerAnswerPiece
+from danswer.chat.models import DanswerContexts
+from danswer.chat.models import LLMRelevanceFilterResponse
+from danswer.chat.models import QADocsResponse
+from danswer.chat.models import StreamingError
+from danswer.chat.process_message import ChatPacketStream
+from danswer.server.query_and_chat.models import ChatMessageDetail
+from danswer.utils.timing import log_function_time
+from ee.danswer.server.query_and_chat.models import OneShotQAResponse
+
+
+@log_function_time()
+def gather_stream_for_answer_api(
+    packets: ChatPacketStream,
+) -> OneShotQAResponse:
+    response = OneShotQAResponse()
+
+    answer = ""
+    for packet in packets:
+        if isinstance(packet, DanswerAnswerPiece) and packet.answer_piece:
+            answer += packet.answer_piece
+        elif isinstance(packet, QADocsResponse):
+            response.docs = packet
+            # Extraneous, provided for backwards compatibility
+            response.rephrase = packet.rephrased_query
+        elif isinstance(packet, StreamingError):
+            response.error_msg = packet.error
+        elif isinstance(packet, ChatMessageDetail):
+            response.chat_message_id = packet.message_id
+        elif isinstance(packet, LLMRelevanceFilterResponse):
+            response.llm_selected_doc_indices = packet.llm_selected_doc_indices
+        elif isinstance(packet, AllCitations):
+            response.citations = packet.citations
+        elif isinstance(packet, DanswerContexts):
+            response.contexts = packet
+
+    if answer:
+        response.answer = answer
+
+    return response
--- a/backend/ee/danswer/danswerbot/slack/handlers/handle_standard_answers.py
+++ b/backend/ee/danswer/danswerbot/slack/handlers/handle_standard_answers.py
@ -155,7 +155,6 @@ def _handle_standard_answers(
            else 0,
            danswerbot_flow=True,
            slack_thread_id=slack_thread_id,
-            one_shot=True,
        )

        root_message = get_or_create_root_message(
--- a/backend/ee/danswer/db/usage_export.py
+++ b/backend/ee/danswer/db/usage_export.py
@ -33,12 +33,7 @@ def get_empty_chat_messages_entries__paginated(

    message_skeletons: list[ChatMessageSkeleton] = []
    for chat_session in chat_sessions:
-        if chat_session.one_shot:
-            flow_type = FlowType.SEARCH
-        elif chat_session.danswerbot_flow:
-            flow_type = FlowType.SLACK
-        else:
-            flow_type = FlowType.CHAT
+        flow_type = FlowType.SLACK if chat_session.danswerbot_flow else FlowType.CHAT

        for message in chat_session.messages:
            # Only count user messages
--- a/backend/ee/danswer/server/query_and_chat/chat_backend.py
+++ b/backend/ee/danswer/server/query_and_chat/chat_backend.py
@ -6,6 +6,7 @@ from fastapi import HTTPException
 from sqlalchemy.orm import Session

 from danswer.auth.users import current_user
+from danswer.chat.chat_utils import combine_message_thread
 from danswer.chat.chat_utils import create_chat_chain
 from danswer.chat.models import AllCitations
 from danswer.chat.models import DanswerAnswerPiece
@ -16,8 +17,8 @@ from danswer.chat.models import QADocsResponse
 from danswer.chat.models import StreamingError
 from danswer.chat.process_message import ChatPacketStream
 from danswer.chat.process_message import stream_chat_message_objects
+from danswer.configs.chat_configs import CHAT_TARGET_CHUNK_PERCENTAGE
 from danswer.configs.constants import MessageType
-from danswer.configs.danswerbot_configs import DANSWER_BOT_TARGET_CHUNK_PERCENTAGE
 from danswer.context.search.models import OptionalSearchSetting
 from danswer.context.search.models import RetrievalDetails
 from danswer.context.search.models import SavedSearchDoc
@ -29,7 +30,6 @@ from danswer.db.models import User
 from danswer.llm.factory import get_llms_for_persona
 from danswer.llm.utils import get_max_input_tokens
 from danswer.natural_language_processing.utils import get_tokenizer
-from danswer.one_shot_answer.qa_utils import combine_message_thread
 from danswer.secondary_llm_flows.query_expansion import thread_based_query_rephrase
 from danswer.server.query_and_chat.models import ChatMessageDetail
 from danswer.server.query_and_chat.models import CreateChatMessageRequest
@ -171,6 +171,8 @@ def handle_simplified_chat_message(
        prompt_id=None,
        search_doc_ids=chat_message_req.search_doc_ids,
        retrieval_options=retrieval_options,
+        # Simple API does not support reranking, hide complexity from user
+        rerank_settings=None,
        query_override=chat_message_req.query_override,
        # Currently only applies to search flow not chat
        chunks_above=0,
@ -232,7 +234,6 @@ def handle_send_message_simple_with_history(
        description="handle_send_message_simple_with_history",
        user_id=user_id,
        persona_id=req.persona_id,
-        one_shot=False,
    )

    llm, _ = get_llms_for_persona(persona=chat_session.persona)
@ -245,7 +246,7 @@ def handle_send_message_simple_with_history(
    input_tokens = get_max_input_tokens(
        model_name=llm.config.model_name, model_provider=llm.config.model_provider
    )
-    max_history_tokens = int(input_tokens * DANSWER_BOT_TARGET_CHUNK_PERCENTAGE)
+    max_history_tokens = int(input_tokens * CHAT_TARGET_CHUNK_PERCENTAGE)

    # Every chat Session begins with an empty root message
    root_message = get_or_create_root_message(
@ -293,6 +294,8 @@ def handle_send_message_simple_with_history(
        prompt_id=req.prompt_id,
        search_doc_ids=req.search_doc_ids,
        retrieval_options=retrieval_options,
+        # Simple API does not support reranking, hide complexity from user
+        rerank_settings=None,
        query_override=rephrased_query,
        chunks_above=0,
        chunks_below=0,
--- a/backend/ee/danswer/server/query_and_chat/models.py
+++ b/backend/ee/danswer/server/query_and_chat/models.py
@ -2,7 +2,13 @@ from uuid import UUID

 from pydantic import BaseModel
 from pydantic import Field
+from pydantic import model_validator

+from danswer.chat.models import CitationInfo
+from danswer.chat.models import DanswerContexts
+from danswer.chat.models import PersonaOverrideConfig
+from danswer.chat.models import QADocsResponse
+from danswer.chat.models import ThreadMessage
 from danswer.configs.constants import DocumentSource
 from danswer.context.search.enums import LLMEvaluationType
 from danswer.context.search.enums import SearchType
@ -10,7 +16,6 @@ from danswer.context.search.models import ChunkContext
 from danswer.context.search.models import RerankingDetails
 from danswer.context.search.models import RetrievalDetails
 from danswer.context.search.models import SavedSearchDoc
-from danswer.one_shot_answer.models import ThreadMessage
 from ee.danswer.server.manage.models import StandardAnswer


@ -96,3 +101,48 @@ class ChatBasicResponse(BaseModel):
    # TODO: deprecate both of these
    simple_search_docs: list[SimpleDoc] | None = None
    llm_chunks_indices: list[int] | None = None
+
+
+class OneShotQARequest(ChunkContext):
+    # Supports simplier APIs that don't deal with chat histories or message edits
+    # Easier APIs to work with for developers
+    persona_override_config: PersonaOverrideConfig | None = None
+    persona_id: int | None = None
+
+    messages: list[ThreadMessage]
+    prompt_id: int | None = None
+    retrieval_options: RetrievalDetails = Field(default_factory=RetrievalDetails)
+    rerank_settings: RerankingDetails | None = None
+    return_contexts: bool = False
+
+    # allows the caller to specify the exact search query they want to use
+    # can be used if the message sent to the LLM / query should not be the same
+    # will also disable Thread-based Rewording if specified
+    query_override: str | None = None
+
+    # If True, skips generative an AI response to the search query
+    skip_gen_ai_answer_generation: bool = False
+
+    @model_validator(mode="after")
+    def check_persona_fields(self) -> "OneShotQARequest":
+        if self.persona_override_config is None and self.persona_id is None:
+            raise ValueError("Exactly one of persona_config or persona_id must be set")
+        elif self.persona_override_config is not None and (
+            self.persona_id is not None or self.prompt_id is not None
+        ):
+            raise ValueError(
+                "If persona_override_config is set, persona_id and prompt_id cannot be set"
+            )
+        return self
+
+
+class OneShotQAResponse(BaseModel):
+    # This is built piece by piece, any of these can be None as the flow could break
+    answer: str | None = None
+    rephrase: str | None = None
+    citations: list[CitationInfo] | None = None
+    docs: QADocsResponse | None = None
+    llm_selected_doc_indices: list[int] | None = None
+    error_msg: str | None = None
+    chat_message_id: int | None = None
+    contexts: DanswerContexts | None = None
--- a/backend/ee/danswer/server/query_and_chat/query_backend.py
+++ b/backend/ee/danswer/server/query_and_chat/query_backend.py
@ -1,38 +1,47 @@
+import json
+from collections.abc import Generator
+
 from fastapi import APIRouter
 from fastapi import Depends
 from fastapi import HTTPException
+from fastapi.responses import StreamingResponse
 from pydantic import BaseModel
 from sqlalchemy.orm import Session

 from danswer.auth.users import current_user
-from danswer.configs.danswerbot_configs import DANSWER_BOT_TARGET_CHUNK_PERCENTAGE
+from danswer.chat.chat_utils import combine_message_thread
+from danswer.chat.chat_utils import prepare_chat_message_request
+from danswer.chat.models import PersonaOverrideConfig
+from danswer.chat.process_message import ChatPacketStream
+from danswer.chat.process_message import stream_chat_message_objects
+from danswer.configs.danswerbot_configs import MAX_THREAD_CONTEXT_PERCENTAGE
 from danswer.context.search.models import SavedSearchDocWithContent
 from danswer.context.search.models import SearchRequest
 from danswer.context.search.pipeline import SearchPipeline
 from danswer.context.search.utils import dedupe_documents
 from danswer.context.search.utils import drop_llm_indices
 from danswer.context.search.utils import relevant_sections_to_indices
+from danswer.db.chat import get_prompt_by_id
 from danswer.db.engine import get_session
+from danswer.db.models import Persona
 from danswer.db.models import User
 from danswer.db.persona import get_persona_by_id
-from danswer.llm.answering.prompts.citations_prompt import (
-    compute_max_document_tokens_for_persona,
-)
 from danswer.llm.factory import get_default_llms
 from danswer.llm.factory import get_llms_for_persona
 from danswer.llm.factory import get_main_llm_from_tuple
 from danswer.llm.utils import get_max_input_tokens
-from danswer.one_shot_answer.answer_question import get_search_answer
-from danswer.one_shot_answer.models import DirectQARequest
-from danswer.one_shot_answer.models import OneShotQAResponse
+from danswer.natural_language_processing.utils import get_tokenizer
+from danswer.server.utils import get_json_line
 from danswer.utils.logger import setup_logger
+from ee.danswer.chat.process_message import gather_stream_for_answer_api
 from ee.danswer.danswerbot.slack.handlers.handle_standard_answers import (
    oneoff_standard_answers,
 )
 from ee.danswer.server.query_and_chat.models import DocumentSearchRequest
+from ee.danswer.server.query_and_chat.models import OneShotQARequest
+from ee.danswer.server.query_and_chat.models import OneShotQAResponse
 from ee.danswer.server.query_and_chat.models import StandardAnswerRequest
 from ee.danswer.server.query_and_chat.models import StandardAnswerResponse
-from ee.danswer.server.query_and_chat.utils import create_temporary_persona


 logger = setup_logger()
@ -125,58 +134,115 @@ def handle_search_request(
    return DocumentSearchResponse(top_documents=deduped_docs, llm_indices=llm_indices)


-@basic_router.post("/answer-with-quote")
-def get_answer_with_quote(
-    query_request: DirectQARequest,
+def get_answer_stream(
+    query_request: OneShotQARequest,
    user: User | None = Depends(current_user),
    db_session: Session = Depends(get_session),
-) -> OneShotQAResponse:
+) -> ChatPacketStream:
    query = query_request.messages[0].message
-    logger.notice(f"Received query for one shot answer API with quotes: {query}")
+    logger.notice(f"Received query for Answer API: {query}")

-    if query_request.persona_config is not None:
-        new_persona = create_temporary_persona(
-            db_session=db_session,
-            persona_config=query_request.persona_config,
+    if (
+        query_request.persona_override_config is None
+        and query_request.persona_id is None
+    ):
+        raise KeyError("Must provide persona ID or Persona Config")
+
+    prompt = None
+    if query_request.prompt_id is not None:
+        prompt = get_prompt_by_id(
+            prompt_id=query_request.prompt_id,
            user=user,
+            db_session=db_session,
        )
-        persona = new_persona

+    persona_info: Persona | PersonaOverrideConfig | None = None
+    if query_request.persona_override_config is not None:
+        persona_info = query_request.persona_override_config
    elif query_request.persona_id is not None:
-        persona = get_persona_by_id(
+        persona_info = get_persona_by_id(
            persona_id=query_request.persona_id,
            user=user,
            db_session=db_session,
            is_for_edit=False,
        )
-    else:
-        raise KeyError("Must provide persona ID or Persona Config")

-    llm = get_main_llm_from_tuple(
-        get_default_llms() if not persona else get_llms_for_persona(persona)
+    llm = get_main_llm_from_tuple(get_llms_for_persona(persona_info))
+
+    llm_tokenizer = get_tokenizer(
+        model_name=llm.config.model_name,
+        provider_type=llm.config.model_provider,
    )
+
    input_tokens = get_max_input_tokens(
        model_name=llm.config.model_name, model_provider=llm.config.model_provider
    )
-    max_history_tokens = int(input_tokens * DANSWER_BOT_TARGET_CHUNK_PERCENTAGE)
+    max_history_tokens = int(input_tokens * MAX_THREAD_CONTEXT_PERCENTAGE)

-    remaining_tokens = input_tokens - max_history_tokens
-
-    max_document_tokens = compute_max_document_tokens_for_persona(
-        persona=persona,
-        actual_user_input=query,
-        max_llm_token_override=remaining_tokens,
+    combined_message = combine_message_thread(
+        messages=query_request.messages,
+        max_tokens=max_history_tokens,
+        llm_tokenizer=llm_tokenizer,
    )

-    answer_details = get_search_answer(
-        query_req=query_request,
+    # Also creates a new chat session
+    request = prepare_chat_message_request(
+        message_text=combined_message,
        user=user,
-        max_document_tokens=max_document_tokens,
-        max_history_tokens=max_history_tokens,
+        persona_id=query_request.persona_id,
+        persona_override_config=query_request.persona_override_config,
+        prompt=prompt,
+        message_ts_to_respond_to=None,
+        retrieval_details=query_request.retrieval_options,
+        rerank_settings=query_request.rerank_settings,
        db_session=db_session,
    )

-    return answer_details
+    packets = stream_chat_message_objects(
+        new_msg_req=request,
+        user=user,
+        db_session=db_session,
+        include_contexts=query_request.return_contexts,
+    )
+
+    return packets
+
+
+@basic_router.post("/answer-with-citation")
+def get_answer_with_citation(
+    request: OneShotQARequest,
+    db_session: Session = Depends(get_session),
+    user: User | None = Depends(current_user),
+) -> OneShotQAResponse:
+    try:
+        packets = get_answer_stream(request, user, db_session)
+        answer = gather_stream_for_answer_api(packets)
+
+        if answer.error_msg:
+            raise RuntimeError(answer.error_msg)
+
+        return answer
+    except Exception as e:
+        logger.error(f"Error in get_answer_with_citation: {str(e)}", exc_info=True)
+        raise HTTPException(status_code=500, detail="An internal server error occurred")
+
+
+@basic_router.post("/stream-answer-with-citation")
+def stream_answer_with_citation(
+    request: OneShotQARequest,
+    db_session: Session = Depends(get_session),
+    user: User | None = Depends(current_user),
+) -> StreamingResponse:
+    def stream_generator() -> Generator[str, None, None]:
+        try:
+            for packet in get_answer_stream(request, user, db_session):
+                serialized = get_json_line(packet.model_dump())
+                yield serialized
+        except Exception as e:
+            logger.exception("Error in answer streaming")
+            yield json.dumps({"error": str(e)})
+
+    return StreamingResponse(stream_generator(), media_type="application/json")


@basic_router.get("/standard-answer")
--- a/backend/ee/danswer/server/query_and_chat/utils.py
+++ b/backend/ee/danswer/server/query_and_chat/utils.py
@ -1,85 +0,0 @@
-from typing import cast
-
-from fastapi import HTTPException
-from sqlalchemy.orm import Session
-
-from danswer.auth.users import is_user_admin
-from danswer.db.llm import fetch_existing_doc_sets
-from danswer.db.llm import fetch_existing_tools
-from danswer.db.models import Persona
-from danswer.db.models import Prompt
-from danswer.db.models import Tool
-from danswer.db.models import User
-from danswer.db.persona import get_prompts_by_ids
-from danswer.one_shot_answer.models import PersonaConfig
-from danswer.tools.tool_implementations.custom.custom_tool import (
-    build_custom_tools_from_openapi_schema_and_headers,
-)
-
-
-def create_temporary_persona(
-    persona_config: PersonaConfig, db_session: Session, user: User | None = None
-) -> Persona:
-    if not is_user_admin(user):
-        raise HTTPException(
-            status_code=403,
-            detail="User is not authorized to create a persona in one shot queries",
-        )
-
-    """Create a temporary Persona object from the provided configuration."""
-    persona = Persona(
-        name=persona_config.name,
-        description=persona_config.description,
-        num_chunks=persona_config.num_chunks,
-        llm_relevance_filter=persona_config.llm_relevance_filter,
-        llm_filter_extraction=persona_config.llm_filter_extraction,
-        recency_bias=persona_config.recency_bias,
-        llm_model_provider_override=persona_config.llm_model_provider_override,
-        llm_model_version_override=persona_config.llm_model_version_override,
-    )
-
-    if persona_config.prompts:
-        persona.prompts = [
-            Prompt(
-                name=p.name,
-                description=p.description,
-                system_prompt=p.system_prompt,
-                task_prompt=p.task_prompt,
-                include_citations=p.include_citations,
-                datetime_aware=p.datetime_aware,
-            )
-            for p in persona_config.prompts
-        ]
-    elif persona_config.prompt_ids:
-        persona.prompts = get_prompts_by_ids(
-            db_session=db_session, prompt_ids=persona_config.prompt_ids
-        )
-
-    persona.tools = []
-    if persona_config.custom_tools_openapi:
-        for schema in persona_config.custom_tools_openapi:
-            tools = cast(
-                list[Tool],
-                build_custom_tools_from_openapi_schema_and_headers(schema),
-            )
-            persona.tools.extend(tools)
-
-    if persona_config.tools:
-        tool_ids = [tool.id for tool in persona_config.tools]
-        persona.tools.extend(
-            fetch_existing_tools(db_session=db_session, tool_ids=tool_ids)
-        )
-
-    if persona_config.tool_ids:
-        persona.tools.extend(
-            fetch_existing_tools(
-                db_session=db_session, tool_ids=persona_config.tool_ids
-            )
-        )
-
-    fetched_docs = fetch_existing_doc_sets(
-        db_session=db_session, doc_ids=persona_config.document_set_ids
-    )
-    persona.document_sets = fetched_docs
-
-    return persona
--- a/backend/ee/danswer/server/query_history/api.py
+++ b/backend/ee/danswer/server/query_history/api.py
@ -179,13 +179,7 @@ class QuestionAnswerPairSnapshot(BaseModel):


 def determine_flow_type(chat_session: ChatSession) -> SessionType:
-    return (
-        SessionType.SLACK
-        if chat_session.danswerbot_flow
-        else SessionType.SEARCH
-        if chat_session.one_shot
-        else SessionType.CHAT
-    )
+    return SessionType.SLACK if chat_session.danswerbot_flow else SessionType.CHAT


 def fetch_and_process_chat_session_history_minimal(
--- a/backend/ee/danswer/server/reporting/usage_export_models.py
+++ b/backend/ee/danswer/server/reporting/usage_export_models.py
@ -9,7 +9,6 @@ from danswer.auth.schemas import UserStatus

 class FlowType(str, Enum):
    CHAT = "chat"
-    SEARCH = "search"
    SLACK = "slack"


--- a/backend/tests/integration/common_utils/managers/chat.py
+++ b/backend/tests/integration/common_utils/managers/chat.py
@ -8,8 +8,6 @@ from danswer.context.search.models import RetrievalDetails
 from danswer.file_store.models import FileDescriptor
 from danswer.llm.override_models import LLMOverride
 from danswer.llm.override_models import PromptOverride
-from danswer.one_shot_answer.models import DirectQARequest
-from danswer.one_shot_answer.models import ThreadMessage
 from danswer.server.query_and_chat.models import ChatSessionCreationRequest
 from danswer.server.query_and_chat.models import CreateChatMessageRequest
 from tests.integration.common_utils.constants import API_SERVER_URL
@ -68,6 +66,7 @@ class ChatSessionManager:
            prompt_id=prompt_id,
            search_doc_ids=search_doc_ids or [],
            retrieval_options=retrieval_options,
+            rerank_settings=None,  # Can be added if needed
            query_override=query_override,
            regenerate=regenerate,
            llm_override=llm_override,
@ -87,30 +86,6 @@ class ChatSessionManager:

        return ChatSessionManager.analyze_response(response)

-    @staticmethod
-    def get_answer_with_quote(
-        persona_id: int,
-        message: str,
-        user_performing_action: DATestUser | None = None,
-    ) -> StreamedResponse:
-        direct_qa_request = DirectQARequest(
-            messages=[ThreadMessage(message=message)],
-            prompt_id=None,
-            persona_id=persona_id,
-        )
-
-        response = requests.post(
-            f"{API_SERVER_URL}/query/stream-answer-with-quote",
-            json=direct_qa_request.model_dump(),
-            headers=user_performing_action.headers
-            if user_performing_action
-            else GENERAL_HEADERS,
-            stream=True,
-        )
-        response.raise_for_status()
-
-        return ChatSessionManager.analyze_response(response)
-
    @staticmethod
    def analyze_response(response: Response) -> StreamedResponse:
        response_data = [
--- a/backend/tests/integration/tests/streaming_endpoints/test_answer_stream.py
+++ b/backend/tests/integration/tests/streaming_endpoints/test_answer_stream.py
@ -1,25 +0,0 @@
-from tests.integration.common_utils.managers.chat import ChatSessionManager
-from tests.integration.common_utils.managers.llm_provider import LLMProviderManager
-from tests.integration.common_utils.managers.user import UserManager
-from tests.integration.common_utils.test_models import DATestUser
-
-
-def test_send_message_simple_with_history(reset: None) -> None:
-    admin_user: DATestUser = UserManager.create(name="admin_user")
-    LLMProviderManager.create(user_performing_action=admin_user)
-
-    test_chat_session = ChatSessionManager.create(user_performing_action=admin_user)
-
-    response = ChatSessionManager.get_answer_with_quote(
-        persona_id=test_chat_session.persona_id,
-        message="Hello, this is a test.",
-        user_performing_action=admin_user,
-    )
-
-    assert (
-        response.tool_name is not None
-    ), "Tool name should be specified (always search)"
-    assert (
-        response.relevance_summaries is not None
-    ), "Relevance summaries should be present for all search streams"
-    assert len(response.full_message) > 0, "Response message should not be empty"
--- a/backend/tests/regression/answer_quality/api_utils.py
+++ b/backend/tests/regression/answer_quality/api_utils.py
@ -1,16 +1,16 @@
 import requests
 from retry import retry

+from danswer.chat.models import ThreadMessage
 from danswer.configs.constants import DocumentSource
 from danswer.configs.constants import MessageType
 from danswer.connectors.models import InputType
+from danswer.context.search.enums import OptionalSearchSetting
 from danswer.context.search.models import IndexFilters
-from danswer.context.search.models import OptionalSearchSetting
 from danswer.context.search.models import RetrievalDetails
 from danswer.db.enums import IndexingStatus
-from danswer.one_shot_answer.models import DirectQARequest
-from danswer.one_shot_answer.models import ThreadMessage
 from danswer.server.documents.models import ConnectorBase
+from ee.danswer.server.query_and_chat.models import OneShotQARequest
 from tests.regression.answer_quality.cli_utils import get_api_server_host_port

 GENERAL_HEADERS = {"Content-Type": "application/json"}
@ -37,7 +37,7 @@ def get_answer_from_query(

    messages = [ThreadMessage(message=query, sender=None, role=MessageType.USER)]

-    new_message_request = DirectQARequest(
+    new_message_request = OneShotQARequest(
        messages=messages,
        prompt_id=0,
        persona_id=0,
@ -47,12 +47,11 @@ def get_answer_from_query(
            filters=filters,
            enable_auto_detect_filters=False,
        ),
-        chain_of_thought=False,
        return_contexts=True,
        skip_gen_ai_answer_generation=only_retrieve_docs,
    )

-    url = _api_url_builder(env_name, "/query/answer-with-quote/")
+    url = _api_url_builder(env_name, "/query/answer-with-citation/")
    headers = {
        "Content-Type": "application/json",
    }
--- a/backend/tests/unit/danswer/llm/answering/stream_processing/test_quote_processing.py
+++ b/backend/tests/unit/danswer/llm/answering/stream_processing/test_quote_processing.py
@ -1,352 +0,0 @@
-import json
-from datetime import datetime
-
-from danswer.chat.models import DanswerAnswerPiece
-from danswer.chat.models import DanswerQuotes
-from danswer.chat.models import LlmDoc
-from danswer.configs.constants import DocumentSource
-from danswer.llm.answering.stream_processing.quotes_processing import (
-    QuotesProcessor,
-)
-
-mock_docs = [
-    LlmDoc(
-        document_id=f"doc_{int(id/2)}",
-        content="Document is a doc",
-        blurb=f"Document #{id}",
-        semantic_identifier=f"Doc {id}",
-        source_type=DocumentSource.WEB,
-        metadata={},
-        updated_at=datetime.now(),
-        link=f"https://{int(id/2)}.com" if int(id / 2) % 2 == 0 else None,
-        source_links={0: "https://mintlify.com/docs/settings/broken-links"},
-        match_highlights=[],
-    )
-    for id in range(10)
-]
-
-
-def _process_tokens(
-    processor: QuotesProcessor, tokens: list[str]
-) -> tuple[str, list[str]]:
-    """Process a list of tokens and return the answer and quotes.
-
-    Args:
-        processor: QuotesProcessor instance
-        tokens: List of tokens to process
-
-    Returns:
-        Tuple of (answer_text, list_of_quotes)
-    """
-    answer = ""
-    quotes: list[str] = []
-
-    # need to add a None to the end to simulate the end of the stream
-    for token in tokens + [None]:
-        for output in processor.process_token(token):
-            if isinstance(output, DanswerAnswerPiece):
-                if output.answer_piece:
-                    answer += output.answer_piece
-            elif isinstance(output, DanswerQuotes):
-                quotes.extend(q.quote for q in output.quotes)
-
-    return answer, quotes
-
-
-def test_process_model_tokens_answer() -> None:
-    tokens_with_quotes = [
-        "{",
-        "\n  ",
-        '"answer": "Yes',
-        ", Danswer allows",
-        " customized prompts. This",
-        " feature",
-        " is currently being",
-        " developed and implemente",
-        "d to",
-        " improve",
-        " the accuracy",
-        " of",
-        " Language",
-        " Models (",
-        "LL",
-        "Ms) for",
-        " different",
-        " companies",
-        ".",
-        " The custom",
-        "ized prompts feature",
-        " woul",
-        "d allow users to ad",
-        "d person",
-        "alized prom",
-        "pts through",
-        " an",
-        " interface or",
-        " metho",
-        "d,",
-        " which would then be used to",
-        " train",
-        " the LLM.",
-        " This enhancement",
-        " aims to make",
-        " Danswer more",
-        " adaptable to",
-        " different",
-        " business",
-        " contexts",
-        " by",
-        " tail",
-        "oring it",
-        " to the specific language",
-        " an",
-        "d terminology",
-        " used within",
-        " a",
-        " company.",
-        " Additionally",
-        ",",
-        " Danswer already",
-        " supports creating",
-        " custom AI",
-        " Assistants with",
-        " different",
-        " prom",
-        "pts and backing",
-        " knowledge",
-        " sets",
-        ",",
-        " which",
-        " is",
-        " a form",
-        " of prompt",
-        " customization. However, it",
-        "'s important to nLogging Details LiteLLM-Success Call: Noneote that some",
-        " aspects",
-        " of prompt",
-        " customization,",
-        " such as for",
-        " Sl",
-        "ack",
-        "b",
-        "ots, may",
-        " still",
-        " be in",
-        " development or have",
-        ' limitations.",',
-        '\n  "quotes": [',
-        '\n    "We',
-        " woul",
-        "d like to ad",
-        "d customized prompts for",
-        " different",
-        " companies to improve the accuracy of",
-        " Language",
-        " Model",
-        " (LLM)",
-        '.",\n    "A',
-        " new",
-        " feature that",
-        " allows users to add personalize",
-        "d prompts.",
-        " This would involve",
-        " creating",
-        " an interface or method for",
-        " users to input",
-        " their",
-        " own",
-        " prom",
-        "pts,",
-        " which would then be used to",
-        ' train the LLM.",',
-        '\n    "Create',
-        " custom AI Assistants with",
-        " different prompts and backing knowledge",
-        ' sets.",',
-        '\n    "This',
-        " PR",
-        " fixes",
-        " https",
-        "://github.com/dan",
-        "swer-ai/dan",
-        "swer/issues/1",
-        "584",
-        " by",
-        " setting",
-        " the system",
-        " default",
-        " prompt for",
-        " sl",
-        "ackbots const",
-        "rained by",
-        " ",
-        "document sets",
-        ".",
-        " It",
-        " probably",
-        " isn",
-        "'t ideal",
-        " -",
-        " it",
-        " might",
-        " be pref",
-        "erable to be",
-        " able to select",
-        " a prompt for",
-        " the",
-        " slackbot from",
-        " the",
-        " admin",
-        " panel",
-        " -",
-        " but it sol",
-        "ves the immediate problem",
-        " of",
-        " the slack",
-        " listener",
-        " cr",
-        "ashing when",
-        " configure",
-        "d this",
-        ' way."\n  ]',
-        "\n}",
-        "",
-    ]
-
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens_with_quotes)
-
-    s_json = "".join(tokens_with_quotes)
-    j = json.loads(s_json)
-    expected_answer = j["answer"]
-    assert expected_answer == answer
-    # NOTE: no quotes, since the docs don't match the quotes
-    assert len(quotes) == 0
-
-
-def test_simple_json_answer() -> None:
-    tokens = [
-        "```",
-        "json",
-        "\n",
-        "{",
-        '"answer": "This is a simple ',
-        "answer.",
-        '",\n"',
-        'quotes": []',
-        "\n}",
-        "\n",
-        "```",
-    ]
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens)
-
-    assert "This is a simple answer." == answer
-    assert len(quotes) == 0
-
-
-def test_json_answer_with_quotes() -> None:
-    tokens = [
-        "```",
-        "json",
-        "\n",
-        "{",
-        '"answer": "This ',
-        "is a ",
-        "split ",
-        "answer.",
-        '",\n"',
-        'quotes": []',
-        "\n}",
-        "\n",
-        "```",
-    ]
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens)
-
-    assert "This is a split answer." == answer
-    assert len(quotes) == 0
-
-
-def test_json_answer_with_quotes_one_chunk() -> None:
-    tokens = ['```json\n{"answer": "z",\n"quotes": ["Document"]\n}\n```']
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens)
-
-    assert "z" == answer
-    assert len(quotes) == 1
-    assert quotes[0] == "Document"
-
-
-def test_json_answer_split_tokens() -> None:
-    tokens = [
-        "```",
-        "json",
-        "\n",
-        "{",
-        '\n"',
-        'answer": "This ',
-        "is a ",
-        "split ",
-        "answer.",
-        '",\n"',
-        'quotes": []',
-        "\n}",
-        "\n",
-        "```",
-    ]
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens)
-
-    assert "This is a split answer." == answer
-    assert len(quotes) == 0
-
-
-def test_lengthy_prefixed_json_with_quotes() -> None:
-    tokens = [
-        "This is my response in json\n\n",
-        "```",
-        "json",
-        "\n",
-        "{",
-        '"answer": "This is a simple ',
-        "answer.",
-        '",\n"',
-        'quotes": ["Document"]',
-        "\n}",
-        "\n",
-        "```",
-    ]
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens)
-
-    assert "This is a simple answer." == answer
-    assert len(quotes) == 1
-    assert quotes[0] == "Document"
-
-
-def test_json_with_lengthy_prefix_and_quotes() -> None:
-    tokens = [
-        "*** Based on the provided documents, there does not appear to be any information ",
-        "directly relevant to answering which documents are my favorite. ",
-        "The documents seem to be focused on describing the Danswer product ",
-        "and its features/use cases. Since I do not have personal preferences ",
-        "for documents, I will provide a general response:\n\n",
-        "```",
-        "json",
-        "\n",
-        "{",
-        '"answer": "This is a simple ',
-        "answer.",
-        '",\n"',
-        'quotes": ["Document"]',
-        "\n}",
-        "\n",
-        "```",
-    ]
-    processor = QuotesProcessor(context_docs=mock_docs)
-    answer, quotes = _process_tokens(processor, tokens)
-
-    assert "This is a simple answer." == answer
-    assert len(quotes) == 1
-    assert quotes[0] == "Document"
--- a/backend/tests/unit/danswer/llm/answering/test_answer.py
+++ b/backend/tests/unit/danswer/llm/answering/test_answer.py
@ -13,15 +13,12 @@ from langchain_core.messages import ToolCallChunk

 from danswer.chat.models import CitationInfo
 from danswer.chat.models import DanswerAnswerPiece
-from danswer.chat.models import DanswerQuote
-from danswer.chat.models import DanswerQuotes
 from danswer.chat.models import LlmDoc
 from danswer.chat.models import StreamStopInfo
 from danswer.chat.models import StreamStopReason
 from danswer.llm.answering.answer import Answer
 from danswer.llm.answering.models import AnswerStyleConfig
 from danswer.llm.answering.models import PromptConfig
-from danswer.llm.answering.models import QuotesConfig
 from danswer.llm.interfaces import LLM
 from danswer.tools.force import ForceUseTool
 from danswer.tools.models import ToolCallFinalResult
@ -284,90 +281,6 @@ def test_answer_with_search_no_tool_calling(
    mock_search_tool.run.assert_called_once()


-def test_answer_with_search_call_quotes_enabled(
-    answer_instance: Answer,
-    mock_search_results: list[LlmDoc],
-    mock_search_tool: MagicMock,
-) -> None:
-    answer_instance.tools = [mock_search_tool]
-    answer_instance.force_use_tool = ForceUseTool(
-        force_use=False, tool_name="", args=None
-    )
-    answer_instance.answer_style_config.citation_config = None
-    answer_instance.answer_style_config.quotes_config = QuotesConfig()
-
-    # Set up the LLM mock to return search results and then an answer
-    mock_llm = cast(Mock, answer_instance.llm)
-
-    tool_call_chunk = AIMessageChunk(content="")
-    tool_call_chunk.tool_calls = [
-        ToolCall(
-            id="search",
-            name="search",
-            args=DEFAULT_SEARCH_ARGS,
-        )
-    ]
-    tool_call_chunk.tool_call_chunks = [
-        ToolCallChunk(
-            id="search",
-            name="search",
-            args=json.dumps(DEFAULT_SEARCH_ARGS),
-            index=0,
-        )
-    ]
-
-    # needs to be short due to the "anti-hallucination" check in QuotesProcessor
-    answer_content = "z"
-    quote_content = mock_search_results[0].content
-    mock_llm.stream.side_effect = [
-        [tool_call_chunk],
-        [
-            AIMessageChunk(
-                content=(
-                    '{"answer": "'
-                    + answer_content
-                    + '", "quotes": ["'
-                    + quote_content
-                    + '"]}'
-                )
-            ),
-        ],
-    ]
-
-    # Process the output
-    output = list(answer_instance.processed_streamed_output)
-
-    # Assertions
-    assert len(output) == 5
-    assert output[0] == ToolCallKickoff(
-        tool_name="search", tool_args=DEFAULT_SEARCH_ARGS
-    )
-    assert output[1] == ToolResponse(
-        id="final_context_documents",
-        response=mock_search_results,
-    )
-    assert output[2] == ToolCallFinalResult(
-        tool_name="search",
-        tool_args=DEFAULT_SEARCH_ARGS,
-        tool_result=[json.loads(doc.model_dump_json()) for doc in mock_search_results],
-    )
-    assert output[3] == DanswerAnswerPiece(answer_piece=answer_content)
-    assert output[4] == DanswerQuotes(
-        quotes=[
-            DanswerQuote(
-                quote=quote_content,
-                document_id=mock_search_results[0].document_id,
-                link=mock_search_results[0].link,
-                source_type=mock_search_results[0].source_type,
-                semantic_identifier=mock_search_results[0].semantic_identifier,
-                blurb=mock_search_results[0].blurb,
-            )
-        ]
-    )
-
-    assert answer_instance.llm_answer == answer_content
-
-
 def test_is_cancelled(answer_instance: Answer) -> None:
    # Set up the LLM mock to return multiple chunks
    mock_llm = Mock()
--- a/backend/tests/unit/danswer/llm/answering/test_skip_gen_ai.py
+++ b/backend/tests/unit/danswer/llm/answering/test_skip_gen_ai.py
@ -6,9 +6,9 @@ import pytest
 from pytest_mock import MockerFixture

 from danswer.llm.answering.answer import Answer
+from danswer.llm.answering.answer import AnswerStream
 from danswer.llm.answering.models import AnswerStyleConfig
 from danswer.llm.answering.models import PromptConfig
-from danswer.one_shot_answer.answer_question import AnswerObjectIterator
 from danswer.tools.force import ForceUseTool
 from danswer.tools.tool_implementations.search.search_tool import SearchTool
 from tests.regression.answer_quality.run_qa import _process_and_write_query_results
@ -60,7 +60,7 @@ def test_skip_gen_ai_answer_generation_flag(
        skip_gen_ai_answer_generation=skip_gen_ai_answer_generation,
    )
    count = 0
-    for _ in cast(AnswerObjectIterator, answer.processed_streamed_output):
+    for _ in cast(AnswerStream, answer.processed_streamed_output):
        count += 1
    assert count == 3 if skip_gen_ai_answer_generation else 4
    if not skip_gen_ai_answer_generation: