feat: Add dynamic Whisper context and audio segment saving

- Pass last 3 transcriptions to Whisper for better context - Add deduplication filter to skip identical consecutive segments - Save each audio segment as .ogg in session directory for debugging - Add queue debug logging to detect double-push issues 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-23 22:02:49 +08:00 · 2025-11-23 22:02:49 +08:00 · 53b21b94d6
commit 53b21b94d6
parent 9baa213a82
2 changed files with 76 additions and 2 deletions
--- a/src/core/Pipeline.cpp
+++ b/src/core/Pipeline.cpp
@ -150,6 +150,8 @@ void Pipeline::audioThread() {
        chunk.sample_rate = config.getAudioConfig().sample_rate;
        chunk.channels = config.getAudioConfig().channels;
        float push_duration = static_cast<float>(audio_data.size()) / (chunk.sample_rate * chunk.channels);
        std::cout << "[Queue] Pushing " << push_duration << "s chunk, queue size: " << audio_queue_.size() << std::endl;
        audio_queue_.push(std::move(chunk));
    });
@ -166,6 +168,7 @@ void Pipeline::audioThread() {
 void Pipeline::processingThread() {
    auto& config = Config::getInstance();
    int audio_segment_id = 0;
    while (running_) {
        auto chunk_opt = audio_queue_.wait_and_pop();
@ -176,6 +179,23 @@ void Pipeline::processingThread() {
        auto& chunk = chunk_opt.value();
        float duration = static_cast<float>(chunk.data.size()) / (chunk.sample_rate * chunk.channels);
        // Debug: log queue size to detect double-push
        std::cout << "[Queue] Processing chunk, " << audio_queue_.size() << " remaining" << std::endl;
        // Save audio segment to session directory for debugging
        audio_segment_id++;
        if (session_logger_.isActive()) {
            std::stringstream audio_path;
            audio_path << session_logger_.getSessionPath() << "/audio_"
                       << std::setfill('0') << std::setw(3) << audio_segment_id << ".ogg";
            AudioBuffer segment_buffer(chunk.sample_rate, chunk.channels);
            segment_buffer.addSamples(chunk.data);
            if (segment_buffer.saveToOpus(audio_path.str())) {
                std::cout << "[Session] Saved audio segment: " << audio_path.str() << std::endl;
            }
        }
        // Calculate audio RMS for logging
        float audio_rms = 0.0f;
        if (!chunk.data.empty()) {
@ -189,6 +209,12 @@ void Pipeline::processingThread() {
        // Time Whisper
        auto whisper_start = std::chrono::steady_clock::now();
        // Build dynamic prompt with recent context
        std::string dynamic_prompt = buildDynamicPrompt();
        if (!recent_transcriptions_.empty()) {
            std::cout << "[Context] Using " << recent_transcriptions_.size() << " previous segments" << std::endl;
        }
        // Transcribe with Whisper
        auto whisper_result = whisper_client_->transcribe(
            chunk.data,
@ -197,7 +223,7 @@ void Pipeline::processingThread() {
            config.getWhisperConfig().model,
            config.getWhisperConfig().language,
            config.getWhisperConfig().temperature,
-            config.getWhisperConfig().prompt,
+            dynamic_prompt,
            config.getWhisperConfig().response_format
        );
@ -296,6 +322,20 @@ void Pipeline::processingThread() {
            continue;
        }
        // Deduplication: skip if exact same as last transcription
        if (text == last_transcription_) {
            std::cout << "[Skip] Duplicate: " << text << std::endl;
            session_logger_.logFilteredSegment(text, "duplicate", duration, audio_rms);
            continue;
        }
        last_transcription_ = text;
        // Update dynamic context for next Whisper call
        recent_transcriptions_.push_back(text);
        if (recent_transcriptions_.size() > MAX_CONTEXT_SEGMENTS) {
            recent_transcriptions_.erase(recent_transcriptions_.begin());
        }
        // Track audio cost
        if (ui_) {
            ui_->addAudioCost(duration);
@ -408,10 +448,34 @@ bool Pipeline::shouldClose() const {
 void Pipeline::clearAccumulated() {
    accumulated_chinese_.clear();
    accumulated_french_.clear();
    recent_transcriptions_.clear();
    last_transcription_.clear();
    if (ui_) {
        ui_->setAccumulatedText("", "");
    }
-    std::cout << "[Pipeline] Cleared accumulated text" << std::endl;
+    std::cout << "[Pipeline] Cleared accumulated text and context" << std::endl;
 }
 std::string Pipeline::buildDynamicPrompt() const {
    auto& config = Config::getInstance();
    std::string base_prompt = config.getWhisperConfig().prompt;
    // If no recent transcriptions, just return base prompt
    if (recent_transcriptions_.empty()) {
        return base_prompt;
    }
    // Build context from recent transcriptions
    std::stringstream context;
    context << base_prompt;
    context << "\n\nContexte des phrases précédentes: ";
    for (size_t i = 0; i < recent_transcriptions_.size(); ++i) {
        if (i > 0) context << " ";
        context << recent_transcriptions_[i];
    }
    return context.str();
 }
 } // namespace secondvoice
--- a/src/core/Pipeline.h
+++ b/src/core/Pipeline.h
@ -62,6 +62,16 @@ private:
    std::string accumulated_chinese_;
    std::string accumulated_french_;
    // Dynamic context for Whisper (last N transcriptions)
    std::vector<std::string> recent_transcriptions_;
    static constexpr size_t MAX_CONTEXT_SEGMENTS = 3;
    // Deduplication: skip if same as last transcription
    std::string last_transcription_;
    // Build dynamic prompt with recent context
    std::string buildDynamicPrompt() const;
    // Session logging
    SessionLogger session_logger_;
    int segment_id_ = 0;