couple-repo/Projects/CONCEPT/Reddit_Save_Scraper.md
StillHammer 89bcd9be2c Add Reddit_Save_Scraper concept - Knowledge extraction from saved posts
## Vision
Scraper pour posts Reddit sauvegardés avec extraction intelligente de valeur.
Transformation passive saving → active knowledge management.

## Use Cases
1. Knowledge Base: Export Markdown structuré par thème
2. AI Digest: Résumé hebdomadaire + insights + action items (Claude API)
3. Search UI: Interface recherche full-text avec filters
4. Anki Generator: Conversion learning content → flashcards
5. Archive: Backup local si posts deleted

## Stack
- Python + PRAW (Reddit API) - Recommandé
- Alternative: Node.js + snoowrap
- Storage: SQLite (local-first)
- Optional: Claude API (analysis), Flask (web UI)

## MVP Timeline
- Phase 1 (Scraper): 1 jour
- Phase 2 (Storage): +1 jour
- Phase 3 (Feature au choix): +2-5 jours
Total: 2-7 jours selon scope

## Potentiel
- Quick win (low-hanging fruit)
- Utilité immédiate (saved posts existants)
- Scalable (valeur croît avec usage)
- Test case parfait pour AI_Team_System (later)
- Potentiel SaaS si validated

## Questions à Clarifier
- Combien de saved posts actuellement?
- Subreddits principaux?
- Use case prioritaire (archive, digest, search)?

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-30 18:05:02 +08:00

14 KiB

Reddit Save Scraper - Personal Content Aggregator

Status: CONCEPT Created: 30 novembre 2025 Type: Productivity / Knowledge Management Stack: À définir (Python + Reddit API ou Node.js)


Concept

Scraper pour récupérer tous les posts sauvegardés sur Reddit et en faire quelque chose d'utile.

Problème : Tu save des posts sur Reddit mais tu les revois jamais / c'est perdu dans le void.

Solution : Extraire, organiser, et exploiter ce contenu de manière intelligente.


Use Cases Potentiels

Option 1: Knowledge Base Personalisée

Flow :

Reddit Saved Posts
  ↓ Scrape
Extract (titre, contenu, commentaires, subreddit, timestamp)
  ↓ Categorize (IA)
Store dans DB structurée
  ↓ Output
Obsidian vault / Notion database / Markdown files

Bénéfice :

  • Base de connaissances searchable
  • Organisée par thème (dev, gaming, lifestyle, etc.)
  • Accessible hors-ligne

Option 2: AI-Powered Digest

Flow :

Reddit Saved Posts (derniers 30 jours)
  ↓ Scrape + Extract
Claude API analyse
  ↓ Génère
Weekly digest (résumé + insights + action items)
  ↓ Output
Email ou Markdown ou Notion page

Bénéfice :

  • Résumé intelligent de ce que tu trouves intéressant
  • Patterns identifiés (sujets récurrents)
  • Action items extraits ("Try X", "Read Y", etc.)

Option 3: Content Recommender

Flow :

Reddit Saved Posts (historique complet)
  ↓ Scrape
Embeddings (OpenAI/Claude)
  ↓ Vector search
Recommandations similaires (nouveaux posts Reddit ou web)
  ↓ Output
Daily recommendations feed

Bénéfice :

  • Découverte contenu similaire à ce que tu kiffes
  • Anticipation intérêts
  • Serendipity boostée

Flow :

Reddit Saved Posts
  ↓ Scrape periodically
Store locally (SQLite + full-text)
  ↓ Web UI
Search interface (keyword, subreddit, date range)
  ↓ Features
- Full-text search
- Tag system
- Export to PDF/Markdown
- Link preservation (si post deleted)

Bénéfice :

  • Ownership du contenu (backup si post deleted)
  • Search puissant
  • Organisation custom (tags)

Option 5: Anki Cards Generator

Flow :

Reddit Saved Posts (dev/learning content)
  ↓ Scrape
Extract tips, tricks, code snippets
  ↓ Claude API
Generate Anki cards (Q&A format)
  ↓ Output
Anki deck importable

Bénéfice :

  • Learning actif au lieu de passive saving
  • Spaced repetition sur contenu Reddit
  • Rétention améliorée

Architecture Technique

Stack Option 1: Python (Recommandé)

Pourquoi Python :

  • PRAW (Python Reddit API Wrapper) - mature, bien documenté
  • Data processing facile (pandas, json)
  • IA/ML libs (OpenAI, embeddings, etc.)

Stack :

PRAW (Reddit API)
  ↓
Python script (scraping + processing)
  ↓
SQLite / PostgreSQL (storage)
  ↓
Optional: Flask/FastAPI (web UI)
  ↓
Optional: OpenAI/Claude API (analysis/digest)

Stack Option 2: Node.js

Pourquoi Node.js :

  • Familiarité Alexis
  • snoowrap (Reddit API wrapper Node.js)
  • Express pour web UI
  • Intégration facile avec autres tools JS

Stack :

snoowrap (Reddit API)
  ↓
Node.js script (scraping + processing)
  ↓
SQLite / MongoDB (storage)
  ↓
Optional: Express (web UI)
  ↓
Optional: OpenAI/Claude API (analysis/digest)

MVP Scope

Phase 1: Basic Scraper (1-2 jours)

Features :

  • Authenticate avec Reddit API (OAuth2)
  • Fetch all saved posts (pagination)
  • Extract data:
    • Post title
    • Post URL
    • Subreddit
    • Author
    • Timestamp
    • Content (self-post text si applicable)
    • Top comments (optional)
  • Save to JSON file
  • Log progress (nombre de posts scraped)

Output : reddit_saved_posts.json


Phase 2: Storage + Organization (1-2 jours)

Features :

  • SQLite database setup
  • Schema:
    CREATE TABLE posts (
      id TEXT PRIMARY KEY,
      title TEXT,
      url TEXT,
      subreddit TEXT,
      author TEXT,
      created_utc INTEGER,
      content TEXT,
      saved_at INTEGER,
      category TEXT,  -- AI-generated or manual
      tags TEXT       -- Comma-separated
    );
    
  • Import JSON → SQLite
  • Basic categorization (manual ou rule-based d'abord)

Output : reddit_saved.db


Phase 3: Choose Your Adventure (Variable)

Option A - Knowledge Base (2-3 jours) :

  • Export to Markdown files (1 file per post)
  • Folder structure par subreddit ou category
  • Front-matter YAML (metadata)

Option B - AI Digest (2-3 jours) :

  • Claude API integration
  • Weekly digest generator
  • Email ou Markdown output

Option C - Search UI (3-5 jours) :

  • Flask/FastAPI web app
  • Full-text search
  • Filters (subreddit, date, tags)
  • Tag management

Option D - Anki Generator (2-3 jours) :

  • Parse learning content
  • Claude API generate Q&A
  • Export Anki deck format

Reddit API Setup

Prérequis

  1. Reddit Account (déjà fait)
  2. Reddit App :
  3. OAuth2 Flow :
    • User agent: "RedditSaveScraper/1.0"
    • Scopes: history, read

Rate Limits

  • 60 requests/minute (standard)
  • Saved posts API endpoint: /user/{username}/saved
  • Pagination: 100 posts max per request
  • Attention : Si beaucoup de saved posts → plusieurs requêtes

Example Code (Python + PRAW)

import praw
import json
from datetime import datetime

# Setup Reddit API
reddit = praw.Reddit(
    client_id="YOUR_CLIENT_ID",
    client_secret="YOUR_CLIENT_SECRET",
    user_agent="RedditSaveScraper/1.0",
    username="YOUR_USERNAME",
    password="YOUR_PASSWORD"
)

# Fetch saved posts
saved_posts = []
for post in reddit.user.me().saved(limit=None):
    if isinstance(post, praw.models.Submission):  # Only posts, not comments
        saved_posts.append({
            "id": post.id,
            "title": post.title,
            "url": post.url,
            "subreddit": str(post.subreddit),
            "author": str(post.author),
            "created_utc": int(post.created_utc),
            "content": post.selftext if post.is_self else "",
            "saved_at": int(datetime.now().timestamp())
        })

# Save to JSON
with open("reddit_saved_posts.json", "w", encoding="utf-8") as f:
    json.dump(saved_posts, f, indent=2, ensure_ascii=False)

print(f"Scraped {len(saved_posts)} saved posts")

Use Cases - Deep Dive

Use Case 1: Dev Knowledge Base

Alexis save beaucoup de posts dev (probablement).

Pipeline :

  1. Scrape saved posts
  2. Filter subreddits: r/programming, r/Python, r/cpp, r/gamedev, etc.
  3. Categorize par topic:
    • C++ tips
    • Python tricks
    • Game engine design
    • Architecture patterns
  4. Export Markdown:
    dev_knowledge/
    ├── cpp/
    │   ├── hot_reload_techniques.md
    │   └── cmake_best_practices.md
    ├── python/
    │   └── async_patterns.md
    └── gamedev/
        └── ecs_architecture.md
    
  5. Searchable via Obsidian ou VSCode

Bénéfice :

  • Base de référence personnelle
  • Évite de re-googler les mêmes trucs
  • Knowledge compound effect

Use Case 2: Learning Digest

Flow hebdomadaire :

  1. Scrape new saved posts (dernière semaine)
  2. Claude API analyse:
    Prompt:
    "Voici 15 posts Reddit que j'ai sauvegardés cette semaine.
    Génère un digest structuré:
    - Thèmes principaux
    - 3 insights clés
    - 3 action items concrets
    - Ressources à approfondir"
    
  3. Output Markdown:
    # Weekly Reddit Digest - 30 Nov 2025
    
    ## Thèmes Principaux
    - Hot-reload techniques (3 posts)
    - Multi-agent AI systems (2 posts)
    - Game asset pipelines (2 posts)
    
    ## Insights Clés
    1. Hot-reload sous 1ms possible avec mmap + symbol table cache
    2. Multi-agent debate améliore qualité décisions (research papers)
    3. Procedural generation + IA = sweet spot pour game assets
    
    ## Action Items
    - [ ] Tester mmap approach pour GroveEngine hot-reload
    - [ ] Read paper "Constitutional AI via Debate"
    - [ ] Prototype MCP asset pipeline POC
    
    ## Ressources
    - [Article] Advanced Hot-Reload Techniques (link)
    - [Repo] Multi-Agent Framework Example (link)
    

Bénéfice :

  • Transformation passive saving → active learning
  • Accountability (action items trackés)
  • Patterns émergent (thèmes récurrents)

Use Case 3: Content Archive (Backup)

Problème Reddit : Posts peuvent être deleted/removed.

Solution :

  1. Scrape + save contenu complet localement
  2. Screenshots des images (si applicable)
  3. Archive comments (top 10 comments)
  4. Preservation des liens

Bénéfice :

  • Ownership du contenu
  • Accessible même si original deleted
  • Offline access

Monétisation / Business Potential ?

SaaS Potential

Reddit Save Manager :

  • Freemium service
  • Features:
    • Auto-sync saved posts
    • AI digest weekly
    • Search interface
    • Export to Notion/Obsidian
    • Mobile app

Market :

  • Reddit power users (millions)
  • Knowledge workers qui save beaucoup
  • Students, researchers, devs

Competitors :

  • Rien de vraiment solide actuellement (niche vide)

Monétisation :

  • Free: 100 saved posts max, basic export
  • Pro ($5/mois): Unlimited, AI digest, advanced search
  • Teams ($20/mois): Shared knowledge base, collaboration

Viabilité : Moyenne (niche, mais potentiel SaaS récurrent)


Risques & Challenges

Risque Impact Mitigation
Reddit API changes Moyen Use official PRAW, monitor API updates
Rate limiting strict Faible Respect 60 req/min, implement backoff
Saved posts = private data Moyen Local-first, optional cloud sync
Posts deleted Faible Archive content locally (backup)
Pas assez de saved posts Faible Tool marchera quand même, valeur croît avec usage

Timeline Estimée

MVP Basic (Phase 1-2)

Scope : Scraper + JSON export + SQLite storage

Timeline :

  • Setup Reddit API: 1h
  • Scraper code: 2-3h
  • SQLite schema + import: 2h
  • Testing: 1h
  • Total: 1 jour

MVP + Feature (Phase 3)

Option A - Knowledge Base Export : +2 jours Option B - AI Digest : +2 jours Option C - Search UI : +3-5 jours Option D - Anki Generator : +2 jours

Total MVP complet : 2-6 jours selon option choisie


Lien Projets Existants

Database Cours Chinois

Synergie potentielle :

  • Scrape saved posts r/ChineseLanguage, r/Hanzi
  • Export to Anki deck
  • Intégration avec pipeline d'apprentissage

AI_Team_System

Test case parfait :

  • Brief Alexis: "Reddit Save Scraper avec AI digest"
  • AI Team débat + implémente
  • Livré en 24-48h
  • Premier projet test pour AI Team System (après POC)

AISSIA

Potentiel :

  • AISSIA pourrait intégrer Reddit monitoring
  • "Dis-moi quand quelqu'un mentionne GroveEngine sur Reddit"
  • Auto-save posts intéressants

Questions à Clarifier

Utilisation

  1. ⚠️ Combien de saved posts actuellement ? (10 ? 100 ? 1000 ?)
  2. ⚠️ Subreddits principaux ? (dev, gaming, lifestyle, autre ?)
  3. ⚠️ Fréquence de save ? (daily, weekly ?)
  4. ⚠️ But principal ? (archive, learning, search, autre ?)

Technique

  1. ⚠️ Stack préférée ? (Python PRAW ou Node.js snoowrap ?)
  2. ⚠️ Output souhaité ? (Markdown files, SQLite, web UI ?)
  3. ⚠️ IA integration ? (digest, categorization, ou pas besoin ?)

Priorité

  1. ⚠️ Quand ce projet ? (maintenant, après WeChat Bot, ou backlog ?)
  2. ⚠️ MVP scope ? (just scraper, ou scraper + feature ?)
  3. ⚠️ Time investment acceptable ? (1 jour, 1 semaine ?)

Next Steps

Si GO Immédiat

Phase 0 - Exploration (1-2h) :

  1. Check combien de saved posts tu as actuellement
  2. Voir les subreddits principaux
  3. Identifier use case principal (knowledge base, digest, search ?)
  4. Décision : Python ou Node.js ?

Phase 1 - MVP Scraper (1 jour) :

  1. Setup Reddit API credentials
  2. Code scraper (PRAW ou snoowrap)
  3. Test avec tes saved posts réels
  4. Output JSON validé

Phase 2 - Feature (1-5 jours selon choix) :

  1. Choisir option (A/B/C/D)
  2. Implémenter
  3. Test + iteration
  4. DONE

Si PAUSE / Concept Only

Garder en concept :

  • Attendre d'avoir plus de saved posts (si peu actuellement)
  • Ou attendre AI_Team_System (test case parfait)
  • Ou attendre besoin réel identifié

Alternatives Existantes

Tools à Check Avant de Build

  1. Reddit Enhancement Suite (RES) - Browser extension

    • Saved posts management ?
    • Export features ?
  2. IFTTT / Zapier - Automation

    • Reddit saved → Notion/Google Sheets ?
  3. Pushshift.io - Reddit archive

    • API pour historique posts
    • Complément à Reddit API officiel

Action : Test ces tools d'abord, build custom si pas satisfaisant


Decision Tree

Tu as combien de saved posts ?
├─ < 50 → Peut-être trop tôt, sauf si tu veux préparer le système
├─ 50-200 → Sweet spot pour MVP test
└─ > 200 → Definitiely worth it, beaucoup de valeur à extraire

Quel est ton use case principal ?
├─ Archive / Backup → Basic scraper + SQLite + Markdown export
├─ Learning / Digest → Scraper + Claude API analysis
├─ Search / Discovery → Scraper + Web UI + Full-text search
└─ Pas sûr → Start avec scraper basique, décider après

Quand tu veux ce projet ?
├─ Maintenant → GO Phase 0 (exploration 1-2h)
├─ Après WeChat Bot → PAUSE, noter en backlog
└─ Quand AI_Team_System ready → Perfect test case

Conclusion

Reddit Save Scraper = Low-hanging fruit avec potentiel élevé

Pourquoi intéressant :

  • Quick win (1-2 jours MVP)
  • Utilité immédiate (tes saved posts actuels)
  • Scalable (plus tu save, plus de valeur)
  • Learning opportunity (Reddit API, data processing)
  • Potentiel SaaS (si tu veux later)
  • Test case parfait pour AI_Team_System (later)

Décision requise :

  1. Exploration (1-2h) pour clarifier use case ?
  2. GO pour MVP (1 jour) ?
  3. Ou PAUSE en concept jusqu'à besoin clair ?

Créé : 30 novembre 2025 Statut : CONCEPT - Exploration requise Estimated MVP time : 1-2 jours Stack préférée : Python + PRAW (recommandé) ou Node.js + snoowrap