# Reddit Save Scraper - Personal Content Aggregator **Status**: CONCEPT **Created**: 30 novembre 2025 **Type**: Productivity / Knowledge Management **Stack**: À définir (Python + Reddit API ou Node.js) --- ## Concept Scraper pour récupérer tous les posts sauvegardés sur Reddit et en faire quelque chose d'utile. **Problème** : Tu save des posts sur Reddit mais tu les revois jamais / c'est perdu dans le void. **Solution** : Extraire, organiser, et exploiter ce contenu de manière intelligente. --- ## Use Cases Potentiels ### Option 1: Knowledge Base Personalisée **Flow** : ``` Reddit Saved Posts ↓ Scrape Extract (titre, contenu, commentaires, subreddit, timestamp) ↓ Categorize (IA) Store dans DB structurée ↓ Output Obsidian vault / Notion database / Markdown files ``` **Bénéfice** : - Base de connaissances searchable - Organisée par thème (dev, gaming, lifestyle, etc.) - Accessible hors-ligne --- ### Option 2: AI-Powered Digest **Flow** : ``` Reddit Saved Posts (derniers 30 jours) ↓ Scrape + Extract Claude API analyse ↓ Génère Weekly digest (résumé + insights + action items) ↓ Output Email ou Markdown ou Notion page ``` **Bénéfice** : - Résumé intelligent de ce que tu trouves intéressant - Patterns identifiés (sujets récurrents) - Action items extraits ("Try X", "Read Y", etc.) --- ### Option 3: Content Recommender **Flow** : ``` Reddit Saved Posts (historique complet) ↓ Scrape Embeddings (OpenAI/Claude) ↓ Vector search Recommandations similaires (nouveaux posts Reddit ou web) ↓ Output Daily recommendations feed ``` **Bénéfice** : - Découverte contenu similaire à ce que tu kiffes - Anticipation intérêts - Serendipity boostée --- ### Option 4: Personal Archive + Search **Flow** : ``` Reddit Saved Posts ↓ Scrape periodically Store locally (SQLite + full-text) ↓ Web UI Search interface (keyword, subreddit, date range) ↓ Features - Full-text search - Tag system - Export to PDF/Markdown - Link preservation (si post deleted) ``` **Bénéfice** : - Ownership du contenu (backup si post deleted) - Search puissant - Organisation custom (tags) --- ### Option 5: Anki Cards Generator **Flow** : ``` Reddit Saved Posts (dev/learning content) ↓ Scrape Extract tips, tricks, code snippets ↓ Claude API Generate Anki cards (Q&A format) ↓ Output Anki deck importable ``` **Bénéfice** : - Learning actif au lieu de passive saving - Spaced repetition sur contenu Reddit - Rétention améliorée --- ## Architecture Technique ### Stack Option 1: Python (Recommandé) **Pourquoi Python** : - PRAW (Python Reddit API Wrapper) - mature, bien documenté - Data processing facile (pandas, json) - IA/ML libs (OpenAI, embeddings, etc.) **Stack** : ``` PRAW (Reddit API) ↓ Python script (scraping + processing) ↓ SQLite / PostgreSQL (storage) ↓ Optional: Flask/FastAPI (web UI) ↓ Optional: OpenAI/Claude API (analysis/digest) ``` --- ### Stack Option 2: Node.js **Pourquoi Node.js** : - Familiarité Alexis - snoowrap (Reddit API wrapper Node.js) - Express pour web UI - Intégration facile avec autres tools JS **Stack** : ``` snoowrap (Reddit API) ↓ Node.js script (scraping + processing) ↓ SQLite / MongoDB (storage) ↓ Optional: Express (web UI) ↓ Optional: OpenAI/Claude API (analysis/digest) ``` --- ## MVP Scope ### Phase 1: Basic Scraper (1-2 jours) **Features** : - ✅ Authenticate avec Reddit API (OAuth2) - ✅ Fetch all saved posts (pagination) - ✅ Extract data: - Post title - Post URL - Subreddit - Author - Timestamp - Content (self-post text si applicable) - Top comments (optional) - ✅ Save to JSON file - ✅ Log progress (nombre de posts scraped) **Output** : `reddit_saved_posts.json` --- ### Phase 2: Storage + Organization (1-2 jours) **Features** : - ✅ SQLite database setup - ✅ Schema: ```sql CREATE TABLE posts ( id TEXT PRIMARY KEY, title TEXT, url TEXT, subreddit TEXT, author TEXT, created_utc INTEGER, content TEXT, saved_at INTEGER, category TEXT, -- AI-generated or manual tags TEXT -- Comma-separated ); ``` - ✅ Import JSON → SQLite - ✅ Basic categorization (manual ou rule-based d'abord) **Output** : `reddit_saved.db` --- ### Phase 3: Choose Your Adventure (Variable) **Option A - Knowledge Base** (2-3 jours) : - Export to Markdown files (1 file per post) - Folder structure par subreddit ou category - Front-matter YAML (metadata) **Option B - AI Digest** (2-3 jours) : - Claude API integration - Weekly digest generator - Email ou Markdown output **Option C - Search UI** (3-5 jours) : - Flask/FastAPI web app - Full-text search - Filters (subreddit, date, tags) - Tag management **Option D - Anki Generator** (2-3 jours) : - Parse learning content - Claude API generate Q&A - Export Anki deck format --- ## Reddit API Setup ### Prérequis 1. **Reddit Account** (déjà fait) 2. **Reddit App** : - Aller sur https://www.reddit.com/prefs/apps - Create App (script type) - Get `client_id` + `client_secret` 3. **OAuth2 Flow** : - User agent: "RedditSaveScraper/1.0" - Scopes: `history`, `read` ### Rate Limits - **60 requests/minute** (standard) - Saved posts API endpoint: `/user/{username}/saved` - Pagination: 100 posts max per request - **Attention** : Si beaucoup de saved posts → plusieurs requêtes --- ## Example Code (Python + PRAW) ```python import praw import json from datetime import datetime # Setup Reddit API reddit = praw.Reddit( client_id="YOUR_CLIENT_ID", client_secret="YOUR_CLIENT_SECRET", user_agent="RedditSaveScraper/1.0", username="YOUR_USERNAME", password="YOUR_PASSWORD" ) # Fetch saved posts saved_posts = [] for post in reddit.user.me().saved(limit=None): if isinstance(post, praw.models.Submission): # Only posts, not comments saved_posts.append({ "id": post.id, "title": post.title, "url": post.url, "subreddit": str(post.subreddit), "author": str(post.author), "created_utc": int(post.created_utc), "content": post.selftext if post.is_self else "", "saved_at": int(datetime.now().timestamp()) }) # Save to JSON with open("reddit_saved_posts.json", "w", encoding="utf-8") as f: json.dump(saved_posts, f, indent=2, ensure_ascii=False) print(f"Scraped {len(saved_posts)} saved posts") ``` --- ## Use Cases - Deep Dive ### Use Case 1: Dev Knowledge Base **Alexis save beaucoup de posts dev** (probablement). **Pipeline** : 1. Scrape saved posts 2. Filter subreddits: r/programming, r/Python, r/cpp, r/gamedev, etc. 3. Categorize par topic: - C++ tips - Python tricks - Game engine design - Architecture patterns 4. Export Markdown: ``` dev_knowledge/ ├── cpp/ │ ├── hot_reload_techniques.md │ └── cmake_best_practices.md ├── python/ │ └── async_patterns.md └── gamedev/ └── ecs_architecture.md ``` 5. Searchable via Obsidian ou VSCode **Bénéfice** : - Base de référence personnelle - Évite de re-googler les mêmes trucs - Knowledge compound effect --- ### Use Case 2: Learning Digest **Flow hebdomadaire** : 1. Scrape new saved posts (dernière semaine) 2. Claude API analyse: ``` Prompt: "Voici 15 posts Reddit que j'ai sauvegardés cette semaine. Génère un digest structuré: - Thèmes principaux - 3 insights clés - 3 action items concrets - Ressources à approfondir" ``` 3. Output Markdown: ```markdown # Weekly Reddit Digest - 30 Nov 2025 ## Thèmes Principaux - Hot-reload techniques (3 posts) - Multi-agent AI systems (2 posts) - Game asset pipelines (2 posts) ## Insights Clés 1. Hot-reload sous 1ms possible avec mmap + symbol table cache 2. Multi-agent debate améliore qualité décisions (research papers) 3. Procedural generation + IA = sweet spot pour game assets ## Action Items - [ ] Tester mmap approach pour GroveEngine hot-reload - [ ] Read paper "Constitutional AI via Debate" - [ ] Prototype MCP asset pipeline POC ## Ressources - [Article] Advanced Hot-Reload Techniques (link) - [Repo] Multi-Agent Framework Example (link) ``` **Bénéfice** : - Transformation passive saving → active learning - Accountability (action items trackés) - Patterns émergent (thèmes récurrents) --- ### Use Case 3: Content Archive (Backup) **Problème Reddit** : Posts peuvent être deleted/removed. **Solution** : 1. Scrape + save contenu complet localement 2. Screenshots des images (si applicable) 3. Archive comments (top 10 comments) 4. Preservation des liens **Bénéfice** : - Ownership du contenu - Accessible même si original deleted - Offline access --- ## Monétisation / Business Potential ? ### SaaS Potential **Reddit Save Manager** : - Freemium service - Features: - Auto-sync saved posts - AI digest weekly - Search interface - Export to Notion/Obsidian - Mobile app **Market** : - Reddit power users (millions) - Knowledge workers qui save beaucoup - Students, researchers, devs **Competitors** : - Rien de vraiment solide actuellement (niche vide) **Monétisation** : - Free: 100 saved posts max, basic export - Pro ($5/mois): Unlimited, AI digest, advanced search - Teams ($20/mois): Shared knowledge base, collaboration **Viabilité** : Moyenne (niche, mais potentiel SaaS récurrent) --- ## Risques & Challenges | Risque | Impact | Mitigation | |--------|--------|------------| | **Reddit API changes** | Moyen | Use official PRAW, monitor API updates | | **Rate limiting strict** | Faible | Respect 60 req/min, implement backoff | | **Saved posts = private data** | Moyen | Local-first, optional cloud sync | | **Posts deleted** | Faible | Archive content locally (backup) | | **Pas assez de saved posts** | Faible | Tool marchera quand même, valeur croît avec usage | --- ## Timeline Estimée ### MVP Basic (Phase 1-2) **Scope** : Scraper + JSON export + SQLite storage **Timeline** : - Setup Reddit API: 1h - Scraper code: 2-3h - SQLite schema + import: 2h - Testing: 1h - **Total**: 1 jour --- ### MVP + Feature (Phase 3) **Option A - Knowledge Base Export** : +2 jours **Option B - AI Digest** : +2 jours **Option C - Search UI** : +3-5 jours **Option D - Anki Generator** : +2 jours **Total MVP complet** : 2-6 jours selon option choisie --- ## Lien Projets Existants ### Database Cours Chinois **Synergie potentielle** : - Scrape saved posts r/ChineseLanguage, r/Hanzi - Export to Anki deck - Intégration avec pipeline d'apprentissage --- ### AI_Team_System **Test case parfait** : - Brief Alexis: "Reddit Save Scraper avec AI digest" - AI Team débat + implémente - Livré en 24-48h - **Premier projet test pour AI Team System** (après POC) --- ### AISSIA **Potentiel** : - AISSIA pourrait intégrer Reddit monitoring - "Dis-moi quand quelqu'un mentionne GroveEngine sur Reddit" - Auto-save posts intéressants --- ## Questions à Clarifier ### Utilisation 1. ⚠️ **Combien de saved posts actuellement ?** (10 ? 100 ? 1000 ?) 2. ⚠️ **Subreddits principaux ?** (dev, gaming, lifestyle, autre ?) 3. ⚠️ **Fréquence de save ?** (daily, weekly ?) 4. ⚠️ **But principal ?** (archive, learning, search, autre ?) ### Technique 1. ⚠️ **Stack préférée ?** (Python PRAW ou Node.js snoowrap ?) 2. ⚠️ **Output souhaité ?** (Markdown files, SQLite, web UI ?) 3. ⚠️ **IA integration ?** (digest, categorization, ou pas besoin ?) ### Priorité 1. ⚠️ **Quand ce projet ?** (maintenant, après WeChat Bot, ou backlog ?) 2. ⚠️ **MVP scope ?** (just scraper, ou scraper + feature ?) 3. ⚠️ **Time investment acceptable ?** (1 jour, 1 semaine ?) --- ## Next Steps ### Si GO Immédiat **Phase 0 - Exploration** (1-2h) : 1. Check combien de saved posts tu as actuellement 2. Voir les subreddits principaux 3. Identifier use case principal (knowledge base, digest, search ?) 4. **Décision** : Python ou Node.js ? **Phase 1 - MVP Scraper** (1 jour) : 1. Setup Reddit API credentials 2. Code scraper (PRAW ou snoowrap) 3. Test avec tes saved posts réels 4. Output JSON validé **Phase 2 - Feature** (1-5 jours selon choix) : 1. Choisir option (A/B/C/D) 2. Implémenter 3. Test + iteration 4. **DONE** --- ### Si PAUSE / Concept Only **Garder en concept** : - Attendre d'avoir plus de saved posts (si peu actuellement) - Ou attendre AI_Team_System (test case parfait) - Ou attendre besoin réel identifié --- ## Alternatives Existantes ### Tools à Check Avant de Build 1. **Reddit Enhancement Suite (RES)** - Browser extension - Saved posts management ? - Export features ? 2. **IFTTT / Zapier** - Automation - Reddit saved → Notion/Google Sheets ? 3. **Pushshift.io** - Reddit archive - API pour historique posts - Complément à Reddit API officiel **Action** : Test ces tools d'abord, build custom si pas satisfaisant --- ## Decision Tree ``` Tu as combien de saved posts ? ├─ < 50 → Peut-être trop tôt, sauf si tu veux préparer le système ├─ 50-200 → Sweet spot pour MVP test └─ > 200 → Definitiely worth it, beaucoup de valeur à extraire Quel est ton use case principal ? ├─ Archive / Backup → Basic scraper + SQLite + Markdown export ├─ Learning / Digest → Scraper + Claude API analysis ├─ Search / Discovery → Scraper + Web UI + Full-text search └─ Pas sûr → Start avec scraper basique, décider après Quand tu veux ce projet ? ├─ Maintenant → GO Phase 0 (exploration 1-2h) ├─ Après WeChat Bot → PAUSE, noter en backlog └─ Quand AI_Team_System ready → Perfect test case ``` --- ## Conclusion **Reddit Save Scraper = Low-hanging fruit avec potentiel élevé** **Pourquoi intéressant** : - ✅ Quick win (1-2 jours MVP) - ✅ Utilité immédiate (tes saved posts actuels) - ✅ Scalable (plus tu save, plus de valeur) - ✅ Learning opportunity (Reddit API, data processing) - ✅ Potentiel SaaS (si tu veux later) - ✅ Test case parfait pour AI_Team_System (later) **Décision requise** : 1. Exploration (1-2h) pour clarifier use case ? 2. GO pour MVP (1 jour) ? 3. Ou PAUSE en concept jusqu'à besoin clair ? --- *Créé : 30 novembre 2025* *Statut : CONCEPT - Exploration requise* *Estimated MVP time : 1-2 jours* *Stack préférée : Python + PRAW (recommandé) ou Node.js + snoowrap*