## Vision Scraper pour posts Reddit sauvegardés avec extraction intelligente de valeur. Transformation passive saving → active knowledge management. ## Use Cases 1. Knowledge Base: Export Markdown structuré par thème 2. AI Digest: Résumé hebdomadaire + insights + action items (Claude API) 3. Search UI: Interface recherche full-text avec filters 4. Anki Generator: Conversion learning content → flashcards 5. Archive: Backup local si posts deleted ## Stack - Python + PRAW (Reddit API) - Recommandé - Alternative: Node.js + snoowrap - Storage: SQLite (local-first) - Optional: Claude API (analysis), Flask (web UI) ## MVP Timeline - Phase 1 (Scraper): 1 jour - Phase 2 (Storage): +1 jour - Phase 3 (Feature au choix): +2-5 jours Total: 2-7 jours selon scope ## Potentiel - Quick win (low-hanging fruit) - Utilité immédiate (saved posts existants) - Scalable (valeur croît avec usage) - Test case parfait pour AI_Team_System (later) - Potentiel SaaS si validated ## Questions à Clarifier - Combien de saved posts actuellement? - Subreddits principaux? - Use case prioritaire (archive, digest, search)? 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
14 KiB
Reddit Save Scraper - Personal Content Aggregator
Status: CONCEPT Created: 30 novembre 2025 Type: Productivity / Knowledge Management Stack: À définir (Python + Reddit API ou Node.js)
Concept
Scraper pour récupérer tous les posts sauvegardés sur Reddit et en faire quelque chose d'utile.
Problème : Tu save des posts sur Reddit mais tu les revois jamais / c'est perdu dans le void.
Solution : Extraire, organiser, et exploiter ce contenu de manière intelligente.
Use Cases Potentiels
Option 1: Knowledge Base Personalisée
Flow :
Reddit Saved Posts
↓ Scrape
Extract (titre, contenu, commentaires, subreddit, timestamp)
↓ Categorize (IA)
Store dans DB structurée
↓ Output
Obsidian vault / Notion database / Markdown files
Bénéfice :
- Base de connaissances searchable
- Organisée par thème (dev, gaming, lifestyle, etc.)
- Accessible hors-ligne
Option 2: AI-Powered Digest
Flow :
Reddit Saved Posts (derniers 30 jours)
↓ Scrape + Extract
Claude API analyse
↓ Génère
Weekly digest (résumé + insights + action items)
↓ Output
Email ou Markdown ou Notion page
Bénéfice :
- Résumé intelligent de ce que tu trouves intéressant
- Patterns identifiés (sujets récurrents)
- Action items extraits ("Try X", "Read Y", etc.)
Option 3: Content Recommender
Flow :
Reddit Saved Posts (historique complet)
↓ Scrape
Embeddings (OpenAI/Claude)
↓ Vector search
Recommandations similaires (nouveaux posts Reddit ou web)
↓ Output
Daily recommendations feed
Bénéfice :
- Découverte contenu similaire à ce que tu kiffes
- Anticipation intérêts
- Serendipity boostée
Option 4: Personal Archive + Search
Flow :
Reddit Saved Posts
↓ Scrape periodically
Store locally (SQLite + full-text)
↓ Web UI
Search interface (keyword, subreddit, date range)
↓ Features
- Full-text search
- Tag system
- Export to PDF/Markdown
- Link preservation (si post deleted)
Bénéfice :
- Ownership du contenu (backup si post deleted)
- Search puissant
- Organisation custom (tags)
Option 5: Anki Cards Generator
Flow :
Reddit Saved Posts (dev/learning content)
↓ Scrape
Extract tips, tricks, code snippets
↓ Claude API
Generate Anki cards (Q&A format)
↓ Output
Anki deck importable
Bénéfice :
- Learning actif au lieu de passive saving
- Spaced repetition sur contenu Reddit
- Rétention améliorée
Architecture Technique
Stack Option 1: Python (Recommandé)
Pourquoi Python :
- PRAW (Python Reddit API Wrapper) - mature, bien documenté
- Data processing facile (pandas, json)
- IA/ML libs (OpenAI, embeddings, etc.)
Stack :
PRAW (Reddit API)
↓
Python script (scraping + processing)
↓
SQLite / PostgreSQL (storage)
↓
Optional: Flask/FastAPI (web UI)
↓
Optional: OpenAI/Claude API (analysis/digest)
Stack Option 2: Node.js
Pourquoi Node.js :
- Familiarité Alexis
- snoowrap (Reddit API wrapper Node.js)
- Express pour web UI
- Intégration facile avec autres tools JS
Stack :
snoowrap (Reddit API)
↓
Node.js script (scraping + processing)
↓
SQLite / MongoDB (storage)
↓
Optional: Express (web UI)
↓
Optional: OpenAI/Claude API (analysis/digest)
MVP Scope
Phase 1: Basic Scraper (1-2 jours)
Features :
- ✅ Authenticate avec Reddit API (OAuth2)
- ✅ Fetch all saved posts (pagination)
- ✅ Extract data:
- Post title
- Post URL
- Subreddit
- Author
- Timestamp
- Content (self-post text si applicable)
- Top comments (optional)
- ✅ Save to JSON file
- ✅ Log progress (nombre de posts scraped)
Output : reddit_saved_posts.json
Phase 2: Storage + Organization (1-2 jours)
Features :
- ✅ SQLite database setup
- ✅ Schema:
CREATE TABLE posts ( id TEXT PRIMARY KEY, title TEXT, url TEXT, subreddit TEXT, author TEXT, created_utc INTEGER, content TEXT, saved_at INTEGER, category TEXT, -- AI-generated or manual tags TEXT -- Comma-separated ); - ✅ Import JSON → SQLite
- ✅ Basic categorization (manual ou rule-based d'abord)
Output : reddit_saved.db
Phase 3: Choose Your Adventure (Variable)
Option A - Knowledge Base (2-3 jours) :
- Export to Markdown files (1 file per post)
- Folder structure par subreddit ou category
- Front-matter YAML (metadata)
Option B - AI Digest (2-3 jours) :
- Claude API integration
- Weekly digest generator
- Email ou Markdown output
Option C - Search UI (3-5 jours) :
- Flask/FastAPI web app
- Full-text search
- Filters (subreddit, date, tags)
- Tag management
Option D - Anki Generator (2-3 jours) :
- Parse learning content
- Claude API generate Q&A
- Export Anki deck format
Reddit API Setup
Prérequis
- Reddit Account (déjà fait)
- Reddit App :
- Aller sur https://www.reddit.com/prefs/apps
- Create App (script type)
- Get
client_id+client_secret
- OAuth2 Flow :
- User agent: "RedditSaveScraper/1.0"
- Scopes:
history,read
Rate Limits
- 60 requests/minute (standard)
- Saved posts API endpoint:
/user/{username}/saved - Pagination: 100 posts max per request
- Attention : Si beaucoup de saved posts → plusieurs requêtes
Example Code (Python + PRAW)
import praw
import json
from datetime import datetime
# Setup Reddit API
reddit = praw.Reddit(
client_id="YOUR_CLIENT_ID",
client_secret="YOUR_CLIENT_SECRET",
user_agent="RedditSaveScraper/1.0",
username="YOUR_USERNAME",
password="YOUR_PASSWORD"
)
# Fetch saved posts
saved_posts = []
for post in reddit.user.me().saved(limit=None):
if isinstance(post, praw.models.Submission): # Only posts, not comments
saved_posts.append({
"id": post.id,
"title": post.title,
"url": post.url,
"subreddit": str(post.subreddit),
"author": str(post.author),
"created_utc": int(post.created_utc),
"content": post.selftext if post.is_self else "",
"saved_at": int(datetime.now().timestamp())
})
# Save to JSON
with open("reddit_saved_posts.json", "w", encoding="utf-8") as f:
json.dump(saved_posts, f, indent=2, ensure_ascii=False)
print(f"Scraped {len(saved_posts)} saved posts")
Use Cases - Deep Dive
Use Case 1: Dev Knowledge Base
Alexis save beaucoup de posts dev (probablement).
Pipeline :
- Scrape saved posts
- Filter subreddits: r/programming, r/Python, r/cpp, r/gamedev, etc.
- Categorize par topic:
- C++ tips
- Python tricks
- Game engine design
- Architecture patterns
- Export Markdown:
dev_knowledge/ ├── cpp/ │ ├── hot_reload_techniques.md │ └── cmake_best_practices.md ├── python/ │ └── async_patterns.md └── gamedev/ └── ecs_architecture.md - Searchable via Obsidian ou VSCode
Bénéfice :
- Base de référence personnelle
- Évite de re-googler les mêmes trucs
- Knowledge compound effect
Use Case 2: Learning Digest
Flow hebdomadaire :
- Scrape new saved posts (dernière semaine)
- Claude API analyse:
Prompt: "Voici 15 posts Reddit que j'ai sauvegardés cette semaine. Génère un digest structuré: - Thèmes principaux - 3 insights clés - 3 action items concrets - Ressources à approfondir" - Output Markdown:
# Weekly Reddit Digest - 30 Nov 2025 ## Thèmes Principaux - Hot-reload techniques (3 posts) - Multi-agent AI systems (2 posts) - Game asset pipelines (2 posts) ## Insights Clés 1. Hot-reload sous 1ms possible avec mmap + symbol table cache 2. Multi-agent debate améliore qualité décisions (research papers) 3. Procedural generation + IA = sweet spot pour game assets ## Action Items - [ ] Tester mmap approach pour GroveEngine hot-reload - [ ] Read paper "Constitutional AI via Debate" - [ ] Prototype MCP asset pipeline POC ## Ressources - [Article] Advanced Hot-Reload Techniques (link) - [Repo] Multi-Agent Framework Example (link)
Bénéfice :
- Transformation passive saving → active learning
- Accountability (action items trackés)
- Patterns émergent (thèmes récurrents)
Use Case 3: Content Archive (Backup)
Problème Reddit : Posts peuvent être deleted/removed.
Solution :
- Scrape + save contenu complet localement
- Screenshots des images (si applicable)
- Archive comments (top 10 comments)
- Preservation des liens
Bénéfice :
- Ownership du contenu
- Accessible même si original deleted
- Offline access
Monétisation / Business Potential ?
SaaS Potential
Reddit Save Manager :
- Freemium service
- Features:
- Auto-sync saved posts
- AI digest weekly
- Search interface
- Export to Notion/Obsidian
- Mobile app
Market :
- Reddit power users (millions)
- Knowledge workers qui save beaucoup
- Students, researchers, devs
Competitors :
- Rien de vraiment solide actuellement (niche vide)
Monétisation :
- Free: 100 saved posts max, basic export
- Pro ($5/mois): Unlimited, AI digest, advanced search
- Teams ($20/mois): Shared knowledge base, collaboration
Viabilité : Moyenne (niche, mais potentiel SaaS récurrent)
Risques & Challenges
| Risque | Impact | Mitigation |
|---|---|---|
| Reddit API changes | Moyen | Use official PRAW, monitor API updates |
| Rate limiting strict | Faible | Respect 60 req/min, implement backoff |
| Saved posts = private data | Moyen | Local-first, optional cloud sync |
| Posts deleted | Faible | Archive content locally (backup) |
| Pas assez de saved posts | Faible | Tool marchera quand même, valeur croît avec usage |
Timeline Estimée
MVP Basic (Phase 1-2)
Scope : Scraper + JSON export + SQLite storage
Timeline :
- Setup Reddit API: 1h
- Scraper code: 2-3h
- SQLite schema + import: 2h
- Testing: 1h
- Total: 1 jour
MVP + Feature (Phase 3)
Option A - Knowledge Base Export : +2 jours Option B - AI Digest : +2 jours Option C - Search UI : +3-5 jours Option D - Anki Generator : +2 jours
Total MVP complet : 2-6 jours selon option choisie
Lien Projets Existants
Database Cours Chinois
Synergie potentielle :
- Scrape saved posts r/ChineseLanguage, r/Hanzi
- Export to Anki deck
- Intégration avec pipeline d'apprentissage
AI_Team_System
Test case parfait :
- Brief Alexis: "Reddit Save Scraper avec AI digest"
- AI Team débat + implémente
- Livré en 24-48h
- Premier projet test pour AI Team System (après POC)
AISSIA
Potentiel :
- AISSIA pourrait intégrer Reddit monitoring
- "Dis-moi quand quelqu'un mentionne GroveEngine sur Reddit"
- Auto-save posts intéressants
Questions à Clarifier
Utilisation
- ⚠️ Combien de saved posts actuellement ? (10 ? 100 ? 1000 ?)
- ⚠️ Subreddits principaux ? (dev, gaming, lifestyle, autre ?)
- ⚠️ Fréquence de save ? (daily, weekly ?)
- ⚠️ But principal ? (archive, learning, search, autre ?)
Technique
- ⚠️ Stack préférée ? (Python PRAW ou Node.js snoowrap ?)
- ⚠️ Output souhaité ? (Markdown files, SQLite, web UI ?)
- ⚠️ IA integration ? (digest, categorization, ou pas besoin ?)
Priorité
- ⚠️ Quand ce projet ? (maintenant, après WeChat Bot, ou backlog ?)
- ⚠️ MVP scope ? (just scraper, ou scraper + feature ?)
- ⚠️ Time investment acceptable ? (1 jour, 1 semaine ?)
Next Steps
Si GO Immédiat
Phase 0 - Exploration (1-2h) :
- Check combien de saved posts tu as actuellement
- Voir les subreddits principaux
- Identifier use case principal (knowledge base, digest, search ?)
- Décision : Python ou Node.js ?
Phase 1 - MVP Scraper (1 jour) :
- Setup Reddit API credentials
- Code scraper (PRAW ou snoowrap)
- Test avec tes saved posts réels
- Output JSON validé
Phase 2 - Feature (1-5 jours selon choix) :
- Choisir option (A/B/C/D)
- Implémenter
- Test + iteration
- DONE
Si PAUSE / Concept Only
Garder en concept :
- Attendre d'avoir plus de saved posts (si peu actuellement)
- Ou attendre AI_Team_System (test case parfait)
- Ou attendre besoin réel identifié
Alternatives Existantes
Tools à Check Avant de Build
-
Reddit Enhancement Suite (RES) - Browser extension
- Saved posts management ?
- Export features ?
-
IFTTT / Zapier - Automation
- Reddit saved → Notion/Google Sheets ?
-
Pushshift.io - Reddit archive
- API pour historique posts
- Complément à Reddit API officiel
Action : Test ces tools d'abord, build custom si pas satisfaisant
Decision Tree
Tu as combien de saved posts ?
├─ < 50 → Peut-être trop tôt, sauf si tu veux préparer le système
├─ 50-200 → Sweet spot pour MVP test
└─ > 200 → Definitiely worth it, beaucoup de valeur à extraire
Quel est ton use case principal ?
├─ Archive / Backup → Basic scraper + SQLite + Markdown export
├─ Learning / Digest → Scraper + Claude API analysis
├─ Search / Discovery → Scraper + Web UI + Full-text search
└─ Pas sûr → Start avec scraper basique, décider après
Quand tu veux ce projet ?
├─ Maintenant → GO Phase 0 (exploration 1-2h)
├─ Après WeChat Bot → PAUSE, noter en backlog
└─ Quand AI_Team_System ready → Perfect test case
Conclusion
Reddit Save Scraper = Low-hanging fruit avec potentiel élevé
Pourquoi intéressant :
- ✅ Quick win (1-2 jours MVP)
- ✅ Utilité immédiate (tes saved posts actuels)
- ✅ Scalable (plus tu save, plus de valeur)
- ✅ Learning opportunity (Reddit API, data processing)
- ✅ Potentiel SaaS (si tu veux later)
- ✅ Test case parfait pour AI_Team_System (later)
Décision requise :
- Exploration (1-2h) pour clarifier use case ?
- GO pour MVP (1 jour) ?
- Ou PAUSE en concept jusqu'à besoin clair ?
Créé : 30 novembre 2025 Statut : CONCEPT - Exploration requise Estimated MVP time : 1-2 jours Stack préférée : Python + PRAW (recommandé) ou Node.js + snoowrap