couple_matters/tools/XIAOZHU_STATUS.md
StillHammer 92c2a9f022 Sync couple_matters: December crisis, separation agreement, daily check v2, xiaozhu search
Major updates:
- December 2025 crisis documentation and separation agreement
- Daily check system v2 with multiple card categories
- Xiaozhu rental search tools and results
- Exit plan documentation
- Message drafts for family communication
- Confluent moved to CONSTANT
- Updated profiles and promises

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2025-12-23 06:54:08 +08:00

160 lines
5.2 KiB
Markdown

# Xiaozhu Scraping - Status Report
## 🎯 Objectif
Scraper **minsu.xiaozhu.com** pour trouver apparts Shanghai Xujiahui:
- Budget: 3000-5000 RMB/mois (29 jours: 24 déc → 22 jan)
- Critères: Cuisine + frigo (requis), machine à laver + métro (bonus)
## ✅ Ce qui a été fait
### 1. Scrapers créés
**Fichiers générés:**
- `xiaozhu_interactive.js` - Scraper interactif avec simulation navigation
- `xiaozhu_minsu_scraper.js` - Scraper basique avec URLs
- `firefox_cookie_converter.js` - Convertisseur cookies
- `xiaozhu_inspector.js` - Inspecteur structure page
- `xiaozhu_navigator.js` - Navigateur auto
- `xiaozhu_url_finder.js` - Testeur URLs
### 2. Tests effectués
**4 rounds de tests:**
1. ✅ Test URLs statiques → Toutes 404 ou pages vides
2. ✅ Test navigation homepage → Pas d'annonces
3. ✅ Test scraper interactif v1 → Redirigé vers Beijing
4. ✅ Test scraper interactif v2 (amélioré) → Toujours Beijing
**Screenshots générés (10+):**
- Homepage loads OK
- Search input found OK
- Typing "上海" OK
- Clicking suggestion → Redirects to `/suggest` page showing **Beijing** content
## ❌ Problème principal
**minsu.xiaozhu.com est géolocalisé et mobile-first:**
### Comportement observé
1. Homepage charge OK (`https://minsu.xiaozhu.com/`)
2. Search input trouvé et fonctionne
3. On tape "上海" → Suggestion apparaît
4. Click suggestion → Redirige vers `/suggest`
5. **Page `/suggest` affiche Beijing par défaut:**
- 热门推荐: 天安门广场, 前门大街, 王府井, etc.
- 行政区域: 朝阳, 海淀, 通州, etc.
- **Aucune mention de Shanghai**
### Pourquoi?
**Hypothèses:**
1. **Géolocalisation:** Le site détecte qu'on est pas à Shanghai (serveur WSL = pas de vraie géoloc)
2. **Mobile app优先:** L'interface web est limitée, l'app WeChat Mini Program est la vraie plateforme
3. **Session/Cookies requis:** Sans login actif, le site affiche du contenu générique
4. **Routes dynamiques:** Les URLs de recherche sont générées côté client, pas accessibles directement
## 🚀 Solutions possibles
### Option 1: Cookies Firefox + Manual URL ⭐ RECOMMANDÉ
**Pourquoi:** Plus rapide, plus fiable
**Étapes:**
1. **Toi:** Firefox → `https://minsu.xiaozhu.com/`
2. **Toi:** Cherche manuellement "上海 徐汇区"
3. **Toi:** Copie l'URL finale des résultats (ex: `https://minsu.xiaozhu.com/search?city=shanghai&...`)
4. **Toi:** Export cookies (avec `firefox_cookie_converter.js`)
5. **Moi:** Update `xiaozhu_interactive.js` avec la vraie URL
6. **Run:** `node xiaozhu_interactive.js` → Extract les annonces
**Temps:** 5 min de ton temps + 2 min du mien
### Option 2: WeChat Mini Program (Manuel)
**Pourquoi:** C'est la vraie plateforme Xiaozhu
**Étapes:**
1. **Toi:** WeChat → Cherche "小猪短租" Mini Program
2. **Toi:** Cherche "上海 徐汇区", dates 24 déc - 22 jan
3. **Toi:** Filtre: Budget 3-5k/mois, cuisine, frigo
4. **Toi:** Screenshots des TOP 10
5. **Moi:** Aide à analyser/traduire/comparer
**Temps:** 10 min de ton temps
### Option 3: Alternative Platform - Airbnb
**Pourquoi:** API publique + scraping plus facile
**Étapes:**
1. **Moi:** Code scraper Airbnb (même critères)
2. **Run:** Auto-scraping complet
3. **Output:** Résultats filtrés + comparaison
**Temps:** 15 min de mon temps, 0 min du tien
**Note:** Airbnb sera probablement 20-30% plus cher que Xiaozhu pour équivalent
### Option 4: Ziroom (Corporate mais fiable)
**Pourquoi:** Site web fonctionnel, pas de geo-blocking
**Cons:** Corporate/standardisé, moins "Airbnb vibe"
**Pros:** Contrats clairs, qualité standardisée, scraping facile
**Temps:** 10 min de mon temps
## 💡 Recommandation
**Meilleur ROI = Option 1 (Cookies + Manual URL)**
**Plan:**
1. Tu fais la recherche manuelle sur minsu.xiaozhu.com (2 min)
2. Tu me donnes l'URL + exports les cookies (3 min)
3. Je lance le scraper avec tes cookies (< 1 min)
4. On a les résultats filtrés automatiquement
**Si Option 1 échoue → Fallback Option 3 (Airbnb)**
Airbnb sera plus cher mais 100% fiable pour scraping.
## 📁 Fichiers utiles
**Déjà créés et prêts:**
```
tools/
├── xiaozhu_interactive.js # Scraper principal (juste besoin URL)
├── firefox_cookie_converter.js # Convertisseur cookies
├── XIAOZHU_MINSU_README.md # Instructions complètes
└── XIAOZHU_STATUS.md # Ce fichier
```
**Screenshots générés (pour debug):**
```
tools/
├── xiaozhu_homepage_*.png # Homepage OK
├── xiaozhu_search_typed_*.png # Search typed OK
├── xiaozhu_after_search_*.png # Après click suggestion
├── xiaozhu_before_extraction_*.png # Page Beijing (problème)
└── xiaozhu_final_*.png # Final (vide)
```
## 🎬 Next Action
**Quelle option tu préfères?**
- **A)** Je te donne l'URL après recherche manuelle (Option 1) - 5 min total
- **B)** Je fais WeChat Mini Program manual (Option 2) - 10 min
- **C)** Tu scrapes Airbnb à la place (Option 3) - 0 min de moi, auto
- **D)** Tu scrapes Ziroom (Option 4) - corporate mais fiable
**Dis-moi A, B, C ou D et je continue.**
---
**Note:** Tous les scrapers sont déjà codés et prêts. On a juste besoin de la bonne URL ou du bon choix de platform.