Major updates: - December 2025 crisis documentation and separation agreement - Daily check system v2 with multiple card categories - Xiaozhu rental search tools and results - Exit plan documentation - Message drafts for family communication - Confluent moved to CONSTANT - Updated profiles and promises 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
160 lines
5.2 KiB
Markdown
160 lines
5.2 KiB
Markdown
# Xiaozhu Scraping - Status Report
|
|
|
|
## 🎯 Objectif
|
|
|
|
Scraper **minsu.xiaozhu.com** pour trouver apparts Shanghai Xujiahui:
|
|
- Budget: 3000-5000 RMB/mois (29 jours: 24 déc → 22 jan)
|
|
- Critères: Cuisine + frigo (requis), machine à laver + métro (bonus)
|
|
|
|
## ✅ Ce qui a été fait
|
|
|
|
### 1. Scrapers créés
|
|
|
|
**Fichiers générés:**
|
|
- `xiaozhu_interactive.js` - Scraper interactif avec simulation navigation
|
|
- `xiaozhu_minsu_scraper.js` - Scraper basique avec URLs
|
|
- `firefox_cookie_converter.js` - Convertisseur cookies
|
|
- `xiaozhu_inspector.js` - Inspecteur structure page
|
|
- `xiaozhu_navigator.js` - Navigateur auto
|
|
- `xiaozhu_url_finder.js` - Testeur URLs
|
|
|
|
### 2. Tests effectués
|
|
|
|
**4 rounds de tests:**
|
|
|
|
1. ✅ Test URLs statiques → Toutes 404 ou pages vides
|
|
2. ✅ Test navigation homepage → Pas d'annonces
|
|
3. ✅ Test scraper interactif v1 → Redirigé vers Beijing
|
|
4. ✅ Test scraper interactif v2 (amélioré) → Toujours Beijing
|
|
|
|
**Screenshots générés (10+):**
|
|
- Homepage loads OK
|
|
- Search input found OK
|
|
- Typing "上海" OK
|
|
- Clicking suggestion → Redirects to `/suggest` page showing **Beijing** content
|
|
|
|
## ❌ Problème principal
|
|
|
|
**minsu.xiaozhu.com est géolocalisé et mobile-first:**
|
|
|
|
### Comportement observé
|
|
|
|
1. Homepage charge OK (`https://minsu.xiaozhu.com/`)
|
|
2. Search input trouvé et fonctionne
|
|
3. On tape "上海" → Suggestion apparaît
|
|
4. Click suggestion → Redirige vers `/suggest`
|
|
5. **Page `/suggest` affiche Beijing par défaut:**
|
|
- 热门推荐: 天安门广场, 前门大街, 王府井, etc.
|
|
- 行政区域: 朝阳, 海淀, 通州, etc.
|
|
- **Aucune mention de Shanghai**
|
|
|
|
### Pourquoi?
|
|
|
|
**Hypothèses:**
|
|
|
|
1. **Géolocalisation:** Le site détecte qu'on est pas à Shanghai (serveur WSL = pas de vraie géoloc)
|
|
2. **Mobile app优先:** L'interface web est limitée, l'app WeChat Mini Program est la vraie plateforme
|
|
3. **Session/Cookies requis:** Sans login actif, le site affiche du contenu générique
|
|
4. **Routes dynamiques:** Les URLs de recherche sont générées côté client, pas accessibles directement
|
|
|
|
## 🚀 Solutions possibles
|
|
|
|
### Option 1: Cookies Firefox + Manual URL ⭐ RECOMMANDÉ
|
|
|
|
**Pourquoi:** Plus rapide, plus fiable
|
|
|
|
**Étapes:**
|
|
1. **Toi:** Firefox → `https://minsu.xiaozhu.com/`
|
|
2. **Toi:** Cherche manuellement "上海 徐汇区"
|
|
3. **Toi:** Copie l'URL finale des résultats (ex: `https://minsu.xiaozhu.com/search?city=shanghai&...`)
|
|
4. **Toi:** Export cookies (avec `firefox_cookie_converter.js`)
|
|
5. **Moi:** Update `xiaozhu_interactive.js` avec la vraie URL
|
|
6. **Run:** `node xiaozhu_interactive.js` → Extract les annonces
|
|
|
|
**Temps:** 5 min de ton temps + 2 min du mien
|
|
|
|
### Option 2: WeChat Mini Program (Manuel)
|
|
|
|
**Pourquoi:** C'est la vraie plateforme Xiaozhu
|
|
|
|
**Étapes:**
|
|
1. **Toi:** WeChat → Cherche "小猪短租" Mini Program
|
|
2. **Toi:** Cherche "上海 徐汇区", dates 24 déc - 22 jan
|
|
3. **Toi:** Filtre: Budget 3-5k/mois, cuisine, frigo
|
|
4. **Toi:** Screenshots des TOP 10
|
|
5. **Moi:** Aide à analyser/traduire/comparer
|
|
|
|
**Temps:** 10 min de ton temps
|
|
|
|
### Option 3: Alternative Platform - Airbnb
|
|
|
|
**Pourquoi:** API publique + scraping plus facile
|
|
|
|
**Étapes:**
|
|
1. **Moi:** Code scraper Airbnb (même critères)
|
|
2. **Run:** Auto-scraping complet
|
|
3. **Output:** Résultats filtrés + comparaison
|
|
|
|
**Temps:** 15 min de mon temps, 0 min du tien
|
|
|
|
**Note:** Airbnb sera probablement 20-30% plus cher que Xiaozhu pour équivalent
|
|
|
|
### Option 4: Ziroom (Corporate mais fiable)
|
|
|
|
**Pourquoi:** Site web fonctionnel, pas de geo-blocking
|
|
|
|
**Cons:** Corporate/standardisé, moins "Airbnb vibe"
|
|
**Pros:** Contrats clairs, qualité standardisée, scraping facile
|
|
|
|
**Temps:** 10 min de mon temps
|
|
|
|
## 💡 Recommandation
|
|
|
|
**Meilleur ROI = Option 1 (Cookies + Manual URL)**
|
|
|
|
**Plan:**
|
|
1. Tu fais la recherche manuelle sur minsu.xiaozhu.com (2 min)
|
|
2. Tu me donnes l'URL + exports les cookies (3 min)
|
|
3. Je lance le scraper avec tes cookies (< 1 min)
|
|
4. On a les résultats filtrés automatiquement
|
|
|
|
**Si Option 1 échoue → Fallback Option 3 (Airbnb)**
|
|
|
|
Airbnb sera plus cher mais 100% fiable pour scraping.
|
|
|
|
## 📁 Fichiers utiles
|
|
|
|
**Déjà créés et prêts:**
|
|
```
|
|
tools/
|
|
├── xiaozhu_interactive.js # Scraper principal (juste besoin URL)
|
|
├── firefox_cookie_converter.js # Convertisseur cookies
|
|
├── XIAOZHU_MINSU_README.md # Instructions complètes
|
|
└── XIAOZHU_STATUS.md # Ce fichier
|
|
```
|
|
|
|
**Screenshots générés (pour debug):**
|
|
```
|
|
tools/
|
|
├── xiaozhu_homepage_*.png # Homepage OK
|
|
├── xiaozhu_search_typed_*.png # Search typed OK
|
|
├── xiaozhu_after_search_*.png # Après click suggestion
|
|
├── xiaozhu_before_extraction_*.png # Page Beijing (problème)
|
|
└── xiaozhu_final_*.png # Final (vide)
|
|
```
|
|
|
|
## 🎬 Next Action
|
|
|
|
**Quelle option tu préfères?**
|
|
|
|
- **A)** Je te donne l'URL après recherche manuelle (Option 1) - 5 min total
|
|
- **B)** Je fais WeChat Mini Program manual (Option 2) - 10 min
|
|
- **C)** Tu scrapes Airbnb à la place (Option 3) - 0 min de moi, auto
|
|
- **D)** Tu scrapes Ziroom (Option 4) - corporate mais fiable
|
|
|
|
**Dis-moi A, B, C ou D et je continue.**
|
|
|
|
---
|
|
|
|
**Note:** Tous les scrapers sont déjà codés et prêts. On a juste besoin de la bonne URL ou du bon choix de platform.
|