Skip to content

Cross-platform comment exporter & GPT-powered insight tool. Extract and analyze discussions from Xiaohongshu and Reddit with your own API key.

License

Notifications You must be signed in to change notification settings

PingoJ26/starseeker

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Star Seeker - Chrome插件版

版本 Chrome 许可证

一键抓取小红书帖子的所有评论数据并导出为CSV文件,包含发帖人、评论人、IP属地等完整信息。

✨ 功能特性

🎯 核心功能

  • 自动抓取评论 - 自动滚动加载所有评论(包括子评论/回复)
  • 完整数据字段 - 帖子信息、发帖人信息、评论人信息、IP属地、时间等
  • CSV导出 - 一键导出为Excel可直接打开的CSV格式
  • 可视化界面 - 页面悬浮工具栏 + 插件弹窗双界面
  • 实时统计 - 实时显示抓取进度和评论数量

🎨 界面设计

  • 🍎 Apple风格 - 参照苹果设计规范,简洁美观
  • 📱 移动端适配 - 响应式设计,支持各种屏幕尺寸
  • 🌗 深色模式 - 自动适配系统深色模式
  • 🎯 可拖拽 - 悬浮窗可自由拖动位置

🛡️ 技术特性

  • API拦截 - 拦截fetch和XMLHttpRequest请求
  • 🔄 智能翻页 - 自动检测并加载所有评论
  • 🚫 防爬虫 - 随机延迟、模拟真实滚动行为
  • 💾 数据持久化 - 使用chrome.storage保存数据
  • 🐛 错误处理 - 完善的异常捕获和提示

📦 安装方法

方法一:开发者模式安装(推荐)

  1. 下载插件文件

    • 下载本项目的 chrome-extension 文件夹
  2. 打开Chrome扩展程序页面

    • 在Chrome地址栏输入: chrome://extensions/
    • 或点击右上角 扩展程序管理扩展程序
  3. 启用开发者模式

    • 在页面右上角打开 开发者模式 开关
  4. 加载插件

    • 点击左上角 加载已解压的扩展程序
    • 选择 chrome-extension 文件夹
    • 看到插件图标出现即表示安装成功
  5. 固定插件图标(可选)

    • 点击Chrome右上角的拼图图标 🧩
    • 找到"Star Seeker"
    • 点击📌图标固定到工具栏

方法二:Chrome应用商店安装(即将推出)

等待上架中...

🎮 使用教程

快速开始(3步)

步骤1:打开小红书帖子

  1. 访问 www.xiaohongshu.com
  2. 点击任意一个帖子进入详情页

步骤2:启动抓取

方式A:使用悬浮工具栏

  • 页面右侧会自动显示悬浮工具栏
  • 点击 ▶️ 开始抓取 按钮

方式B:使用插件弹窗

  • 点击Chrome工具栏的插件图标
  • 在弹窗中点击 ▶️ 开始抓取

步骤3:导出数据

  • 等待抓取完成(工具会自动停止)
  • 点击 📥 导出CSV 按钮
  • 选择保存位置,完成!

界面说明

页面悬浮工具栏

┌─────────────────────────────┐
│ ⋮⋮ Star Seeker   ✕  │ ← 可拖动
├─────────────────────────────┤
│ 📝 帖子标题显示这里         │
│ 👤 作者: XXX (IP属地)       │
├─────────────────────────────┤
│ 📍 状态: 抓取中...          │
│ 📊 评论数: 128              │
│ ▓▓▓▓▓▓▓▓░░░░ 60%           │ ← 进度条
├─────────────────────────────┤
│ [▶️ 开始抓取] [📥 导出CSV]  │
└─────────────────────────────┘

插件弹窗界面

  • 状态卡片 - 显示当前页面状态
  • 帖子信息 - 标题、作者、IP属地
  • 统计数据 - 评论数、点赞数、收藏数
  • 操作按钮 - 开始/停止/导出
  • 使用提示 - 快速帮助信息

📊 导出数据说明

CSV文件包含以下字段:

列名 说明 示例
帖子ID 帖子唯一标识 65f3a2b1000000001e03f123
帖子标题 帖子标题 今天的穿搭分享
帖子内容 帖子正文前100字 今天给大家分享一套...
发帖人昵称 发帖人昵称 小红薯123
发帖人ID 发帖人唯一ID 5f8a6b2c000000000101abcd
发帖人IP属地 发帖人IP归属地 上海
发帖时间 帖子发布时间 2024-03-15 14:30:25
帖子点赞数 帖子总点赞数 1234
帖子评论数 帖子总评论数 89
评论ID 评论唯一标识 65f3a2c2000000001e03f456
评论内容 评论正文 好好看啊!
评论人昵称 评论者昵称 用户ABC
评论人ID 评论者唯一ID 5f8a6b3d000000000101def0
评论人IP属地 评论者IP归属地 北京
评论时间 评论发布时间 2024-03-15 15:20:10
评论点赞数 该条评论点赞数 45
回复数 该评论的回复数量 3
是否为回复 是否为二级评论 是/否
父评论ID 父评论ID(回复时) 65f3a2c2000000001e03f456
回复给谁 回复的目标用户 @用户XYZ

示例数据预览

帖子ID,帖子标题,帖子内容,发帖人昵称,发帖人ID,...
65f3a2b1,今天的穿搭分享,今天给大家分享...,小红薯123,5f8a6b2c,...
65f3a2b1,今天的穿搭分享,今天给大家分享...,小红薯123,5f8a6b2c,...

⚙️ 高级功能

控制台调试

在浏览器控制台输入以下命令查看数据:

// 查看完整数据
xhsScraperDebug()

// 输出示例:
{
  post: {...},      // 帖子信息
  author: {...},    // 作者信息
  comments: [...],  // 所有评论
  count: 128        // 评论总数
}

手动操作

// 开始抓取
xhsScraper.onStart()

// 停止抓取
xhsScraper.onStop()

// 导出数据
xhsScraper.onExport()

// 清空数据
xhsScraper.dataManager.clear()

❓ 常见问题

Q1: 插件图标显示灰色?

A: 说明当前不在小红书页面,请先打开小红书帖子详情页。

Q2: 评论抓取不完整?

A:

  • 可能是网络问题,尝试刷新页面重新抓取
  • 小红书可能限制了评论加载,等待几分钟再试
  • 某些私密/被删除的评论无法抓取

Q3: CSV文件中文乱码?

A:

  • 文件已使用UTF-8 BOM编码,Excel应该能正确显示
  • 如仍乱码,用记事本打开CSV → 另存为 → 编码选择UTF-8

Q4: 抓取速度很慢?

A:

  • 工具故意设置了随机延迟(1-1.5秒)以模拟真人操作
  • 避免触发小红书的反爬虫机制
  • 评论越多,抓取时间越长(正常现象)

Q5: 插件加载失败?

A:

  • 确认已开启"开发者模式"
  • 检查是否选择了正确的 chrome-extension 文件夹
  • 查看控制台错误信息
  • 尝试删除插件重新加载

Q6: 提示"暂无评论数据"?

A:

  • 确保已在小红书帖子详情页
  • 尝试手动滚动到评论区
  • 点击"开始抓取"按钮
  • 等待页面加载完成

🔧 技术原理

工作流程

1. 注入Content Script到小红书页面
   ↓
2. 拦截评论API请求 (/comment/page)
   ↓
3. 解析返回的JSON数据
   ↓
4. 提取评论信息 + 子评论
   ↓
5. 模拟滚动触发翻页加载
   ↓
6. 检测是否还有更多评论
   ↓
7. 生成CSV并通过chrome.downloads下载

核心技术

  • Manifest V3 - Chrome最新扩展规范
  • Content Scripts - 页面脚本注入
  • API Interception - Fetch/XHR拦截
  • Chrome Storage - 数据持久化
  • Chrome Downloads API - 文件下载

📝 更新日志

v2.0.0 (2024-03-XX)

  • 🎉 从油猴脚本升级为Chrome插件
  • ✨ 新增Popup弹窗界面
  • ✨ 新增数据持久化存储
  • ✨ 优化UI设计,更符合Apple风格
  • 🐛 修复作者信息缺失的bug
  • 🐛 修复CSV导出中文乱码问题

v1.0.5 (2024-03-XX) - 油猴版本

  • 🐛 修复导出时authorInfo为null的错误
  • 🐛 修复帖子信息初始化问题
  • ✨ 添加调试工具 xhsScraperDebug()

⚠️ 免责声明

  1. 本工具仅供学习交流使用,请勿用于商业用途
  2. 使用本工具抓取数据时,请遵守小红书平台规则
  3. 频繁抓取可能导致账号被限制,请合理使用
  4. 数据仅保存在本地,不会上传到任何服务器
  5. 使用本工具造成的任何后果由使用者自行承担

📜 开源协议

MIT License

🤝 贡献指南

欢迎提交Issue和Pull Request!

  1. Fork本项目
  2. 创建新分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 提交Pull Request

📧 联系方式

⭐ Star History

如果这个项目对你有帮助,请给个Star ⭐️


Made with ❤️ by Pin

About

Cross-platform comment exporter & GPT-powered insight tool. Extract and analyze discussions from Xiaohongshu and Reddit with your own API key.

Topics

Resources

License

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors