3511815125/web-fetch-vx/SKILL.md
# Web Content Extractor - 网页内容提取器 **版本**: 2.0 **作者**: OpenClaw Team **更新日期**: 2026-03-15 **许可证**: MIT --- ## 📦 技能元数据 ```yaml name: web-content-extractor version: 2.0.0 description: 从微信文章/博客/新闻网页提取干净内容,去除广告和侧边栏 category: 内容处理 tags: [网页提取,内容清洗,微信文章,Markdown] author: OpenClaw Team license: MIT ``` --- ## 🎯 功能概述 基于 Readability + Firecrawl + Defuddle 三引擎的网页内容提取工具,专为中文内容优化。支持微信文章、新闻网站、博客等多种来源,自动去除广告/导航/侧边栏,输出干净的 Markdown 格式。 **核心能力**: - ✅ 微信文章提取(mp.weixin.qq.com) - ✅ 新闻网页清洗 - ✅ 博客文章解析
npx skillsauth add openclaw/skills 3511815125/web-fetch-vxInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
版本: 2.0
作者: OpenClaw Team
更新日期: 2026-03-15
许可证: MIT
name: web-content-extractor
version: 2.0.0
description: 从微信文章/博客/新闻网页提取干净内容,去除广告和侧边栏
category: 内容处理
tags: [网页提取,内容清洗,微信文章,Markdown]
author: OpenClaw Team
license: MIT
基于 Readability + Firecrawl + Defuddle 三引擎的网页内容提取工具,专为中文内容优化。支持微信文章、新闻网站、博客等多种来源,自动去除广告/导航/侧边栏,输出干净的 Markdown 格式。
核心能力:
# OpenClaw 工具调用
result = web_fetch(
url="https://mp.weixin.qq.com/s/xxx",
extractMode="markdown",
maxChars=8000
)
| 参数 | 类型 | 必填 | 默认值 | 说明 | |------|------|------|--------|------| | url | str | ✅ | - | 网页 URL | | extractMode | str | ❌ | "markdown" | 输出格式(markdown/text/json) | | maxChars | int | ❌ | 8000 | 最大字符数 | | includeMetadata | bool | ❌ | true | 是否包含元数据 | | timeout | int | ❌ | 30 | 超时时间(秒) |
{
"url": "https://mp.weixin.qq.com/s/abcdefg",
"extractMode": "markdown",
"maxChars": 8000,
"includeMetadata": true
}
{
"success": true,
"url": "https://mp.weixin.qq.com/s/abcdefg",
"title": "文章标题",
"author": "作者名",
"publishDate": "2026-03-15",
"content": "Markdown 格式的正文内容...",
"wordCount": 2500,
"readTime": "10 分钟",
"images": ["https://..."],
"extractTime": 0.8
}
用户请求
↓
┌────────────────┐
│ 路由判断层 │
└────────────────┘
↓
┌──────────────┼──────────────┐
↓ ↓ ↓
┌─────────┐ ┌─────────┐ ┌─────────┐
│ web_fetch│ │ defuddle│ │ browser │
│ (快速) │ │ (专业) │ │ (兜底) │
└─────────┘ └─────────┘ └─────────┘
↓ ↓ ↓
┌────────────────┐
│ 结果聚合层 │
└────────────────┘
↓
返回用户
| 引擎 | 速度 | 成功率 | 适用场景 | |------|------|--------|----------| | web_fetch | <1s | 70% | 微信文章/通用网页 | | defuddle | <1s | 75% | 博客/新闻网站 | | browser | 5-10s | 90% | 复杂 SPA/动态页面 |
result = web_fetch(
url="https://mp.weixin.qq.com/s/xxx",
extractMode="markdown"
)
print(result["content"])
urls = ["url1", "url2", "url3"]
results = [web_fetch(url=u) for u in urls]
result = web_fetch(
url="https://example.com/article",
includeMetadata=True
)
print(f"标题:{result['title']}")
print(f"作者:{result['author']}")
print(f"字数:{result['wordCount']}")
| 域名类型 | 请求间隔 | 并发限制 | |----------|----------|----------| | 微信文章 | 2 秒 | 1 | | 新闻网站 | 1 秒 | 3 | | 博客 | 1 秒 | 5 |
result = web_fetch(
url="https://example.com",
userAgent="Mozilla/5.0 ..."
)
result = web_fetch(
url="https://example.com",
proxy="http://proxy:port"
)
# 启用缓存(1 小时)
result = web_fetch(url, cache=True, ttl=3600)
# 强制刷新
result = web_fetch(url, cache=False)
| 指标 | 数值 | |------|------| | 平均响应时间 | 0.8 秒 | | P95 响应时间 | 2.5 秒 | | 成功率 | 85% | | 缓存命中率 | 60% |
原因:页面需要 JavaScript 渲染
解决:切换到 browser 引擎
原因:链接过期或有反爬
解决:
原因:maxChars 限制
解决:增加 maxChars 参数或分页处理
{
"readability": "^0.4.4",
"firecrawl": "^1.0.0",
"defuddle": "^3.0.0"
}
git checkout -b feature/AmazingFeature)git commit -m 'Add some AmazingFeature')git push origin feature/AmazingFeature)MIT License - 详见 LICENSE
最后更新: 2026-03-15
维护状态: ✅ 活跃维护
tools
Use when the user wants to connect to, test, or use the McDonalds service at mcp.mcd.cn, including checking authentication, probing MCP endpoints, listing tools, or calling McDonalds MCP tools through a reusable local CLI.
development
Web scraping platform — Twitter/X data, Vinted marketplace, and general web scraping API
development
SlowMist AI Agent Security Review — comprehensive security framework for skills, repositories, URLs, on-chain addresses, and products (Claude Code version)
data-ai
去除中文文本中的 AI 写作痕迹,使其读起来自然。基于维基百科 AI 写作特征指南,检测 24 种 AI 模式。触发词:humanizer-cn、去除 AI 痕迹、去除 AI 写作痕迹、中文文本人性化。