16miku/mapping-skill/SKILL.md
AI/ML 人才搜索、论文作者发现、实验室成员爬取、GitHub 研究者挖掘与个性化招聘邮件生成 skill。只要用户提到查找 AI/ML PhD、研究员、工程师,抓取实验室成员、OpenReview/CVF 会议作者、GitHub 网络研究者,提取主页/Scholar/GitHub/邮箱/研究方向,识别华人、分类去重,或把结果导入飞书多维表格并批量生成邮件,就应该优先使用这个 skill;即使用户没有明确说“使用 Mapping-Skill”,只要任务属于这些复合工作流,也应触发。
npx skillsauth add openclaw/skills Mapping-SkillInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
面向 Claude Code 与 OpenClaw 的 AI/ML 人才搜索与触达执行手册。
当用户提出以下任务时,应优先启用本 skill:
先判定任务类型,再选方法
优先复用已有 references 与 scripts
不要从零发明流程。先检查 references/ 与 scripts/ 是否已有成熟模式。
优先选择最稳定的数据入口
抽取与清洗并重 结果必须尽量结构化,并在输出前做分类、去重与字段标准化。
邮件必须基于真实信息个性化
technical_hook 和 talk_track_paragraph 不能空泛,必须和候选人论文、研究方向或主页内容关联。
如用户涉及 OpenClaw / 飞书场景,要显式考虑导表和字段回写 对此类需求,结果不应只停留在本地 CSV。
适用于:
安装方式通常是把 skill 放到 ~/.claude/skills/ 目录。
适用于:
OpenClaw 常见技能加载位置:
<workspace>/skills~/.openclaw/skills也可通过 ClawHub 安装,并通过“刷新 skills”或重启网关重新索引。
先明确:
| 场景 | 首选方案 | 备用方案 |
|------|----------|----------|
| OpenReview 会议 | scripts/openreview_scraper.py + API | 搜索 + 主页回补 |
| CVF 会议 | scripts/cvf_paper_scraper.py | 补抓 PDF / 页面回退 |
| Hugo Academic 单页卡片 | lab_member_scraper.py 的 card 模式 | BrightData |
| 实验室列表页 + 个人页 | lab_member_scraper.py 的两阶段模式 | BrightData |
| 无固定结构但含邮箱 | 邮箱反向定位法 | BrightData / 手工规则 |
| GitHub 研究者网络 | scripts/github_network_scraper.py | 网页搜索辅助 |
| LinkedIn / 强反爬站点 | BrightData MCP | 降级到公开网页信息 |
| 给定任意 URL | BrightData MCP 或定制脚本 | 多源补充 |
根据场景读取相应脚本或 reference:
references/search-templates.mdreferences/python-scraping-guide.mdreferences/anti-scraping-solutions.mdreferences/url-priority-rules.mdreferences/conference-paper-scraping.md至少尽量抽取这些字段:
然后继续做:
references/chinese-surnames.mdreferences/candidate-classifier.mdreferences/deduplication-rules.mdreferences/field-mappings.md读取:
references/email-templates.mdreferences/talk-tracks.md生成邮件时必须填充:
researcher_namecontext_affiliationresearch_fieldtechnical_hooktalk_track_paragraph根据用户要求输出为:
如果用户明确提到 OpenClaw、飞书、多维表格、导表或批量写邮件,应把这些步骤视为本 skill 的标准能力,而不是额外加分项。
app_token / table_id后续如果有新的实践文档,应继续沉淀到 references/prompt-best-practices.md。当前优先复用下面几类高价值提示词模式。
请执行 OpenReview 论文爬取任务:
1. 使用 Mapping-Skill skill 根目录下的 `scripts/openreview_scraper.py` 脚本
2. 初始化爬虫时使用 api2.openreview.net 端点:
scraper = OpenReviewScraper(
username='XXXXXXX',
password='XXXXXXX',
baseurl='https://api2.openreview.net'
)
3. 爬取 ICLR2025 的 5 篇论文(测试)+ https://openreview.net/group?id=ICLR.cc/2025/Conference#tab-accept-oral(记着替换链接)
4. 保存 CSV 到 /tmp/ 目录
5. 创建新的飞书多维表格,按照 Mapping-Skill skill 根目录下的 `scripts/openreview_scraper.py` 脚本中爬取的数据来创建相应字段
6. 批量导入数据到多维表格
7. 返回多维表格链接和统计信息
请执行 CVF 论文爬取任务:
1. 使用 Mapping-Skill skill 根目录下的 `scripts/cvf_paper_scraper.py` 脚本
2. 严格按照脚本中的 extract_emails_from_text() 函数提取邮箱
3. 爬取 ICCV2025 的 5 篇论文(测试)+ https://openaccess.thecvf.com/ICCV2025?day=all(记着替换链接)
4. 保存 CSV 到 /tmp/ 目录
5. 创建新的飞书多维表格,按照 Mapping-Skill skill 根目录下的 `scripts/cvf_paper_scraper.py` 脚本中爬取的数据来创建相应字段
6. 批量导入数据到多维表格
7. 返回多维表格链接和邮箱提取统计
请执行论文作者邮件生成任务:
【数据源】
表格链接:
【第一步:解析表格链接】
1. 从链接中提取 app_token(格式:/base/{app_token})
2. 调用 feishu_bitable_app_table 的 list 接口获取 table_id
3. 验证表格可访问性
【第二步:分批读取论文数据】
1. 使用 feishu_bitable_app_table_record 的 list 操作
2. 分批读取(每批50条),使用 page_token 分页
3. 只提取必要字段:记录ID、论文标题、作者、邮箱、机构
4. 过滤条件:只处理有邮箱的记录
【第三步:确定研究领域】
1. 读取 Mapping-Skill skill 根目录下的 `references/field-mappings.md`
2. 根据论文标题和关键词,使用映射规则确定研究领域
3. 示例:
- "Symmetry Understanding of 3D Shapes" → Computer Vision
- "Efficient Adaptation of Vision Transformer" → NLP
【第四步:生成个性化邮件】
1. 读取 Mapping-Skill skill 根目录下的 `references/email-templates.md`
2. 根据研究领域选择对应模板(共22个领域)
3. 填充占位符:
- {{researcher_name}} → 第一作者姓名
- {{context_affiliation}} → 机构
- {{research_field}} → 研究领域
- {{technical_hook}} → 基于论文标题生成
- {{talk_track_paragraph}} → 从 talk-tracks.md 选择
【第五步:批量更新多维表格】
1. 在多维表格中创建新字段:"推荐邮件"(多行文本)
2. 使用 batch_update 批量更新每条记录
3. 每批最多 500 条
【第六步:验证和统计】
1. 验证邮件内容个性化
2. 返回统计:总计 X 条 / 成功 Y 条 / 失败 Z 条
3. 列出失败原因
【输出】
- 多维表格链接
- 生成统计
- 失败原因列表
1、请你调用BrightData-MCP工具,或者编写爬虫脚本,爬取 <某网站URL> 页面中的所有人员信息。
2、提取信息包括中文名,英文名,个人介绍信息、学术方向、学校和专业信息、工作经历、近期论文著作信息(包含论文名和论文链接)、github链接、个人主页链接、谷歌学术链接、领英链接、知乎链接、B站链接、邮箱等。
3、当前页面缺少邮箱的话,需要进入学者主页或论文链接页面,从里面提取作者们的邮箱。
4、保存到csv文件,然后将csv导入飞书多维表格。
| Name | Type | Affiliation | Field | Chinese? | Email | |------|------|-------------|-------|----------|-------| | Wei Zhang | PhD | Tsinghua | RL | Yes (0.92) | [email protected] |
## Candidate: Wei Zhang (张伟)
- Type: PhD Student
- Affiliation: Tsinghua University
- Research Field: Reinforcement Learning
- Chinese: Yes (0.92)
- Email: [email protected]
- Homepage: ...
- Scholar: ...
- GitHub: ...
### Research Summary
- RLHF
- Reward modeling
- Policy optimization
### Publications
1. ...
2. ...
### Outreach Email
...
至少返回:
按场景加载:
references/search-templates.mdreferences/profile-schema.mdreferences/candidate-classifier.mdreferences/chinese-surnames.mdreferences/deduplication-rules.mdreferences/email-templates.mdreferences/talk-tracks.mdreferences/python-scraping-guide.mdreferences/anti-scraping-solutions.mdreferences/conference-paper-scraping.mdreferences/practice-cases.mdreferences/prompt-best-practices.mdreferences/user-feedback-notes.mdscripts/openreview_scraper.py:OpenReview 会议论文与作者抓取scripts/cvf_paper_scraper.py:CVF 论文页面 + PDF 邮箱提取scripts/lab_member_scraper.py:实验室成员抓取(两阶段 / Hugo Academic / 邮箱反向定位)scripts/github_network_scraper.py:GitHub 研究者网络抽取scripts/cloudflare_email_decoder.py:Cloudflare XOR 邮箱解密scripts/httpx_scraper.py:通用异步 HTTP 抓取scripts/serper_search.py:搜索入口模板[at] 混淆和 SSL 问题后续收到新的实践文档后:
references/prompt-best-practices.mdSKILL.md 的“最佳实践提示词”部分补充该功能已支持的明确说明references/user-feedback-notes.mdevals/evals.json 做后续测试tools
Use when the user wants to connect to, test, or use the McDonalds service at mcp.mcd.cn, including checking authentication, probing MCP endpoints, listing tools, or calling McDonalds MCP tools through a reusable local CLI.
development
Web scraping platform — Twitter/X data, Vinted marketplace, and general web scraping API
development
SlowMist AI Agent Security Review — comprehensive security framework for skills, repositories, URLs, on-chain addresses, and products (Claude Code version)
data-ai
去除中文文本中的 AI 写作痕迹,使其读起来自然。基于维基百科 AI 写作特征指南,检测 24 种 AI 模式。触发词:humanizer-cn、去除 AI 痕迹、去除 AI 写作痕迹、中文文本人性化。