跳到主要内容

Arxiv

按关键词、作者、分类或ID搜索arXiv论文。

技能元数据

来源内置(默认安装)
路径skills/research/arxiv
版本1.0.0
作者Hermes 智能体
许可MIT
平台linux, macos, windows
标签研究, Arxiv, 论文, 学术, 科学, API
相关技能ocr-and-documents

title: arXiv 研究 description: 通过 arXiv 的免费 REST API 搜索和检索学术论文。无需 API 密钥,无依赖——只需 curl。 slug: arxiv-research

信息

以下是当此技能触发时,Hermes 加载的完整技能定义。这是技能激活时智能体看到的指令。

arXiv 研究

通过 arXiv 的免费 REST API 搜索和检索学术论文。无需 API 密钥,无依赖——只需 curl。

快速参考

操作命令
搜索论文curl "https://export.arxiv.org/api/query?search_query=all:QUERY&max_results=5"
获取特定论文curl "https://export.arxiv.org/api/query?id_list=2402.03300"
阅读摘要 (网页)web_extract(urls=["https://arxiv.org/abs/2402.03300"])
阅读完整论文 (PDF)web_extract(urls=["https://arxiv.org/pdf/2402.03300"])

搜索论文

API 返回 Atom XML。使用 grep/sed 解析,或通过 python3 管道输出以获得清晰格式。

基础搜索

curl -s "https://export.arxiv.org/api/query?search_query=all:GRPO+reinforcement+learning&max_results=5"

清晰输出 (将 XML 解析为可读格式)

curl -s "https://export.arxiv.org/api/query?search_query=all:GRPO+reinforcement+learning&max_results=5&sortBy=submittedDate&sortOrder=descending" | python3 -c "
import sys, xml.etree.ElementTree as ET
ns = {'a': 'http://www.w3.org/2005/Atom'}
root = ET.parse(sys.stdin).getroot()
for i, entry in enumerate(root.findall('a:entry', ns)):
title = entry.find('a:title', ns).text.strip().replace('\n', ' ')
arxiv_id = entry.find('a:id', ns).text.strip().split('/abs/')[-1]
published = entry.find('a:published', ns).text[:10]
authors = ', '.join(a.find('a:name', ns).text for a in entry.findall('a:author', ns))
summary = entry.find('a:summary', ns).text.strip()[:200]
cats = ', '.join(c.get('term') for c in entry.findall('a:category', ns))
print(f'{i+1}. [{arxiv_id}] {title}')
print(f' Authors: {authors}')
print(f' Published: {published} | Categories: {cats}')
print(f' Abstract: {summary}...')
print(f' PDF: https://arxiv.org/pdf/{arxiv_id}')
print()
"

搜索查询语法

前缀搜索范围示例
all:所有字段all:transformer+attention
ti:标题ti:large+language+models
au:作者au:vaswani
abs:摘要abs:reinforcement+learning
cat:类别cat:cs.AI
co:评论co:accepted+NeurIPS

布尔运算符

# AND (使用 + 时的默认行为)
search_query=all:transformer+attention

# OR
search_query=all:GPT+OR+all:BERT

# AND NOT
search_query=all:language+model+ANDNOT+all:vision

# 精确短语
search_query=ti:"chain+of+thought"

# 组合使用
search_query=au:hinton+AND+cat:cs.LG

排序与分页

参数选项
sortByrelevance, lastUpdatedDate, submittedDate
sortOrderascending, descending
start结果偏移量 (从0开始)
max_results结果数量 (默认10,最大30000)
# cs.AI 类别中最新的 10 篇论文
curl -s "https://export.arxiv.org/api/query?search_query=cat:cs.AI&sortBy=submittedDate&sortOrder=descending&max_results=10"

获取特定论文

# 通过 arXiv ID
curl -s "https://export.arxiv.org/api/query?id_list=2402.03300"

# 多篇论文
curl -s "https://export.arxiv.org/api/query?id_list=2402.03300,2401.12345,2403.00001"

BibTeX 生成

在获取论文的元数据后,生成一个 BibTeX 条目:

{% raw %}

curl -s "https://export.arxiv.org/api/query?id_list=1706.03762" | python3 -c "
import sys, xml.etree.ElementTree as ET
ns = {'a': 'http://www.w3.org/2005/Atom', 'arxiv': 'http://arxiv.org/schemas/atom'}
root = ET.parse(sys.stdin).getroot()
entry = root.find('a:entry', ns)
if entry is None: sys.exit('Paper not found')
title = entry.find('a:title', ns).text.strip().replace('\n', ' ')
authors = ' and '.join(a.find('a:name', ns).text for a in entry.findall('a:author', ns))
year = entry.find('a:published', ns).text[:4]
raw_id = entry.find('a:id', ns).text.strip().split('/abs/')[-1]
cat = entry.find('arxiv:primary_category', ns)
primary = cat.get('term') if cat is not None else 'cs.LG'
last_name = entry.find('a:author', ns).find('a:name', ns).text.split()[-1]
print(f'@article{{{last_name}{year}_{raw_id.replace(\".\", \"\")},')
print(f' title = {{{title}}},')
print(f' author = {{{authors}}},')
print(f' year = {{{year}}},')
print(f' eprint = {{{raw_id}}},')
print(f' archivePrefix = {{arXiv}},')
print(f' primaryClass = {{{primary}}},')
print(f' url = {{https://arxiv.org/abs/{raw_id}}}')
print('}')
"

{% endraw %}

阅读论文内容

找到论文后,可以这样阅读:

# 摘要页面 (快速,元数据 + 摘要)
web_extract(urls=["https://arxiv.org/abs/2402.03300"])

# 完整论文 (PDF → 通过 Firecrawl 转换为 markdown)
web_extract(urls=["https://arxiv.org/pdf/2402.03300"])

有关本地 PDF 处理,请参阅 ocr-and-documents 技能。

常见类别

类别领域
cs.AI人工智能
cs.CL计算与语言 (NLP)
cs.CV计算机视觉
cs.LG机器学习
cs.CR密码学与安全
stat.ML机器学习 (统计学)
math.OC优化与控制
physics.comp-ph计算物理

完整列表:https://arxiv.org/category_taxonomy

辅助脚本

scripts/search_arxiv.py 脚本处理 XML 解析并提供清晰输出:

python scripts/search_arxiv.py "GRPO reinforcement learning"
python scripts/search_arxiv.py "transformer attention" --max 10 --sort date
python scripts/search_arxiv.py --author "Yann LeCun" --max 5
python scripts/search_arxiv.py --category cs.AI --sort date
python scripts/search_arxiv.py --id 2402.03300
python scripts/search_arxiv.py --id 2402.03300,2401.12345

无依赖——仅使用 Python 标准库。


Semantic Scholar (引用、相关论文、作者简介)

arXiv 不提供引用数据或推荐。请使用 Semantic Scholar API 来获取这些信息——免费,基础使用无需密钥 (每秒1次请求),返回 JSON 格式。

获取论文详情 + 引用

# 通过 arXiv ID
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300?fields=title,authors,citationCount,referenceCount,influentialCitationCount,year,abstract" | python3 -m json.tool

# 通过 Semantic Scholar 论文 ID 或 DOI
curl -s "https://api.semanticscholar.org/graph/v1/paper/DOI:10.1234/example?fields=title,citationCount"

获取某篇论文的引用 (谁引用了它)

curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300/citations?fields=title,authors,year,citationCount&limit=10" | python3 -m json.tool

获取某篇论文的参考文献 (它引用了什么)

curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300/references?fields=title,authors,year,citationCount&limit=10" | python3 -m json.tool

搜索论文 (arXiv 搜索的替代方案,返回 JSON)

curl -s "https://api.semanticscholar.org/graph/v1/paper/search?query=GRPO+reinforcement+learning&limit=5&fields=title,authors,year,citationCount,externalIds" | python3 -m json.tool

获取论文推荐

curl -s -X POST "https://api.semanticscholar.org/recommendations/v1/papers/" \
-H "Content-Type: application/json" \
-d '{"positivePaperIds": ["arXiv:2402.03300"], "negativePaperIds": []}' | python3 -m json.tool

作者简介

curl -s "https://api.semanticscholar.org/graph/v1/author/search?query=Yann+LeCun&fields=name,hIndex,citationCount,paperCount" | python3 -m json.tool

常用的 Semantic Scholar 字段

title, authors, year, abstract, citationCount, referenceCount, influentialCitationCount, isOpenAccess, openAccessPdf, fieldsOfStudy, publicationVenue, externalIds (包含 arXiv ID、DOI 等)


完整研究工作流程

  1. 发现: python scripts/search_arxiv.py "你的主题" --sort date --max 10
  2. 评估影响力: curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:ID?fields=citationCount,influentialCitationCount"
  3. 阅读摘要: web_extract(urls=["https://arxiv.org/abs/ID"])
  4. 阅读全文: web_extract(urls=["https://arxiv.org/pdf/ID"])
  5. 查找相关工作: curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:ID/references?fields=title,citationCount&limit=20"
  6. 获取推荐: 向 Semantic Scholar 推荐端点发送 POST 请求
  7. 追踪作者: curl -s "https://api.semanticscholar.org/graph/v1/author/search?query=NAME"

速率限制

API速率认证
arXiv~1 请求 / 3 秒无需
Semantic Scholar1 请求 / 秒无需 (使用 API 密钥可达 100/秒)

注意事项

  • arXiv 返回 Atom XML——使用辅助脚本或解析代码片段以获得清晰输出
  • Semantic Scholar 返回 JSON——通过 python3 -m json.tool 管道输出以提高可读性
  • arXiv ID:旧格式 (hep-th/0601001) 与新格式 (2402.03300)
  • PDF: https://arxiv.org/pdf/{id} — 摘要: https://arxiv.org/abs/{id}
  • HTML (如果可用): https://arxiv.org/html/{id}
  • 有关本地 PDF 处理,请参阅 ocr-and-documents 技能
---
title: "ArXiv 论文 ID 版本控制与撤回机制"
description: "说明 arXiv 论文 ID 的版本处理方式,以及论文被撤回时的注意事项。"
slug: arxiv-id-versioning-and-withdrawal
---

# ID 版本控制

- `arxiv.org/abs/1706.03762` 始终解析到 **最新** 版本。
- `arxiv.org/abs/1706.03762v1` 指向一个**特定的**、不可变的版本。
- 生成引文时,请保留您实际阅读的版本后缀,以防止引文漂移(后续版本可能对内容有重大修改)。
- API 的 `<id>` 字段返回带版本号的 URL(例如,`http://arxiv.org/abs/1706.03762v7`)。

# 撤回的论文

论文在提交后可能会被撤回。当发生这种情况时:
- `<summary>` 字段包含撤回通知(查找 "withdrawn" 或 "retracted")。
- 元数据字段可能不完整。
- 在将某篇论文作为有效论文处理之前,请务必检查其摘要。