Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

ADu2021/deep-search-mcts-rlvr-training

Name: deep-search-mcts-rlvr-training
Author: ADu2021

skills/skillxiv-v0.0.2-claude-opus-4.6/deep-search-mcts-rlvr-training/SKILL.md

npx skillsauth add ADu2021/skillXiv deep-search-mcts-rlvr-training

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

DeepSearch: MCTS Integration During RLVR Training

DeepSearch addresses training plateaus in reasoning models by integrating MCTS directly into the RL training loop. Rather than waiting for standard RLVR to explore, structured search during training accelerates discovery of correct solutions, achieving superior results with 5.7x fewer GPU hours.

Core Architecture

Training-time search: MCTS during training, not just inference
Global frontier selection: Identify most promising incomplete solution paths
Entropy-guided sampling: Target confident errors for maximal learning signal
Asymmetric Q-value updates: Differentiate correct/incorrect trajectories
Replay buffer optimization: Prioritize valuable training experiences

Implementation Steps

Setup MCTS-augmented RLVR trainer:

# Initialize DeepSearch training framework
from deepsearch import MCTSTrainer, MCTSConfig, FrontierSelector

mcts_config = MCTSConfig(
    num_simulations=100,
    max_depth=50,
    exploration_constant=1.414,
    temperature=1.0
)

frontier_selector = FrontierSelector(
    selection_strategy="global_frontier",
    num_frontier_nodes=50,
    confidence_threshold=0.5
)

trainer = MCTSTrainer(
    model=your_reasoning_llm,
    verifier=your_verifier,
    mcts_config=mcts_config,
    frontier_selector=frontier_selector,
    algorithm="GRPO"
)

Execute MCTS-augmented training:

# Training loop with integrated MCTS
for epoch in range(num_epochs):
    for batch in training_dataloader:
        prompts = batch["prompt"]

        # Stage 1: MCTS exploration during training
        search_trees = []
        for prompt in prompts:
            # Run MCTS from this prompt
            tree = trainer.mcts.search(
                root_prompt=prompt,
                num_simulations=mcts_config.num_simulations,
                temperature=mcts_config.temperature
            )
            search_trees.append(tree)

        # Stage 2: Global frontier selection across all search trees
        frontier_nodes = frontier_selector.select(
            trees=search_trees,
            num_nodes=len(prompts) * 5  # 5 frontier nodes per prompt
        )

        # Stage 3: Entropy-guided sampling from frontier
        # Prioritize confident errors (high model confidence but wrong answer)
        sampled_trajectories = []
        for node in frontier_nodes:
            trajectory = trainer.trajectory_from_node(node)

            # Compute entropy/confidence
            entropy = compute_entropy(node.model_confidence)

            # Entropy-guided selection: confident but incorrect
            if node.is_error and entropy < entropy_threshold:
                sampled_trajectories.append(trajectory)

        # Stage 4: Compute rewards and asymmetric updates
        rewards = trainer.verifier.evaluate(sampled_trajectories)

        # Asymmetric Q-value updates
        for trajectory, reward in zip(sampled_trajectories, rewards):
            if reward > 0:  # Correct solution
                # Strong positive signal
                q_value = 1.0 + bonus_correct
            else:  # Incorrect solution
                # Negative signal for learning
                q_value = -1.0 + penalty_entropy * (entropy / max_entropy)

        # Stage 5: RLVR policy update on selected trajectories
        loss = trainer.compute_grpo_loss(
            trajectories=sampled_trajectories,
            rewards=rewards,
            q_values=q_values
        )

        # Backward pass
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

        # Stage 6: Update replay buffer with MCTS trajectories
        for trajectory, reward in zip(sampled_trajectories, rewards):
            trainer.replay_buffer.add(
                trajectory=trajectory,
                reward=reward,
                source="mcts_training"
            )

        # Logging
        if epoch % 10 == 0:
            success_rate = (torch.tensor(rewards) > 0.5).float().mean()
            print(f"Epoch {epoch}: Success={success_rate:.1%}")

Practical Guidance

When to use DeepSearch:

Reasoning models plateauing under standard RLVR
Verification signals available (MCTS requires reward feedback)
Sufficient compute for training-time search overhead
Complex reasoning domains (math, theorem proving, code)

When NOT to use:

Non-verifiable tasks (MCTS requires ground truth)
Compute-constrained settings (search overhead significant)
Real-time training required (MCTS adds wall-clock latency)
Domains where standard RLVR already converges well

Hyperparameters:

Num simulations (100): Increase to 200 for deeper exploration; 50 for speed
Max depth (50): Solution length limit; adjust to problem complexity
Num frontier nodes (50 per prompt): More nodes explore better; increase to 100 for small batches
Entropy threshold: Tune to focus on confident errors
Correct bonus: Weight for correct solutions (1.0 + 0.5 typical)
Error penalty: Scale by entropy (prioritize high-confidence mistakes)

Search Strategy

Global frontier selection:

Identifies most promising incomplete paths across all search trees
Prioritizes paths where model confident but yet to be verified
Avoids redundant exploration of already-successful paths

Entropy guidance:

Low entropy: High model confidence
High entropy: Uncertain predictions
Sweet spot: High confidence + incorrect (most informative for learning)

Performance Metrics

5.7x GPU-hour reduction: Compared to standard RLVR
Performance improvement: 62.95% vs 61.70% baseline (higher-quality solutions)
Convergence speed: Reaches plateau 3x faster
Final accuracy: Continues improving beyond standard RLVR plateau

Computational Cost

Training overhead:

MCTS simulation: ~30% of training time
Frontier selection: ~5% overhead
Asymmetric updates: <1% overhead
Total: ~35% overhead partially amortized by better solutions

GPU hour reduction:

5.7x reduction suggests marginal cost is negative
Faster convergence outweighs per-step overhead

Replay Buffer Integration

Trajectories discovered via MCTS stored and replayed:

Prioritize MCTS-discovered solutions (high value)
Mix with standard RLVR trajectories for diversity
Enable transfer to other reasoning tasks

Architecture Notes

Key insight: "MCTS during training acts as oracle exploration, revealing high-value regions policy might miss." Unlike inference-only MCTS (expensive, deployment-time), training-time MCTS can be amortized during learning.

Comparison to Standard RLVR

| Aspect | Standard RLVR | DeepSearch | |--------|---------------|-----------| | Exploration | Random sampling | Structured MCTS | | Training time | Baseline | +35% per-step | | Convergence | 3K steps plateau | Continues beyond 5K | | GPU hours to 62.95% | ~1000 | ~175 | | Final performance | 61.70% | 62.95% |

References

Builds on MCTS theory, curriculum learning, and verifiable reward signals for RL.

ADu2021/deep-search-mcts-rlvr-training

skills/skillxiv-v0.0.2-claude-opus-4.6/deep-search-mcts-rlvr-training/SKILL.md

Overcome exploration bottlenecks in reasoning RL by integrating Monte Carlo Tree Search during training (not just inference). Global frontier selection and entropy-guided sampling reduce GPU hours by 5.7x while improving performance.

2 stars

documentation

Updated Apr 17, 2026

$ install --global

skillsauth

npx skillsauth add ADu2021/skillXiv deep-search-mcts-rlvr-training

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 17, 2026, 5:32 AM13.5s1 file scanned

SKILL.md

name:: deep-search-mcts-rlvr-training
title:: DeepSearch: MCTS Integration During RLVR Training
version:: 0.0.2
engine:: skillxiv-v0.0.2-claude-opus-4.6
license:: MIT
url:: https://arxiv.org/abs/2509.25454
keywords:: [MCTS, RLVR, reasoning, exploration, training-search]
description:: Overcome exploration bottlenecks in reasoning RL by integrating Monte Carlo Tree Search during training (not just inference). Global frontier selection and entropy-guided sampling reduce GPU hours by 5.7x while improving performance.

DeepSearch: MCTS Integration During RLVR Training

Core Architecture

Training-time search: MCTS during training, not just inference
Global frontier selection: Identify most promising incomplete solution paths
Entropy-guided sampling: Target confident errors for maximal learning signal
Asymmetric Q-value updates: Differentiate correct/incorrect trajectories
Replay buffer optimization: Prioritize valuable training experiences

Implementation Steps

Setup MCTS-augmented RLVR trainer:

# Initialize DeepSearch training framework
from deepsearch import MCTSTrainer, MCTSConfig, FrontierSelector

mcts_config = MCTSConfig(
    num_simulations=100,
    max_depth=50,
    exploration_constant=1.414,
    temperature=1.0
)

frontier_selector = FrontierSelector(
    selection_strategy="global_frontier",
    num_frontier_nodes=50,
    confidence_threshold=0.5
)

trainer = MCTSTrainer(
    model=your_reasoning_llm,
    verifier=your_verifier,
    mcts_config=mcts_config,
    frontier_selector=frontier_selector,
    algorithm="GRPO"
)

Execute MCTS-augmented training:

# Training loop with integrated MCTS
for epoch in range(num_epochs):
    for batch in training_dataloader:
        prompts = batch["prompt"]

        # Stage 1: MCTS exploration during training
        search_trees = []
        for prompt in prompts:
            # Run MCTS from this prompt
            tree = trainer.mcts.search(
                root_prompt=prompt,
                num_simulations=mcts_config.num_simulations,
                temperature=mcts_config.temperature
            )
            search_trees.append(tree)

        # Stage 2: Global frontier selection across all search trees
        frontier_nodes = frontier_selector.select(
            trees=search_trees,
            num_nodes=len(prompts) * 5  # 5 frontier nodes per prompt
        )

        # Stage 3: Entropy-guided sampling from frontier
        # Prioritize confident errors (high model confidence but wrong answer)
        sampled_trajectories = []
        for node in frontier_nodes:
            trajectory = trainer.trajectory_from_node(node)

            # Compute entropy/confidence
            entropy = compute_entropy(node.model_confidence)

            # Entropy-guided selection: confident but incorrect
            if node.is_error and entropy < entropy_threshold:
                sampled_trajectories.append(trajectory)

        # Stage 4: Compute rewards and asymmetric updates
        rewards = trainer.verifier.evaluate(sampled_trajectories)

        # Asymmetric Q-value updates
        for trajectory, reward in zip(sampled_trajectories, rewards):
            if reward > 0:  # Correct solution
                # Strong positive signal
                q_value = 1.0 + bonus_correct
            else:  # Incorrect solution
                # Negative signal for learning
                q_value = -1.0 + penalty_entropy * (entropy / max_entropy)

        # Stage 5: RLVR policy update on selected trajectories
        loss = trainer.compute_grpo_loss(
            trajectories=sampled_trajectories,
            rewards=rewards,
            q_values=q_values
        )

        # Backward pass
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

        # Stage 6: Update replay buffer with MCTS trajectories
        for trajectory, reward in zip(sampled_trajectories, rewards):
            trainer.replay_buffer.add(
                trajectory=trajectory,
                reward=reward,
                source="mcts_training"
            )

        # Logging
        if epoch % 10 == 0:
            success_rate = (torch.tensor(rewards) > 0.5).float().mean()
            print(f"Epoch {epoch}: Success={success_rate:.1%}")

Practical Guidance

When to use DeepSearch:

Reasoning models plateauing under standard RLVR
Verification signals available (MCTS requires reward feedback)
Sufficient compute for training-time search overhead
Complex reasoning domains (math, theorem proving, code)

When NOT to use:

Non-verifiable tasks (MCTS requires ground truth)
Compute-constrained settings (search overhead significant)
Real-time training required (MCTS adds wall-clock latency)
Domains where standard RLVR already converges well

Hyperparameters:

Num simulations (100): Increase to 200 for deeper exploration; 50 for speed
Max depth (50): Solution length limit; adjust to problem complexity
Num frontier nodes (50 per prompt): More nodes explore better; increase to 100 for small batches
Entropy threshold: Tune to focus on confident errors
Correct bonus: Weight for correct solutions (1.0 + 0.5 typical)
Error penalty: Scale by entropy (prioritize high-confidence mistakes)

Search Strategy

Global frontier selection:

Identifies most promising incomplete paths across all search trees
Prioritizes paths where model confident but yet to be verified
Avoids redundant exploration of already-successful paths

Entropy guidance:

Low entropy: High model confidence
High entropy: Uncertain predictions
Sweet spot: High confidence + incorrect (most informative for learning)

Performance Metrics

5.7x GPU-hour reduction: Compared to standard RLVR
Performance improvement: 62.95% vs 61.70% baseline (higher-quality solutions)
Convergence speed: Reaches plateau 3x faster
Final accuracy: Continues improving beyond standard RLVR plateau

Computational Cost

Training overhead:

MCTS simulation: ~30% of training time
Frontier selection: ~5% overhead
Asymmetric updates: <1% overhead
Total: ~35% overhead partially amortized by better solutions

GPU hour reduction:

5.7x reduction suggests marginal cost is negative
Faster convergence outweighs per-step overhead

Replay Buffer Integration

Trajectories discovered via MCTS stored and replayed:

Prioritize MCTS-discovered solutions (high value)
Mix with standard RLVR trajectories for diversity
Enable transfer to other reasoning tasks

Architecture Notes

Comparison to Standard RLVR

References

Builds on MCTS theory, curriculum learning, and verifiable reward signals for RL.

Related Skills

ADu2021/flow-map-trajectory-tilting

testing

VerifiedTrustedCommunity

Uses flow maps as look-ahead operators to enable principled reward-guided diffusion by predicting trajectory endpoints at any denoising step. Deploy when applying rewards or preferences to diffusion trajectories with meaningful gradients throughout generation.

2SKILL.mdUpdated Apr 17, 2026

ADu2021/flow-map-trajectory-tilting

ADu2021/flexible-data-mixture-of-experts

testing

VerifiedTrustedCommunity

Train language models where each expert learns independently on closed datasets, enabling flexible inference with selective data inclusion or exclusion. 41% performance improvement while allowing users to opt out of specific data sources without retraining.

2SKILL.mdUpdated Apr 17, 2026

ADu2021/flexible-data-mixture-of-experts

ADu2021/flexibility-trap-diffusion-reasoning

data-ai

VerifiedTrustedCommunity

Understand how token generation flexibility in diffusion LMs paradoxically constrains reasoning, as models exploit ordering flexibility to avoid uncertain tokens, and apply simplified approaches that preserve parallel decoding benefits. Use when optimizing diffusion-based language models for reasoning tasks.

2SKILL.mdUpdated Apr 17, 2026

ADu2021/flexibility-trap-diffusion-reasoning

ADu2021/flex-continuous-agent-evolution

devops

VerifiedTrustedCommunity

Enable LLM agents to improve continuously during deployment by constructing structured experience libraries through self-reflection on successes and failures—achieving 23% improvement on reasoning without gradient-based parameter updates or external training.

2SKILL.mdUpdated Apr 17, 2026

ADu2021/flex-continuous-agent-evolution

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/ADu2021/skillXiv.git

# Copy into Claude Code skills folder (global)
cp -r skillXiv/skills/skillxiv-v0.0.2-claude-opus-4.6/deep-search-mcts-rlvr-training ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

ADu2021/skillXiv

2 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT