What is the SEAL Showdown benchmarking tool used for?

The SEAL Showdown tool is used for prompt-based model comparisons, letting you evaluate multiple LLMs on the same prompt set with consistent settings and a clear rubric. It helps identify the best model for your specific tasks, costs, and latency needs.

How do I compare models fairly with SEAL Showdown?

Use identical prompts, fix parameters like temperature and max tokens, and apply the same rubric across all models. Run multiple repetitions, then aggregate scores with metrics such as F1, semantic similarity, LLM-judge, cost, and latency.

How many prompts do I need for reliable model comparisons?

For a quick directional answer, 200–500 prompts are usually enough. For high-confidence decisions or SLAs, use 1,000+ prompts and run multiple repetitions to estimate variance.

Which metrics work best for prompt-based model comparisons?

Use exact match or F1 for objective tasks, semantic similarity for paraphrase-tolerant evaluation, and rubric-based LLM grading for subjective quality. Track latency and cost alongside quality to reflect real-world trade-offs.

Can I use SEAL Showdown for safety and jailbreak testing?

Yes. Include adversarial prompts and policy traps in your dataset, track refusal rates and violations, and add safety to your weighted scoring. Regular regression runs help catch safety regressions over time.

ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಾಗಿ SEAL Showdown ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್ ಸಾಧನವನ್ನು ಹೇಗೆ ಬಳಸುವುದು

ನೀವು ಬೇರೆ ಮೂರು LLM ಗಳಲ್ಲಿ ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಪೇಸ್ಟ್ ಮಾಡಿ, ವಿಭಿನ್ನ ಉತ್ತರಗಳನ್ನು ಪಡೆದಿದ್ದರೆ, ನೀವು ಅದರ ತೊಂದರೆ ಚಿತ್ರಿಸುತ್ತೀರಿ: ನಿಮಗಿಷ್ಟವಾದ ಕಾರ್ಯಕ್ಕಾಗಿ ಯಾವ ಮಾದರಿ ನಿಜವಾಗಿಯೂ ಉತ್ತಮ? SEAL Showdown ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್ ಸಾಧನವು ಈ ಪ್ರಶ್ನೆಗೆ ನೇರವಾಗಿ ಉತ್ತರಿಸುವ ಉದ್ದೇಶ ಹೊಂದಿದೆ, ಇದು ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸುವಿಕೆಯನ್ನೂ ಅನುಸರಿಸಬಹುದಾದ, ಪುನರಾವರ್ತಿಸುವ such評価ಗಳು ನೊಂದಿಗೆ ನಡೆಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಈ ಪ್ರಾಯೋಗಿಕ ಹಾಗೂ ಪರಿಹಾರಕೇಂದ್ರಿತ ಮಾರ್ಗದರ್ಶನದಲ್ಲಿ, ನಾವು SEAL Showdown ಅನ್ನು ಮೊದಲಿನಿಂದ funditಗಗಲಗೆಲ್ಲಾ ಹೇಗೆ ಬಳಸುವುದು, ತಪ್ಪುಗಳಿಂದ ಹೇಗೆ ತಪ್ಪಿಸಿಕೊಳ್ಳುವುದು ಮತ್ತು ಯಾವ ಮೆಟ್ರಿಕ್ಸ್ ಗಳಿಗೆ ಪ್ರಮುಖತೆ ನೀಡಬೇಕು ಎಂಬುದನ್ನು ತಿಳಿಸೋಣ.

ಮುಂದೆಯ ಬಲವಾದ ಹೇಳಿಕೆ: ನಿಯಮಿತ ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್, ಸ್ಥಿರ ರೂಬ್ರಿಕ್, ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಣನೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ನೀವು ಮೌಲ್ಯಮಾಪನ ಸಮಯವನ್ನು 70% ಕಡಿಮೆ ಮಾಡಬಹುದು ಮತ್ತು ನಿಮ್ಮ ಮಾದರಿ ಆಯ್ಕೆಗಳನ್ನು ಹೆಚ್ಚು ಸಮರ್ಥವಾಗಿ ಮಾಡಬಹುದು.

SEAL Showdown ಎಂದರೆ ಏನು ನಿಜವಾಗಿ?

SEAL Showdown ಬಹು ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಪಕ್ಕ ಪಕ್ಕ ಹೋಲಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಪ್ರಾಂಪ್ಟ್ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್ ಫ್ರೇಮ್ವರ್ಕ್ ಆಗಿದೆ. ಇದರ ಕೆಳಗಿನ್ದಾಗಿ ಗಮನ ಕೇಂದ್ರಿತವಾಗಿದೆ:

ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು: ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್, ಬಹು ಮಾದರಿಗಳು, ಮಾನದಂಡಿತ ಮೌಲ್ಯಮಾಪನ.

ನಿರ್ವಹಿಸಲಾದ ರೂಬ್ರಿಕ್‌ಗಳು: ನಿಖರ-ಹೋಲಿಕೆ ಇಂದ ಮಾನವಹಲೋಲೆಗಳಂತೆ ಮೌಲ್ಯಮಾಪನದವರೆಗೆ.

ಪುನರಾವರ್ತನೆ ಸಾಧ್ಯತೆ: ಆವೃತ್ತಿಗೊಳಿಸಿದ ಡೇಟಾ ಸೆಟ್‌ಗಳು, ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮತ್ತು ಸೆಟ್ಟಿಂಗ್ಗಳು ಫಲಿತಾಂಶಗಳನ್ನು ಮತ್ತೆ ನಡೆಸಲು ಮತ್ತು ದೃಢೀಕರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.

ಸ್ವಯಂಕ್ರಮಣ: ಬ್ಯಾಚ್ ರನ್‌ಗಳು, ಅಂಕಗಣನೆ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳು, ನಾಯಕಪಟ್ಟಿಗಳು ಮತ್ತು ರಫ್ತು ವರದಿಗಳು.

ಸಾರಾಂಶವಾಗಿ, ಇದು ಉತ್ತರಿಸುತ್ತದೆ: "ನನಗೆ ಬೇಕಾದ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮತ್ತು ರೂಬ್ರಿಕ್‌ನಲ್ಲಿ ಯಾವ ಮಾದರಿ ನಿರಂತರವಾಗಿ ಅತ್ಯುತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ?" ಇದು ಉತ್ಪನ್ನ ಆಯ್ಕೆ, ಮಾದರಿ ನವೀಕರಣ, ಪಿ.ಟಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಎಂಜಿನಿಯರಿಂಗ್‌ ಜೊತೆ ಸೂಕ್ತವಾಗಿ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ.

ಯಾರು SEAL Showdown ಅನ್ನು ಬಳಸಬೇಕು?

ಉತ್ಪನ್ನ ತಂಡಗಳು ಮಾದರಿ ಪೂರೈಕೆದಾರರನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತಿರುವವರು (ಉದಾಹರಣೆಗೆ, OpenAI ವಿರುದ್ಧ Anthropic, Google, ಮುಕ್ತ-ಮೂಲ LLMs).

ಡೇಟಾ ಸೈನ್ಟಿಸ್ಟ್ / ಎಂಎಲ್ ಎಂಜಿನಿಯರ್‌ಗಳು ಮೌಲ್ಯಮಾಪನ पाइಪ್ಲೈನ್ಗಳನ್ನು ನಿರ್ಮಿಸುವವರು.

ಪ್ರಾಂಪ್ಟ್ ಎಂಜಿನಿಯರ್‌ಗಳು ಸೂಚನೆಗಳನ್ನು, ವ್ಯವಸ್ಥೆಯ ಸಂದೇಶಗಳು ಮತ್ತು ಕಡಿಮೆ-ಉದಾಹರಣೆಗಳನ್ನೂ ರೂಢಿಗೊಳಿಸುವವರು.

QA ಮತ್ತು ಅನುಕೂಲತೆ ತಂಡಗಳು ಗುಣಮಟ್ಟ, ಸುರಕ್ಷತೆ ಮತ್ತು ನಿಯತತೆಯನ್ನು ಪರಿಶೀಲಿಸುವವರು.

ನಿಮ್ಮ ಕಾರ್ಯಪದ್ಧತಿ ನಿರೀಕ್ಷಿತ ಫಲಿತಾಂಶಗಳಿಗೆ ಅವಲಂಬಿತವಾಗಿದ್ದರೆ, SEAL Showdown ಸಾಧನ ನಿಮ್ಮನ್ನು ತಲುಪಿಸುವುದು ಅದು ಯಾವ ಮಾದರಿ ಉತ್ತಮವೆಂಬುದನ್ನು ಊಹಿಸಲು ಅಲ್ಲ, ಸಾಬೀತುಪಡಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ತ್ವರಿತ ಪ್ರಾರಂಭ: 10 ನಿಮಿಷಗಳ ರನ್

ನಿಮ್ಮ ಮೊದಲ ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳನ್ನ ನಡೆಸಲು ಸರಳೀಕರಿಸಿದ ಪ್ರಕ್ರಿಯೆ ಇಲ್ಲಿ ಇದೆ.

ನಿಮ್ಮ ಆಸ್ತಿ ತಯಾರಿಸಿಕೊಳ್ಳಿ

ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್: 50–200 ಪ್ರಾಂಪ್ಟ್‌ಗಳು, ನಿಮ್ಮ ನಿಜವಾದ ಕಾರ್ಯಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುವಂತೆ (ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ, ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ, ವರ್ಗಾವಣೆ, ಕೋಡ್ ಉತ್ಪಾದನೆ, ಇತ್ಯಾದಿ).

ಬಂಗಾರದ ಲೇಬಲ್‌ಗಳು ಅಥವಾ ಉಲ್ಲೇಖಗಳು (ಅನ್ವಯವಾಗಿದ್ದರೆ): ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗೆ ನಿಜವಾದ ಅರ್ಥ.

ರೂಬ್ರಿಕ್: ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗೆ ಅಂಕಗಣನೆದ ಮಾನದಂಡಗಳು (ಉದಾ., ಸರಿ, ಪೂರ್ಣತೆ, ಧ್ವನಿ, ಸುರಕ್ಷತೆ).

ಮಾದರಿಗಳನ್ನು ಸಂರಚಿಸಿ

ಇರಡುರಿಂದ ಐದು ಮಾದರಿಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಿ. ಉದಾಹರಣೆಗೆ: gpt-4o, claude-3-sonnet, gemini-1.5-pro, ಮತ್ತು ಒಂದು ಮುಕ್ತ-ಮೂಲ ಬೆಲೆಗುರುತು (ಊದಾಹರಿಸಲು: llama-3-70b-instruct).

ತಾಪಮಾನ, ಗರಿಷ್ಠ ಟೋಕನ್ಗಳು, top_p ಮತ್ತು ಯಾವುದೇ ಸುರಕ್ಷತಾ ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ಸ್ಥಿರವಾಗಿ ಇರಿಸಿ.

ಮೌಲ್ಯಮಾಪನವನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿ

ಮೆಟ್ರಿಕ್ಸ್ ಆಯ್ಕೆ ಮಾಡಿ: ನಿಖರ ಹೋಲಿಕೆ, ROUGE/BLEU, ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ, ರೂಬ್ರಿಕ್ ಆಧಾರಿತ LLM ಮೌಲ್ಯಮಾಪನ, ವಿಳಂಬ, ಮತ್ತು ವೆಚ್ಚ.

ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಪಾಸ್/ಫೇಲ್ ಗಡಿಗಳನ್ನು ನಿಶ್ಚಯಿಸಿ.

Showdown ನಡೆಸಿ

ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ನಲ್ಲಿ ಮಾದರಿಗಳ ಮೇಲೆ ಬ್ಯಾಚ್ ಇನ್ಫರೆನ್ಸ್ ನಿರ್ವಹಿಸಿ.

ಮೂಲ ಔಟ್‌ಪುಟ್‌ಗಳು, ಸಮಯ ದಾಖಲೆಗಳು, ಟೋಕನ್ ಬಳಕೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣಾ ಮಾಹಿತಿ ಉಳಿಸಿ.

ಅಂಕೆಗಣಿಸಿ ಮತ್ತು ವಿಶ್ಲೇಷಿಸಿ

ಮೆಟ್ರಿಕ್ಸ್ ಮತ್ತು ರೂಬ್ರಿಕ್ ಅನ್ನು ಅನ್ವಯಿಸಿ.

ನಾಯಕಪಟ್ಟಿ ಮತ್ತು ದೋಷವಿಶ್ಲೇಷಣೆಯನ್ನು ಸೃಷ್ಟಿಸಿ (ಪ್ರಾಂಪ್ಟ್ ಪ್ರಕಾರ, ಕಷ್ಟತೆ, ಕ್ಷೇತ್ರದಿಂದ).

ಮಾಡಿಕೊಳ್ಳಿ ಮತ್ತು ಪುನರಾವರ್ತಿಸಿ

ಪ್ರತಿಯೊಂದು ಕಾರ್ಯಕ್ಕಾದರೂ ಶ್ರೇಷ್ಠ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆ ಮಾಡಿ.

ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ನಿಖರಗೊಳಿಸಿ ಮತ್ತು ದೃಢೀಕರಣಕ್ಕಾಗಿ ಮರುನಡೆಸಿ.

ಮೂಲ ಕಲ್ಪನೆ: ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು

ಒಳ್ಳೆಯ ಬೆಂಚ್ಮಾರ್ಕ್ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಕೇವಲ ಮಾದರಿಗಳಿಂದ ಹಿಡಿದಿಡುತ್ತದೆ, ನಿಮ್ಮ ಪ್ರಕ್ರಿಯೆಯಿಂದ ಅಲ್ಲ. ಇದನ್ನು ಸಾಧಿಸಲು:

ಒಂದೇ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿ ಎಲ್ಲಾ ಮಾದರಿಗಳಲ್ಲೂ.

ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಪರಿಮಾಣಗಳನ್ನು ಸ್ಥಿರಗೊಳಿಸಿ (ತಾಪಮಾನ, top_p) ನ್ಯಾಯತೆಯಿಗಾಗಿ.

сಿಸ್ಟಮ್ ಪ್ರಾಕೃತಿಕಾಂಶವನ್ನು ಸಾಮಾನ್ಯಗೊಳಿಸಿ ಒಂದು ಮಾದರಿಯು ಹೆಚ್ಚುವರಿ ಸೂಚನೆಯಿಂದ ಮೇಲುಗೈ ಪಡೆಯದಂತೆ.

ಬ್ಯಾಚ್ ಗಾತ್ರ ಮತ್ತು ದರ ನಿಯಮ ಸಮಾನವಾಗಿರಬೇಕು, ತಡೆಬಾಧಕ ಪರಿಣಾಮಗಳನ್ನು ತಪ್ಪಿಸಲು.

ಬೀಜ ನಿಯಂತ್ರಣ (ಮೂಲรองಿಸಿದರೆ) ನಿರ್ಣಾಯಕ ರನ್‌ಗಳಿಗೆ.

ಇದರಿಂದ SEAL Showdown ಫಲಿತಾಂಶಗಳು ನಿಜವಾಗಿಯೂ ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸುತ್ತವೆ, ನಿಮ್ಮ ಮೂಲಸೌಕರ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಅಲ್ಲ.

ಸೆಟ್‌ಅಪ್: ಯೋಜನೆಗಳು, ಡೇಟಾಸೆಟ್‌ಗಳು, ಮತ್ತು ಪ್ರಾಂಪ್ಟ್‌ಗಳು

ನಿಮ್ಮ ಬೆಂಚ್ಮಾರ್ಕ್ ಅನ್ನು ಸಾಫ್ಟ್‌ವೇರ್ ಯೋಜನೆಯಂತೆ ರಚಿಸಿ:

ಯೋಜನೆ: showdown-customer-support-v1

ಡೇಟಾಸೆಟ್: tickets_jan_to_mar_2025.jsonl

ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್: support_resolution_v2 (ಸಿಸ್ಟಮ್ + ಬಳಕೆದಾರ ಟೆಂಪ್ಲೇಟ್ಗಳು)

ಮಾದರಿಗಳು: gpt-4o, claude-3.5-sonnet, gemini-1.5, llama-3-70b

ಮೆಟ್ರಿಕ್ಸ್: semantic_similarity, rubric_score, latency_ms, cost_usd

ಔಟ್‌ಪುಟ್: runs/2025-09-25/

ಎರಡನೆಯ ಉದಾಹರಣೆಯ ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್:

system: |
ನೀವು ಸಹಾಯಕ, ಸಂಕ್ಷಿಪ್ತ ಸಹಾಯಕ. ಅನುಮಾನವಿದ್ದರೆ, ಸಂಕ್ಷಿಪ್ತ ಸ್ಪಷ್ಟೀಕರಣದ ಪ್ರಶ್ನೆ ಕೇಳಿ.
user_template: |
ಕಾರ್ಯ: ಗ್ರಾಹಕ ಟಿಕೆಟ್ ಪರಿಹರಿಸಿ.
ನಿಯಮಗಳು: ವಾಸ್ತವಿಕ, ಗೌರವಪೂರ್ವಕ ಮತ್ತು ಮುಂದಿನ ಹೆಜ್ಜೆಗಳನ್ನ ಒದಗಿಸಿ.
ಟಿಕೆಟ್:
"""
{{ticket_text}}
"""
few_shots:
- input: "ನನ್ನ ಆರ್ಡರ್ ಹಾನಿಗೊಂಡು ಬಂದಿದೆ, ಈಗ ಏನು ಮಾಡಬೇಕು?"
output: "ಕ್ಷಮಿಸಿ ಇದು ಸಂಭವಿಸಿದುದಕ್ಕೆ. ನಾನು ಬದಲಾವಣೆ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಪ್ರಾರಂಭಿಸಿದ್ದೇನೆ..."

ನಿಮ್ಮ ಹಾರ್ನಸ್ ಅನ್ನು ಎಲ್ಲಾ ರನ್‌ಗಳಲ್ಲಿಯೂ ಸ್ಥಿರವಾಗಿಟ್ಟುಕೊಳ್ಳಿ. ಆವೃತ್ತಿ ನವೀಕರಣಗಳನ್ನು ಗಮನವಿಟ್ಟು ಮಾಡಿರಿ: support_resolution_v2 → v3 ಮಾತ್ರ ನೀವು ವರ್ತನೆ ಬದಲಾಯಿಸಲು ನೀವು ಬಯಸುವಾಗ.

ನಂಬಬಹುದಾದ ರೂಬ್ರಿಕ್ ರಚನೆ

ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗೆ (ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ, ವರ್ಗಾವಣೆ), ನಿಖರ ಹೋಲಿಕೆ ಅಥವಾ F1 ಉತ್ತಮವಾಗಿದೆ. ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗೆ (ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ, ಸಂಪಾದಕೀಯ, ಸಪೋರ್ಟ್ ಟೋನ್), ಸ್ಪಷ್ಟ ಮತ್ತು ಪರೀಕ್ಷಿಸಬಹುದಾದ ಮಾನದಂಡಗಳೊಂದಿಗೆ ರೂಬ್ರಿಕ್ ರಚಿಸಿ:

ಸರಿಯಾದತೆ (0–4): ವಾಸ್ತುತತ್ವ ಮತ್ತು ಸಂಬಂಧಿತ ಮಾಹಿತಿಗಳು.

ಪೂರ್ಣತೆ (0–3): ಎಲ್ಲಾ ಅಗತ್ಯ ಅಂಶಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

स्पಷ್ಟತೆ (0–2): ಸುಲಭವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತೆ.

ಧ್ವನಿ/ಸುರಕ್ಷತೆ (0–1): ವೃತ್ತಿಪರ ಮತ್ತು ಸುರಕ್ಷಿತ.

LLM ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಉದಾಹರಣಾ ರೂಬ್ರಿಕ್ ಪ್ರಾಂಪ್ಟ್:

ನೀವು ಒಂದೇ ಪ್ರಾಂಪ್ಟ್‌ಗೆ ಎರಡು ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತಿದ್ದೀರಿ.
JSON ರೂಪದಲ್ಲಿ correctness, completeness, clarity, tone_safety, ಮತ್ತು overall (0–10) ಕ್ಷೇತ್ರಗಳನ್ನು ನೀಡಿರಿ.
ಹಲ್ಲು ಅನೇಕತೆ ಮತ್ತು ಅಪೂರ್ಣ ಕ್ರಮಗಳ ಬಗ್ಗೆ ಕಟ್ಟುನಿಟ್ಟಾಗಿ ಇರಲಿ.
ಅಂಕೆಯ ಹಿನ್ನೆಲையில் ಸಣ್ಣ ವಿವರಣೆ ನೀಡಿರಿ.

ಸಲಹೆ: 20–30 ಕೈಯಿಂದ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾದ ಉದಾಹರಣೆಗಳಿಂದ ರೂಬ್ರಿಕ್ ಅನ್ನು ಅಳವಡಿಸಿ, ನಂತರ LLM ಮೌಲ್ಯಮಾಪನವನ್ನು ತಪಾಸಿಸಿ ಸರಿಹೊಂದಿಸಿ.

ಪ್ರಾಮುಖ್ಯತೆ ಹೊಂದಿರುವ ಮೆಟ್ರಿಕ್ಸ್ (ಮತ್ತು ಯಾವಾಗ)

ನಿಖರ ಹೋಲಿಕೆ / F1:ಒಂದು ಸರಿಯಾದ ಉತ್ತರ ಇರುವ ಪದಾರ್ಥ ಸಾರ್ವಕಾಲಿಕ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತಮ.

ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ (ಎಂಬೆಡಿಂಗ್ ಕೋಸೈನ್):ಪುನಃವಾಕ್ಯವನ್ನು ಹಿಡಿದುಕೊಳ್ಳುತ್ತದೆ; ಸಂಕ್ಷಿಪ್ತ ಮತ್ತು ಪ್ರಶ್ನೋತ್ತರಗಳಿಗೆ ಉಪಯುಕ್ತ.

LLM-ನ್ಯಾಯಾಧೀಶ: ವ್ಯಾಖ್ಯಾನಾತ್ಮಿಕ ಗುಣಮಟ್ಟಕ್ಕೆ ಶಕ್ತಿಶಾಲಿ; ಆದರೆ ಮಾನವ ಪರಿಶೀಲನೆ ಸಹಿತ ದೃಢೀಕರಿಸಿ.

ವಿಳಂಬ: ಸರಾಸರಿ ಮತ್ತು p95 ಸಮಯಗಳು ಟೈಔಟ್‌ಗಳು ಮತ್ತು ಬಳಕೆದಾರ ಅನುಭವ ಸಮಸ್ಯೆಗಳನ್ನು ಹಿಡಿಯುತ್ತದೆ.

ಪ್ರತಿ 1K ವಿನಂತಿಗಳ ವೆಚ್ಚ: ಬಜೆಟ್ ಮತ್ತು ಪ್ರಮಾಣ ಯೋಜನೆಗೆ ಬಹುಮುಖ್ಯ.

ಸ್ಥಿರತೆ / ವ್ಯತ್ಯಾಸ: ಹಲವಾರು ಚಲಾವಣೆಗಳಿಂದ ಸ್ತರತೆಯ ಮತ್ತು ಯಾದೃಚ್ಛಿಕತೆಯ ಪ್ರಭಾವ ಕಂಡುಹಿಡಿಯಿರಿ.

ಸುರಕ್ಷತಾ ಸೂಚನೆಗಳು: ಜೈಲ್ಬ್ರೇಕ್, ನಿರಾಕರಣೆ ದರಗಳು ಮತ್ತು ನೀತಿಯ ಉಲ್ಲಂಘನೆಗಳು.

ವೇಪಾರಿಕ ಗುರಿಗಳೊಂದಿಗೆ ಹೊಂದಾಣಿಕೆಯಾಗಿ ಮಿಶ್ರಿತ ಅಂಕೆಗಟ್ಟುವಿಕೆಗಳನ್ನು ನಿರ್ಮಿಸಿ. ಉದಾಹರಣೆ: 50% ಗುಣಮಟ್ಟ (ರೂಬ್ರಿಕ್), 20% ವಿಳಂಬ, 20% ವೆಚ್ಚ, 10% ಸುರಕ್ಷತೆ.

ನಿಮ್ಮ ಮೊದಲ Showdown ನಡೆಸುವುದು: ಹೆಜ್ಜೆ-ತಪ್ಪು ಟ್ಯುಟೋರಿಯಲ್

ನಾವು ಪ್ರಶ್ನಾ-ನಾಯಕಿತ ಸ್ವರೂಪದಲ್ಲಿ ಸಂರಚಿತ ನೆರೆದ ಪ್ರವಾಸವನ್ನು ನೀಡುತ್ತೇವೆ.

1) ಪ್ರತಿನಿಧಿಸಬಹುದಾದ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ ಅನ್ನು ನಾನು ಹೇಗೆ ಸಂಗ್ರಹಿಸಬೇಕು?

ಉತ್ಪಾದನಾ ಲಾಗ್‌ಗಳ ನಿಜವಾದ ಮಾದರಿಗಳನ್ನು privacy ನಿಯಂತ್ರಣೆಗಳೊಂದಿಗೆ ತೆಗೆದುಕೊಂಡಿರಿ; ಸುಲಭ, ಮಧ್ಯಮ ಮತ್ತು ಕಷ್ಟಕರ ಪ್ರಾಂಪ್ಟ್ ಗಳು ಒಳಗೊಂಡಿರಲಿ.

ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಚಿಂತಿಸುವಾಗ ಅತಿರೋಧ್ಯ ಮತ್ತು ವಿರುದ್ಧ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಸೇರಿಸಿ.

ಪ್ರತಿ ಪ್ರಾಂಪ್ಟ್‌ವನ್ನ ಪ್ರಕಾರದಿಂದ ಲೆಬಲ್ ಮಾಡಿ: ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸಿ, ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ, ವರ್ಗೀಕರಣ, ಕಾರಣ, ಕೋಡ್, SQL, ನೀತಿ, ಸುರಕ್ಷತೆ.

2) ಎಷ್ಟು ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಬೇಕಾಗಿವೆ?

ತ್ವರಿತ smoke ಪರೀಕ್ಷೆಗಳಿಗಾಗಿ 50 ಪ್ರಾಂಪ್ಟ್‌ಗಳು.

ದಿಕ್ಕು ನಿರ್ಣಯಗಳಿಗೆ 200–500 ಪ್ರಾಂಪ್ಟ್‌ಗಳು.

ಹೆಚ್ಚು ವಿಶ್ವಾಸಪಾತ್ರ ನಿರ್ಧಾರ ಅಥವಾ SLA ಗಳಿಗೆ 1,000+ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮತ್ತು ಹಲವು ಪುನರಾವರ್ತನೆಗಳು.

3) ಯಾವ ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸುವುದು?

"ಪ್ರೀಮಿಯಂ" ಮುಚ್ಚಿದ ಮಾದರಿ, ಸತತವಾದ ಮಾದರಿ ಮತ್ತು ಮುಕ್ತ ಮೂಲ ಸ್ಪರ್ಧಿ ಇದರಲ್ಲಿ ಕನಿಷ್ಠ ಒಂದು ಆಯ್ಕೆಮಾಡಿ.

ನಿಮ್ಮ ಕಾರ್ಯಭಾರ ಬಹುಭಾಷಾ ಇದ್ದರೆ, ಅನಿಲಿಂಗ್ವಲ್ ಉತ್ತಮತೆ ಹೊಂದಿರುವ ಮಾದರಿಯನ್ನು ಸೇರಿಸಿ.

4) ಯಾವ ಪರಿಮಾಣಗಳನ್ನು ಸ್ಥಿರಗೊಳಿಸಬೇಕು?

ತಾಪಮಾನ, top_p, ಗರಿಷ್ಠ ಟೋಕನ್ಗಳು, ಮತ್ತು ಸುರಕ್ಷತಾ ಸುಡ್ಕಲುಗಳು.

ಮಾಡಲಾದ ಸಿಸ್ಟಮ್ ಸೂಚನೆಗಳನ್ನು ಎಲ್ಲಾ ಮಾದರಿಗಳಲ್ಲಿಯೂ ಸ್ಥಿರಗೊಳಿಸಿರಿ.

ಸಾಧನಗಳು/ಕಾರ್ಯಗಳಿಗಾಗಿ, ಅಳಿಸಿಡಿ ಅಥವಾ ಕರೆ ಮಾದರಿಗಳನ್ನು ಸಮಾನಗೊಳಿಸಿ.

5) ಬ್ಯಾಚ್ ರನ್ ಅನ್ನು ನಾನು ಹೇಗೆ ನಡಿಸಲು?

ರನ್ ಕಾನ್ಫಿಗ್ ರಚಿಸಿ:

{
"dataset": "tickets_jan_to_mar_2025.jsonl",
"prompt_harness": "support_resolution_v2",
"models": ["gpt-4o", "claude-3.5-sonnet", "gemini-1.5", "llama-3-70b"],
"params": {"temperature": 0.2, "top_p": 0.9, "max_tokens": 600},
"metrics": ["exact_match", "semantic_similarity", "rubric", "latency", "cost"],
"repetitions": 3,
"seed": 42
}

ಮಾಡೆಲ್ ಪ್ರತಿ ಒಂದು ಅಥವಾ ಸಮಾಲೋಚನೆ ಮೂಲಕ ಜಾಬ್‌ಗಳನ್ನು ನಡೆಯಿರಿ ಜೊತೆಗೆ ಬ್ಯಾಕ್‌ಆಫ್ ಹ್ಯಾಂಡ್ಲಿಂಗ್.

ಕಚ್ಚಾ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಟೈಂಸ್ಟ್ಯಾಂಪ್‌ಗಳ ಮತ್ತು ಮಾದರಿ ಮೆಟಾಡೇಟಾ ಜೊತೆಗೆ ಡಿಸ್ಕ್‌ಗೆ ಉಳಿಸಿ.

6) ಫಲಿತಾಂಶಗಳನ್ನು ನಾನು ಹೇಗೆ ಅಂಕೆಗಣನೆ ಮಾಡಿ ಸಂಗ್ರಹಿಸಬೇಕೆ?

ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗಾಗಿ ಪ್ರತಿ ಪ್ರಾಂಪ್ಟ್ ವಿಳಂಬ ನಿಖರ ಹೋಲಿಕೆ / F1 ಅನ್ನು ಲೆಕ್ಕಿಗೊಳಿಸಿ.

ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗಾಗಿ, ರೂಬ್ರಿಕ್ ಮೌಲ್ಯಮಾಪಕನ್ನು ಬಳಸಿರಿ ಮತ್ತು ಒಟ್ಟು ಅಂಕೆಗೆ ಸಂಯೋಜಿಸಿ.

ಕಾರ್ಯ ಪ್ರಕಾರ ಮತ್ತು ಸಮಗ್ರ ತೂಕಮಾಪನದೊಂದಿಗೆ ನಾಯಕಪಟ್ಟಿಗಳು ರಚಿಸಿ.

7) ಉತ್ತಮ ವರದಿ ಯಾವಾಗ ಕಾಣುತ್ತೆ?

ಒಟ್ಟು ತೂಕಮಾಪನದಲ್ಲಿನ ವಿಜेता.

ಪ್ರತಿ ಕಾರ್ಯಕ್ಕಾಗಿ ವಿಜೇತರು (ಉದಾಹರಣೆಗೆ, "ಅತ್ಯುತ್ತಮ ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ: ಮಾದರಿ B").

ವೆಚ್ಚ ಮತ್ತು ವಿಳಂಬ ಡೆಲ್‌ಟಾ.

ದೋಷ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ತಪ್ಪುಗಳ ಉದಾಹರಣೆಗಳು.

ಶಿಫಾರಸುಗಳು: "ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ ಪೈಪ್ಲೈನ್‌ಗಳಿಗೆ ಮಾದರಿ C ಬಳಸಿ; ಸಂಕೀರ್ಣ ಕಾರಣಗಳಿಗೆ ಮಾದರಿ A ಗಾಗಿ ಬ್ಯಾಕ್‌ಫಾಲ್."

ಉದಾಹರಣೆ: ಗ್ರಾಹಕ ಸಹಾಯದ ಬಳಕೆ ಪ್ರಕರಣ

ನೀವು ಒಂದು ಸಹಾಯ ಸಹಾಯಕವನ್ನು ನಿರ್ವಹಿಸುತ್ತೀರಿ ಎಂದುಕೊಳ್ಳಿ, ಅದು ಟಿಕೆಟ್‌ಗಳನ್ನು ವಿಂಗಡಿಸಿ ಪರಿಹರಿಸುತ್ತದೆ.

ಡೇಟಾಸೆಟ್: 400 ಗುಪ್ತಾದೇಶಿತ ಟಿಕೆಟ್‌ಗಳು.

ಕಾರ್ಯಗಳು: ವರ್ಗಾವಣೆ (ರೌಟಿಂಗ್), ಏಜೆಂಟ್‌ಗಾಗಿಯೂ ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ, ಪ್ರತಿಕ್ರಿಯೆ ವಿನ್ಯಾಸ.

ಮೆಟ್ರಿಕ್ಸ್: ರೌಟಿಂಗ್‌ಗೆ F1, ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆಗೆ ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ, ತೊನೆಯಲ್ಲಿ / ಸರಿಯಾಗಿ ರೂಬ್ರಿಕ್ ಆಧಾರಿತ ಮೌಲ್ಯಮಾಪನ.

ಫಲಿತಾಂಶಗಳ ಸ್ನ್ಯಾಪ್‌ಶಾಟ್ (ದರ್ಶನ):

claude-3.5-sonnet: ತೊನೆಯಲ್ಲಿ ಮತ್ತು ಸುರಕ್ಷತೆಯಲ್ಲಿ ಅತ್ಯಧಿಕ ರೂಬ್ರಿಕ್ ಅಂಕಗಳು; ಸ್ವಲ್ಪ ನಿಧಾನವಾಗಿದೆ.

gpt-4o: ಸಂಕೀರ್ಣ ಕಾರಣ ಮತ್ತು ಅಂಚು ಪ್ರಕರಣಗಳಲ್ಲಿ ಉತ್ತಮ; ಹೆಚ್ಚು ವೆಚ್ಚ.

gemini-1.5: ವಿಶ್ವಾಸಯೋಗ್ಯ ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ ಮತ್ತು ಕಡಿಮೆ ವಿಳಂಬ; ಶಕ್ತಿಶಾಲಿ ವೆಚ್ಚ/ಪ್ರದರ್ಶನ.

llama-3-70b: ರೌಟಿಂಗ್ F1 ನಲ್ಲಿ ಸ್ಪರ್ಧಾತ್ಮಕ; ದೊಡ್ಡ ಪ್ರಮಾಣದ ವೆಚ್ಚ ನಿಯಂತ್ರಣದಲ್ಲಿ ಉತ್ತಮ.

ಶಿಫಾರಸು:

ಪ್ರತಿಕ್ರಿಯೆ ವಿನ್ಯಾಸ: claude-3.5-sonnet (ಪ್ರಾಥಮಿಕ)

ಸಂಕೀರ್ಣ ಏರಿಕೆಗಳು: gpt-4o (ಬ್ಯಾಕ್‌ಫಾಲ್)

ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ: gemini-1.5 (ಪ್ರಾಥಮಿಕ)

ರೌಟಿಂಗ್: llama-3-70b (ಪ್ರಾಥಮಿಕ) ವಿಶ್ವಾಸ ಗಡಿಸೀಮೊಳೊಂದಿಗೆ

ಇದೇ ರೀತಿ ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು ”ಕಾರ್ಯಗಳಿಗೆ ಸೂಕ್ತವಾದ ಗೂಡುಗಳು” ಸಾಕಾಗುತ್ತವೆ, ಒಂದು ಏಕ ಮಾತ್ರ ಬಿಳಿ ಗುಂಡು ಅಲ್ಲ.

ಸಾಮಾನ್ಯ ತಪ್ಪುಗಳನ್ನು ತಪ್ಪಿಸುವುದು

ರಹಸ್ಯ ಪ್ರಾಂಪ್ಟ್: ಗುಂಪು ನಿಜವಾದ ಲೇಬಲ್‌ಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ ಸೇರಿಸಬೇಡಿ.

ಪರಿಮಾಣ ಬದಲಾವಣೆ: ತಾಪಮಾನವನ್ನು ಸ್ಥಿರವಾಗಿಟ್ಟುಕೊಳ್ಳಿ; ಗರಿಷ್ಠ ಟೋಕನ್ಗಳಲ್ಲಿ ಗುಪ್ತ ಬದಲಾವಣೆಗಳನ್ನು ಮಾಡಬೇಡಿ.

ಚೆರ್ರಿ-ಪಿಕಿಂಗ್: ಸಂಪೂರ್ಣ ಡೇಟಾಸೆಟ್ ಬಳಸಿ, ಸುಲಭ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಕೈಯಿಂದ ಆಯ್ಕೆಮಾಡಬೇಡಿ.

ಏಕ-ಚಲನೆಯ ರನ್‌ಗಳು: ವ್ಯತ್ಯಾಸ ಅಂದಾಜಿಸಲು ಮರುಪಡೆಗೆ ರನ್ ಮಾಡಿರಿ.

ಮೆಟ್ರಿಕ್ ಅಸಮ್ಮತಿ: ಸೃಜನಶೀಲ ಬರಹಕ್ಕೆ BLEU ಬಳಸಿ ಬೇಡ; ರೂಬ್ರಿಕ್ + ಅರ್ಥತ್ಮಕ ಸಮಾನತೆಯನ್ನಾಗಿ ಆಯ್ಕೆಮಾಡಿ.

ಲೋಗಿಂಗ್ ಇಲ್ಲದ ಬದಲಾವಣೆಗಳು: ಪ್ರಾಂಪ್ಟ್, ಡೇಟಾಸೆಟ್, ಕೋಡ್ ಮತ್ತು ಮಾದರಿ ಆವೃತ್ತಿಗಳನ್ನು ನಿಬಂಧಿತಗೊಳಿಸಿ.

ಪاور‍್ ಯೂಸರ್‌ಗಳಿಗೆ ಪ್ರगत ತಂತ್ರಗಳು

ವರ್ಗೀಕೃತ ದೋಷದ ವಿಲಕ್ಷಣತೆ: ಫಲಿತಾಂಶಗಳನ್ನು ಕ್ಷೇತ್ರ, ಉದ್ದ ಅಥವಾ ಕಷ್ಟತೆ ಪ್ರವರ್ಗಗಳಲ್ಲಿ ವಿಭಜಿಸಿ; ಪ್ರಭಾವಣೆಯು ಹೆಚ್ಚು ಯಿರುವ ತಾಣಗಳಲ್ಲಿ ಸುಧಾರಣೆ ಗುರಿಯಾಗಿಸಿ.

ವಿರೋಧಾತ್ಮಕ ದೃಢತೆ ಪರೀಕ್ಷೆಗಳು: ಜೈಲ್ಬ್ರೇಕ್ ಪ್ರಯತ್ನಗಳು ಮತ್ತು ನೀತಿ ಬಲಗಳು ಸೇರಿಸಿ; ಸಮಯಕಾಲದಲ್ಲಿ ಸುರಕ್ಷತಾ ಹಿಂಪಡೆಯನ್ನು ಲೆಕ್ಕಿಸು.

ವೆಚ್ಚ ಅರಿವು ಹೊಂದಿದ ಟ್ಯೂನಿಂಗ್: ಗುಣಮಟ್ಟ ಹಾನಿ ಮಾಡದೆ ಟೋಕನ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಸುಧಾರಿಸಿ; ಅಭ್ಯರ್ಥಿಗಳಲ್ಲಿ $/ವಿನಂತಿಯನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.

ಎನ್ಸೆಂಬಲ್ ವಿಧಾನಗಳು: ಕಾರ್ಯ ಪ್ರಕಾರ ಅತ್ಯುತ್ತಮ ಮಾದರಿಗೆ ಮಾರ್ಗದರ್ಶನ ಮಾಡಿ; ವಿಶ್ವಾಸ ಗಡಿಗಳ ಮತ್ತು ಸ್ವಯಂ-ಬ್ಯಾಕ್‌ಫಾಲ್ ಬಳಸಿ.

ಸ್ವಯಂ-ಸ್ಥಿರತೆ: ಕಾರಣ ಕಾರ್ಯಗಳಿಗೆ, ಹಲವಾರು ಮಾದರಿಗಳನ್ನು ಚಾಲನೆಮಾಡಿ ಮತ್ತು ಬಹುಮತ / ಒಪ್ಪಂದ ಉತ್ತರ ಆಯ್ಕೆ ಮಾಡಿಕೊಳ್ಳಿ.

ಕ್ಯಾಲಿಬ್ರೇಶನ್ ವಕ್ರರೇಖೆಗಳು: ವಿಶ್ವಾಸದೊಂದಿಗೆ ವರ್ಗೀಕರಣಕ್ಕೆ ಭವಿಷ್ಯತ್ತ ಅಂದಾಜು ಬಗ್ಗೆಯೂ ನಿಖರತೆ ಎತ್ತಿಹಿಡಿಯಿರಿ.

ಮಾನವ-ಸಂಪರ್ಕದ ಪರಿಶೀಲನೆಗಳು: ಉತ್ಪಾದನೆಗಳ 5–10% ಕೈಯಿಂದ ಪರಿಶೀಲನೆಗೊಳಿಸಿ; ಭಿನ್ನಾಭಿಪ್ರಾಯದಿಂದ ರೂಬ್ರಿಕ್ ಉತ್ತಮಗೊಳಿಸಿ.

ವ್ಯಾಪಾರಿನ ಸ್ಫಟಿಕತೆ ಮತ್ತು ಫಲಿತಾಂಶಗಳ ವಿವರಣೆ

ಗುಣಮಟ್ಟದಲ್ಲಿ ಗೆದ್ದರೂ ವೆಚ್ಚವನ್ನು ದ್ವಿಗುಣಗೊಳಿಸುವ ಮಾದರಿ, ಪರಿಹಾರಗಳು ಅಥವಾ ಮತ್ತೆಪಾವತಿಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತಿದ್ದರೆ ನಿಕರ ಲಾಭದಲ್ಲಿ ಇರಬಹುದು. ಬಗೆ ಬಗೆಯಾಗಿ, ಕಡಿಮೆ ಗುಣಮಟ್ಟದ ಆದರೆ ವೇಗದ ಮಾದರಿ SLA ಗಳು ತಲುಪಿಸಿ NPS ಹೆಚ್ಚಿಸುವ ಸಾಧ್ಯತೆ ಇದೆ. ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಫಲಿತಾಂಶಗಳೊಂದಿಗೆ ಜೋಡಿಸಿ:

ನಿಮ್ಮ KPI ತಿರಸ್ಕರಣೆಯ ದರವೇ ಆವಿದ್ದರೆ, ಸರಿಯಾದತೆ ಮತ್ತು ಪೂರ್ಣತೆಗಿಂತ ಹೆಚ್ಚಾಗಿ ಎಡವಿಡಿ.

SLA ಮುಖ್ಯವಾದರೆ, p95 ವಿಳಂಬಕ್ಕೆ ಹೆಚ್ಚಿನ ಮಹತ್ವ ನೀಡಿ.

ಬಜೆಟ್ ಸಣ್ಣವಾಗಿದ್ದರೆ, ಪ್ರತಿ 1K ವಿನಂತಿಗಳ ಒಟ್ಟು ವೆಚ್ಚವನ್ನು ನಿಯಂತ್ರಿಸಿ.

ನಿಮ್ಮ KPIಗಳಿಗೆ ಮೆಟ್ರಿಕ್ ತೂಕಗಳನ್ನು ನಕ್ಷೆ ಮಾಡಿ ಮತ್ತು SEAL Showdown ಅನ್ನು ಆ ತೂಕಗಳಲ್ಲಿ ಮರುನಡೆಸಿ.

ಪ್ರಾಯೋಗಿಕ અમಲು ಸಲಹೆಗಳು

ಡೇಟಾ ಗೌಪ್ಯತೆ: ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲಿ ಪಿಐಐ ಮತ್ತು ಸಂವೇದನಾಶೀಲ ಕ್ಷೇತ್ರಗಳನ್ನು ರೆಡ್ಯಾಕ್ಟ್ ಮಾಡಿ.

ಕ್ಯಾಶಿಂಗ್: ಪ್ರಯೋಗದ ಹಿನ್ನೆಲೆಯಲ್ಲಿ ಮಾದರಿ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಕ್ಯಾಶ್ ಮಾಡಿ, ಮರು ಮೆಚ್ಚುಗೆಯನ್ನು ತಪ್ಪಿಸಲು.

ಮರುಪ್ರಯತ್ನಗಳು: ದರ ಮಿತಿ ಮತ್ತು ತಾತ್ಕಾಲಿಕ ದೋಷಗಳಿಗೆ ಸಾಮಾನ್ಯ ಪ್ರವರ್ಧಿತ ಹಿಂಪಡೆಯನ್ನು ಜಾರಿಗೆ.

ಸ್ಕೀಮಾ ಗಾರ್ಡರೈಲ್ಸ್: ರಚನೆಗೊಳಿಸಲಾದ ಔಟ್‌ಪುಟ್ಗಳಿಗೆ JSON ಸ್ಕೀಮಾ ಮಾನ್ಯತೆ ಬಳಸಿ.

ಪ್ರಾಂಪ್ಟ್ ಟೆಲಿಮೆಟ್ರಿ: ಪ್ರತಿಯೊಂದು ವಿನಂತಿಗೆ ಟೋಕನ್ ಎಣಿಕೆ, ವಿಳಂಬ ಮತ್ತು ದೋಷ ಕಡತಗಳನ್ನು ದಾಖಲಿಸಿ.

ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ: ಟೈಂಸ್ಟ್ಯಾಂಪ್ + ಗಿಟ್ ಕಮಿಟ್ ಹ್ಯಾಶ್ ಜೊತೆಗೆ ರನ್‌ಗಳಿಗೆ ಹೆಸರು ನೀಡಿ, ಪರಿಶೀಲನೆ ಕಾರ್ಯಕ್ಕಾಗಿ.

ಗಮನಾರ್ಹ: ನಿಮ್ಮ ದೈನಂದಿನ ಕಾರ್ಯಪದರೆಯಲ್ಲಿ ಮೌಲ್ಯಮಾಪನ

ನಿಮ್ಮ ತಂಡ ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲಿ ನೇರವಾಗಿ ಬ್ರೌಸರ್‌ನಲ್ಲಿ ತಿದ್ದುಪಡಿ ಮಾಡುತ್ತಿದ್ದರೆ, Sider.AI ವೇಗದ ಪ್ರಾಂಪ್ಟ್ ಪ್ರಯೋಗಗಳು ಮತ್ತು ಪಕ್ಕಪಕ್ಕ ಹೋಲಿಕೆಗಳಿಗೆ ಸಹಾಯಕವಾಗಬಹುದು. SEAL Showdown ಬ್ಯಾಚ್ ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್ ಮತ್ತು ವರದಿ ತಯಾರಿಕೆಯ ಮೆಟ್ರಿಕ್‌ಗಳಿಗೆ ಸೂಕ್ತವಾದರೆ, Sider ಆರಂಭಿಕ ಅನ್ವೇಷಣೆಯ ಪ್ರಕ್ರಿಯಾ ವೇಗಪಡಿಸುತ್ತದೆ—ಪ್ರಾಂಪ್ಟ್ ರಚಿಸಿ, ವೈವಿಧ್ಯತಾ ಪರೀಕ್ಷೆ ಮಾಡಿ, ಉದಾಹರಣೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ—ನಂತರ ಅಧಿಕೃತ ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್ ಅನ್ನು ಸ್ಥಿರಗೊಳಿಸುವ ಮೊದಲು.

ಪುನರಾವರ್ತಿಸಬಹುದಾದ ಮೌಲ್ಯಮಾಪನ ಟೆಂಪ್ಲೇಟ್

ನಿಮ್ಮ showdown ವ್ಯವಸ್ಥೆಗಾಗಿ ಈ ಲಘುಮಾದರಿ ಬಳಸಿ:

# SEAL Showdown ಯೋಜನೆ
- ಉದ್ದೇಶ: [ಕಾರ್ಯದ]ಕ್ಕಾಗಿ ಅತ್ಯುತ್ತಮ ಮಾದರಿ ಆಯ್ಕೆಮಾಡು
- KPI ನಕ್ಷೆ: ಗುಣಮಟ್ಟ 50%, ವಿಳಂಬ 20%, ವೆಚ್ಚ 20%, ಸುರಕ್ಷತೆ 10%
- ಡೇಟಾಸೆಟ್: [ಪೇರು] (N=[ಗಾತ್ರ])
- ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್: [ಹೆಸರು@ಆವೃತ್ತಿ]
- ಮಾದರಿಗಳು: [ಪಟ್ಟಿ]
- ಪರಿಮಾಣಗಳು: ತಾಪಮಾನ, top_p, ಗರಿಷ್ಠ ಟೋಕನ್ಗಳು
- ಮೆಟ್ರಿಕ್ಸ್: [ಪಟ್ಟಿ]
- ಮರುಪ್ರಯತ್ನಗಳು: [n]
- ಬೀಜ: [ಅಂಕಿ]
- ವರದಿ: ನಾಯಕಪಟ್ಟಿ, ವೆಚ್ಚ ಪಟ್ಟಿಗಳು, ದೋಷಗಳು, ಶಿಫಾರಸುಗಳು

ತಪಾಸಣೆ: ಫಲಿತಾಂಶಗಳು ವಿಚಿತ್ರವಾಗಿದೆಯಾದರೆ

ಎಲ್ಲಾ ಮಾದರಿಗಳು ಸರಾಭಾಗ: ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಬಹಳ ಸುಲభವಾಗಿರಬಹುದು; ಕಷ್ಟಗಳ ಸೇರಿಸಿರಿ ಅಥವಾ ಕಾರ್ಯಗಳನ್ನು ವೈವಿಧ್ಯಮಯಗೊಳಿಸಿ.

ಚಾಲನೆಯೊಳಗಿನ ಹೆಚ್ಚಿನ ವ್ಯತ್ಯಾಸ: ತಾಪಮಾನ ಕಡಿಮೆ ಮಾಡಿ, ಮರುಪ್ರಯತ್ನ ಸಂಖ್ಯೆ ಹೆಚ್ಚಿಸಿ, ಅಥವಾ ಸ್ವಯಂ-ಸ್ಥಿರತೆ ಬಳಸಿ.

LLM ನ್ಯಾಯಾಧೀಶ ಮಾನವರಿಗೆ ವಿಭಿನ್ನ ಅಭಿಪ್ರಾಯ: ರೂಬ್ರಿಕ್ ಭಾಷೆಯನ್ನು ಕಟ್ಟುನಿಟ್ಟಾಗಿರಿಸಿ; ಹೆಚ್ಚು ಸಮೋಹಿತ ಉದಾಹರಣೆಗಳನ್ನು ಸೇರಿಸಿ.

ವಿಳಂಬ spike ಗಳು: ವಿನಂತಿಗಳನ್ನು ಕ್ರಮಬದ್ಧವಾಗಿ ಮಾಡಿ, ಮರುಪ್ರಯತ್ನಗಳನ್ನು ಸೇರಿಸಿ, ಮತ್ತು ಪೂರೈಕೆದಾರ ಸ್ಥಿತಿಯನ್ನು ಪರಿಶೀಲಿಸಿ.

ಅನಿರೀಕ್ಷಿತವಾಗಿ ಹೆಚ್ಚಿನ ವೆಚ್ಚ: ಬಹು ಶಾಟ್‌ಗಳಿಂದ ಸಂಭವಿಸುವ ಟೋಕನ್ ವಿದ್ಭ್ರಮಣವನ್ನು ಪರಿಶೀಲಿಸಿ; ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸಿ.

ಪೈಲಟ್‌ನಿಂದ ಉತ್ಪಾದನೆಗೆ

100–200 ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಪೈಲಟ್ ಮಾಡಿ; ನಿಮ್ಮ ರೂಬ್ರಿಕ್ ಪರಿಶೀಲಿಸಿ.

1,000+ ಗೆ ವಿಸ್ತಾರ ಮಾಡಿ; ಮೆಟ್ರಿಕ್ ತೂಕಗಳನ್ನು ಅಂತಿಮಗೊಳಿಸಿ.

ರಾತ್ರಿಯಲ್ಲ ಅಥವಾ ವಾರದRegression ರನ್‌ಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಿ.

ಪ್ರಚಾರ ಮಿತಿಗಳನ್ನು ಸ್ಥಾಪಿಸಿ (ಉದಾ: ಹೊಸ ಮಾದರಿ ಕ್ವಾಲಿಟಿಯಲ್ಲಿ ಅಳತೆ +3% ಹೆಚ್ಚು ಮತ್ತು ವೆಚ್ಚದಲ್ಲಿ 10% ಅಥವಾ ಕಡಿಮೆ).

ಡೇಟಾಸೆಟ್, ಪ್ರಾಂಪ್ಟ್, ಮತ್ತು ಮಾದರಿ ನವೀಕರಣಗಳ ಲಾಗ್‌ವನ್ನು ಕಾಯ್ದಿರಿಸಿ.

ಪ್ರಮುಖಾಂಶಗಳು

ಪ್ರಾಂಪ್ಟ್ ಆಧರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು ನ್ಯಾಯವಾಗಿರಲು ಪ್ರಾಂಪ್ಟ್‌ಗಳು, ಪರಿಮಾಣಗಳು ಮತ್ತು ರೂಬ್ರಿಕ್ ಸ್ಥಿರವಾಗಿರಬೇಕು.

ವಸ್ತುನಿಷ್ಠ ಮತ್ತು ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಮೆಟ್ರಿಕ್ಸ್‌ಗಳನ್ನು ಮಿಶ್ರಣಿಸಿ; LLM ನ್ಯಾಯಾಧೀಶವನ್ನು ಮಾನವ ಪರಿಶೀಲನೆ ಸಹಿತ ದೃಢೀಕರಿಸಿ.

ದೋಷ ವಿಲಕ್ಷಣತೆ ಉಪಯೋಗಿಸಿ, ಮಾದರಿಗಳು ಅರ್ಥಪೂರ್ಣವಾಗಿ ಎಲ್ಲಿಂದ ವ್ಯತ್ಯಾಸ ಹೊಂದಿರುವುದನ್ನು ಹುಡುಕಿ.

ಮೆಟ್ರಿಕ್ ತೂಕಗಳನ್ನು ವಾಜಿಬಾದ ಗುರಿಗಳೊಂದಿಗೆ ಜೋಡಿಸಿ,Leaderboard ಹೆಚ್ಚಿನ ಗೌರವಕ್ಕಾಗಿ ಅಲ್ಲ.

ಪುನರಾವರ್ತಿಸಿ: ಬೆಂಚ್ಮಾರ್ಕ್ → ಪ್ರಾಂಪ್ಟ್ ತಿದ್ದುಪಡಿ → ಮರು ಬೆಂಚ್ಮಾರ್ಕ್ → ನಿರ್ಣಯ.

ಮುಂದಿನ ಹಂತಗಳು

ನಿಮ್ಮ ಪ್ರಮುಖ ಕಾರ್ಯಗಳು ಮತ್ತು ಅಂಚು ಪ್ರಕರಣಗಳನ್ನು ಒಳಗೊಂಡ ಪ್ರತಿನಿಧಿ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ ಸಂಯೋಜಿಸಿ.

ಅಂಕೆಮಾಡುವ ಮಾರ್ಗಸೂಚಿಗಳು ಮತ್ತು ಸಣ್ಣ ಅರ್ಥಪೂರ್ಣ ವಿವರಣೆ ಯೊಂದಿಗೆ ಸ್ಪಷ್ಟ ರೂಬ್ರಿಕ್ ವ್ಯಾಖ್ಯಾನಿಸಿರಿ.

3–4 ಮಾದರಿಗಳ ಮೇಲೆ ಸ್ಥಿರ ಪರಿಮಾಣಗಳೊಂದಿಗೆ SEAL Showdown ನಡೆಸಿ.

ಕಾರ್ಯ ಪ್ರಕಾರ ಫಲಿತಾಂಶಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಿ ಮತ್ತು ಮಾರ್ಗದರ್ಶನ ಯೋಜನೆ ಅಥವಾ ವಿಜೇತನನ್ನು ಆಯ್ಕೆಮಾಡಿ.

ಮಾದರಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಡ್ರೀಫ್ ಹಿಡಿಯಲು ನಿಯಮಿತ Regression ಬೆಂಚ್ಮಾರ್ಕ್ ಗಳನ್ನು ಶೆಡ್ಯೂಲ್ ಮಾಡಿ.

ಪ್ರಶ್ನೋತ್ತರಗಳು

Q1: SEAL Showdown ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್ ಸಾಧನವನ್ನು ಏનમાં ಬಳಸುತ್ತಾರೆ? SEAL Showdown ಸಾಧನವನ್ನು ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಬಳಸುತ್ತಾರೆ, ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ ಮತ್ತು ಸಮಾನ ಸೆಟ್ಟಿಂಗುಗಳೊಂದಿಗೆ ಹಲವು LLM ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು. ಇದು ನಿಮ್ಮ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳು, ವೆಚ್ಚ ಮತ್ತು ವಿಳಂಬ ಅಗತ್ಯಗಳಿಗೆ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯನ್ನು ಗುರುತಿಸುವಲ್ಲಿ ಸಹಾಯ ಮಾಡುತ್ತದೆ.

Q2: SEAL Showdown ಮೂಲಕ ನಾನು ಮಾದರಿಗಳನ್ನು ನ್ಯಾಯಪ್ರದವಾಗಿ ಹೇಗೆ ಹೋಲಿಸಬಹುದು? ಎಲ್ಲಾ ಮಾದರಿಗಳಲ್ಲೂ ಒಂದೇ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿರಿ, ತಾಪಮಾನ ಮತ್ತು ಗರಿಷ್ಠ ಟೋಕನ್ಗಳಂತಹ ಪರಿಮಾಣಗಳನ್ನು ಸ್ಥಿರವಾಗಿಟ್ಟುಕೊಳ್ಳಿ, ಮತ್ತು ಒಂದೇ ರೂಬ್ರಿಕ್ ಅನ್ವಯಿಸಿ. ಹಲವು ಪುನರಾವರ್ತನೆಗಳನ್ನು ನಡೆಸಿ, ನಂತರ F1, ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ, LLM-ನ್ಯಾಯಧೀಶ, ವೆಚ್ಚ, ಮತ್ತು ವಿಳಂಬದಂತಹ ಮೆಟ್ರಿಕ್‌ಗಳೊಂದಿಗೆ ಅಂಕೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ.

Q3: ವಿಶ್ವಾಸಪಾತ್ರ ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಎಷ್ಟು ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಅಗತ್ಯವಿದೆ? ತ್ವರಿತ ದಿಕ್ಕು ನಿರ್ಣಯத்திற்கு ಸಾಮಾನ್ಯವಾಗಿ 200–500 ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಸಾಕಾಗುತ್ತವೆ. ಹೆಚ್ಚು ವಿಶ್ವಾಸಪಾತ್ರ ನಿರ್ಧಾರ ಅಥವಾ SLA ಗಾಗಿ 1,000+ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿ ಮತ್ತು ವ್ಯತ್ಯಾಸ ಅಂದಾಜಿಸಲು ಹಲವು ಪುನರಾವರ್ತನೆಗಳನ್ನು ನಡೆಸಿರಿ.

Q4: ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಯಾವ ಮೆಟ್ರಿಕ್‌ಗಳು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ? ನಿಖರ ಹೊಂದಾಣಿಕೆ ಅಥವಾ F1 ಅನ್ನು ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗಾಗಿ ಬಳಸಿ, ಅರ್ಥಗರ್ಭಿತ ಹೋಲಿಕೆಗಾಗಿ ಶಬ್ದಗಳ ಹೋಲಿಕೆಯನ್ನು ಬಳಸಿ ಮತ್ತು ವ್ಯಕ್ತಿನಿಷ್ಠ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ ರುಬ್ರಿಕ್ ಆಧಾರಿತ LLM ಶ್ರೇಣೀಕರಣವನ್ನು ಬಳಸಿ. ನೈಜ-ಪ್ರಪಂಚದ ವಹಿವಾಟುಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸಲು ಗುಣಮಟ್ಟದೊಂದಿಗೆ ಲೇಟೆನ್ಸಿ (latency) ಮತ್ತು ವೆಚ್ಚವನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.

Q5: ಸುರಕ್ಷತೆ ಮತ್ತು ಜೈಲ್‌ಬ್ರೇಕ್ ಪರೀಕ್ಷೆಗಾಗಿ ನಾನು SEAL Showdown ಅನ್ನು ಬಳಸಬಹುದೇ? ಖಂಡಿತ ಬಳಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಪ್ರತಿಕೂಲ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮತ್ತು ಪಾಲಿಸಿ ಟ್ರ್ಯಾಪ್‌ಗಳನ್ನು ಸೇರಿಸಿ, ನಿರಾಕರಣೆ ದರಗಳು ಮತ್ತು ಉಲ್ಲಂಘನೆಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ ಮತ್ತು ತೂಕದ ಸ್ಕೋರಿಂಗ್‌ಗೆ ಸುರಕ್ಷತೆಯನ್ನು ಸೇರಿಸಿ. ನಿಯಮಿತ ರಿಗ್ರೆಷನ್ ರನ್‌ಗಳು ಕಾಲಾನಂತರದಲ್ಲಿ ಸುರಕ್ಷತಾ ಹಿಂಜರಿತಗಳನ್ನು (safety regressions) ಪತ್ತೆಹಚ್ಚಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.