ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಾಗಿ SEAL Showdown ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್ ಸಾಧನವನ್ನು ಹೇಗೆ ಬಳಸುವುದು
ನೀವು ಬೇರೆ ಮೂರು LLM ಗಳಲ್ಲಿ ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಪೇಸ್ಟ್ ಮಾಡಿ, ವಿಭಿನ್ನ ಉತ್ತರಗಳನ್ನು ಪಡೆದಿದ್ದರೆ, ನೀವು ಅದರ ತೊಂದರೆ ಚಿತ್ರಿಸುತ್ತೀರಿ: ನಿಮಗಿಷ್ಟವಾದ ಕಾರ್ಯಕ್ಕಾಗಿ ಯಾವ ಮಾದರಿ ನಿಜವಾಗಿಯೂ ಉತ್ತಮ? SEAL Showdown ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್ ಸಾಧನವು ಈ ಪ್ರಶ್ನೆಗೆ ನೇರವಾಗಿ ಉತ್ತರಿಸುವ ಉದ್ದೇಶ ಹೊಂದಿದೆ, ಇದು ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸುವಿಕೆಯನ್ನೂ ಅನುಸರಿಸಬಹುದಾದ, ಪುನರಾವರ್ತಿಸುವ such評価ಗಳು ನೊಂದಿಗೆ ನಡೆಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಈ ಪ್ರಾಯೋಗಿಕ ಹಾಗೂ ಪರಿಹಾರಕೇಂದ್ರಿತ ಮಾರ್ಗದರ್ಶನದಲ್ಲಿ, ನಾವು SEAL Showdown ಅನ್ನು ಮೊದಲಿನಿಂದ funditಗಗಲಗೆಲ್ಲಾ ಹೇಗೆ ಬಳಸುವುದು, ತಪ್ಪುಗಳಿಂದ ಹೇಗೆ ತಪ್ಪಿಸಿಕೊಳ್ಳುವುದು ಮತ್ತು ಯಾವ ಮೆಟ್ರಿಕ್ಸ್ ಗಳಿಗೆ ಪ್ರಮುಖತೆ ನೀಡಬೇಕು ಎಂಬುದನ್ನು ತಿಳಿಸೋಣ.
ಮುಂದೆಯ ಬಲವಾದ ಹೇಳಿಕೆ: ನಿಯಮಿತ ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್, ಸ್ಥಿರ ರೂಬ್ರಿಕ್, ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಅಂಕಗಣನೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ನೀವು ಮೌಲ್ಯಮಾಪನ ಸಮಯವನ್ನು 70% ಕಡಿಮೆ ಮಾಡಬಹುದು ಮತ್ತು ನಿಮ್ಮ ಮಾದರಿ ಆಯ್ಕೆಗಳನ್ನು ಹೆಚ್ಚು ಸಮರ್ಥವಾಗಿ ಮಾಡಬಹುದು.
SEAL Showdown ಎಂದರೆ ಏನು ನಿಜವಾಗಿ?
SEAL Showdown ಬಹು ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಪಕ್ಕ ಪಕ್ಕ ಹೋಲಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಪ್ರಾಂಪ್ಟ್ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್ ಫ್ರೇಮ್ವರ್ಕ್ ಆಗಿದೆ. ಇದರ ಕೆಳಗಿನ್ದಾಗಿ ಗಮನ ಕೇಂದ್ರಿತವಾಗಿದೆ:
- ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು: ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್, ಬಹು ಮಾದರಿಗಳು, ಮಾನದಂಡಿತ ಮೌಲ್ಯಮಾಪನ.
- ನಿರ್ವಹಿಸಲಾದ ರೂಬ್ರಿಕ್ಗಳು: ನಿಖರ-ಹೋಲಿಕೆ ಇಂದ ಮಾನವಹಲೋಲೆಗಳಂತೆ ಮೌಲ್ಯಮಾಪನದವರೆಗೆ.
- ಪುನರಾವರ್ತನೆ ಸಾಧ್ಯತೆ: ಆವೃತ್ತಿಗೊಳಿಸಿದ ಡೇಟಾ ಸೆಟ್ಗಳು, ಪ್ರಾಂಪ್ಟ್ಗಳು ಮತ್ತು ಸೆಟ್ಟಿಂಗ್ಗಳು ಫಲಿತಾಂಶಗಳನ್ನು ಮತ್ತೆ ನಡೆಸಲು ಮತ್ತು ದೃಢೀಕರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.
- ಸ್ವಯಂಕ್ರಮಣ: ಬ್ಯಾಚ್ ರನ್ಗಳು, ಅಂಕಗಣನೆ ಸ್ಕ್ರಿಪ್ಟ್ಗಳು, ನಾಯಕಪಟ್ಟಿಗಳು ಮತ್ತು ರಫ್ತು ವರದಿಗಳು.
ಸಾರಾಂಶವಾಗಿ, ಇದು ಉತ್ತರಿಸುತ್ತದೆ: "ನನಗೆ ಬೇಕಾದ ಪ್ರಾಂಪ್ಟ್ಗಳು ಮತ್ತು ರೂಬ್ರಿಕ್ನಲ್ಲಿ ಯಾವ ಮಾದರಿ ನಿರಂತರವಾಗಿ ಅತ್ಯುತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ?" ಇದು ಉತ್ಪನ್ನ ಆಯ್ಕೆ, ಮಾದರಿ ನವೀಕರಣ, ಪಿ.ಟಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಎಂಜಿನಿಯರಿಂಗ್ ಜೊತೆ ಸೂಕ್ತವಾಗಿ ಹೊಂದಿಕೆಯಾಗುತ್ತದೆ.
ಯಾರು SEAL Showdown ಅನ್ನು ಬಳಸಬೇಕು?
- ಉತ್ಪನ್ನ ತಂಡಗಳು ಮಾದರಿ ಪೂರೈಕೆದಾರರನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತಿರುವವರು (ಉದಾಹರಣೆಗೆ, OpenAI ವಿರುದ್ಧ Anthropic, Google, ಮುಕ್ತ-ಮೂಲ LLMs).
- ಡೇಟಾ ಸೈನ್ಟಿಸ್ಟ್ / ಎಂಎಲ್ ಎಂಜಿನಿಯರ್ಗಳು ಮೌಲ್ಯಮಾಪನ पाइಪ್ಲೈನ್ಗಳನ್ನು ನಿರ್ಮಿಸುವವರು.
- ಪ್ರಾಂಪ್ಟ್ ಎಂಜಿನಿಯರ್ಗಳು ಸೂಚನೆಗಳನ್ನು, ವ್ಯವಸ್ಥೆಯ ಸಂದೇಶಗಳು ಮತ್ತು ಕಡಿಮೆ-ಉದಾಹರಣೆಗಳನ್ನೂ ರೂಢಿಗೊಳಿಸುವವರು.
- QA ಮತ್ತು ಅನುಕೂಲತೆ ತಂಡಗಳು ಗುಣಮಟ್ಟ, ಸುರಕ್ಷತೆ ಮತ್ತು ನಿಯತತೆಯನ್ನು ಪರಿಶೀಲಿಸುವವರು.
ನಿಮ್ಮ ಕಾರ್ಯಪದ್ಧತಿ ನಿರೀಕ್ಷಿತ ಫಲಿತಾಂಶಗಳಿಗೆ ಅವಲಂಬಿತವಾಗಿದ್ದರೆ, SEAL Showdown ಸಾಧನ ನಿಮ್ಮನ್ನು ತಲುಪಿಸುವುದು ಅದು ಯಾವ ಮಾದರಿ ಉತ್ತಮವೆಂಬುದನ್ನು ಊಹಿಸಲು ಅಲ್ಲ, ಸಾಬೀತುಪಡಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ತ್ವರಿತ ಪ್ರಾರಂಭ: 10 ನಿಮಿಷಗಳ ರನ್
ನಿಮ್ಮ ಮೊದಲ ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳನ್ನ ನಡೆಸಲು ಸರಳೀಕರಿಸಿದ ಪ್ರಕ್ರಿಯೆ ಇಲ್ಲಿ ಇದೆ.
- ನಿಮ್ಮ ಆಸ್ತಿ ತಯಾರಿಸಿಕೊಳ್ಳಿ
- ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್: 50–200 ಪ್ರಾಂಪ್ಟ್ಗಳು, ನಿಮ್ಮ ನಿಜವಾದ ಕಾರ್ಯಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುವಂತೆ (ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ, ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ, ವರ್ಗಾವಣೆ, ಕೋಡ್ ಉತ್ಪಾದನೆ, ಇತ್ಯಾದಿ).
- ಬಂಗಾರದ ಲೇಬಲ್ಗಳು ಅಥವಾ ಉಲ್ಲೇಖಗಳು (ಅನ್ವಯವಾಗಿದ್ದರೆ): ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗೆ ನಿಜವಾದ ಅರ್ಥ.
- ರೂಬ್ರಿಕ್: ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗೆ ಅಂಕಗಣನೆದ ಮಾನದಂಡಗಳು (ಉದಾ., ಸರಿ, ಪೂರ್ಣತೆ, ಧ್ವನಿ, ಸುರಕ್ಷತೆ).
- ಇರಡುರಿಂದ ಐದು ಮಾದರಿಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಿ. ಉದಾಹರಣೆಗೆ:
gpt-4o, claude-3-sonnet, gemini-1.5-pro, ಮತ್ತು ಒಂದು ಮುಕ್ತ-ಮೂಲ ಬೆಲೆಗುರುತು (ಊದಾಹರಿಸಲು: llama-3-70b-instruct).
- ತಾಪಮಾನ, ಗರಿಷ್ಠ ಟೋಕನ್ಗಳು, top_p ಮತ್ತು ಯಾವುದೇ ಸುರಕ್ಷತಾ ಸೆಟ್ಟಿಂಗ್ಗಳನ್ನು ಸ್ಥಿರವಾಗಿ ಇರಿಸಿ.
- ಮೌಲ್ಯಮಾಪನವನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿ
- ಮೆಟ್ರಿಕ್ಸ್ ಆಯ್ಕೆ ಮಾಡಿ: ನಿಖರ ಹೋಲಿಕೆ, ROUGE/BLEU, ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ, ರೂಬ್ರಿಕ್ ಆಧಾರಿತ LLM ಮೌಲ್ಯಮಾಪನ, ವಿಳಂಬ, ಮತ್ತು ವೆಚ್ಚ.
- ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಪಾಸ್/ಫೇಲ್ ಗಡಿಗಳನ್ನು ನಿಶ್ಚಯಿಸಿ.
- ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ನಲ್ಲಿ ಮಾದರಿಗಳ ಮೇಲೆ ಬ್ಯಾಚ್ ಇನ್ಫರೆನ್ಸ್ ನಿರ್ವಹಿಸಿ.
- ಮೂಲ ಔಟ್ಪುಟ್ಗಳು, ಸಮಯ ದಾಖಲೆಗಳು, ಟೋಕನ್ ಬಳಕೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣಾ ಮಾಹಿತಿ ಉಳಿಸಿ.
- ಅಂಕೆಗಣಿಸಿ ಮತ್ತು ವಿಶ್ಲೇಷಿಸಿ
- ಮೆಟ್ರಿಕ್ಸ್ ಮತ್ತು ರೂಬ್ರಿಕ್ ಅನ್ನು ಅನ್ವಯಿಸಿ.
- ನಾಯಕಪಟ್ಟಿ ಮತ್ತು ದೋಷವಿಶ್ಲೇಷಣೆಯನ್ನು ಸೃಷ್ಟಿಸಿ (ಪ್ರಾಂಪ್ಟ್ ಪ್ರಕಾರ, ಕಷ್ಟತೆ, ಕ್ಷೇತ್ರದಿಂದ).
- ಮಾಡಿಕೊಳ್ಳಿ ಮತ್ತು ಪುನರಾವರ್ತಿಸಿ
- ಪ್ರತಿಯೊಂದು ಕಾರ್ಯಕ್ಕಾದರೂ ಶ್ರೇಷ್ಠ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆ ಮಾಡಿ.
- ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ನಿಖರಗೊಳಿಸಿ ಮತ್ತು ದೃಢೀಕರಣಕ್ಕಾಗಿ ಮರುನಡೆಸಿ.
ಮೂಲ ಕಲ್ಪನೆ: ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು
ಒಳ್ಳೆಯ ಬೆಂಚ್ಮಾರ್ಕ್ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಕೇವಲ ಮಾದರಿಗಳಿಂದ ಹಿಡಿದಿಡುತ್ತದೆ, ನಿಮ್ಮ ಪ್ರಕ್ರಿಯೆಯಿಂದ ಅಲ್ಲ. ಇದನ್ನು ಸಾಧಿಸಲು:
- ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಬಳಸಿ ಎಲ್ಲಾ ಮಾದರಿಗಳಲ್ಲೂ.
- ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಪರಿಮಾಣಗಳನ್ನು ಸ್ಥಿರಗೊಳಿಸಿ (ತಾಪಮಾನ, top_p) ನ್ಯಾಯತೆಯಿಗಾಗಿ.
- сಿಸ್ಟಮ್ ಪ್ರಾಕೃತಿಕಾಂಶವನ್ನು ಸಾಮಾನ್ಯಗೊಳಿಸಿ ಒಂದು ಮಾದರಿಯು ಹೆಚ್ಚುವರಿ ಸೂಚನೆಯಿಂದ ಮೇಲುಗೈ ಪಡೆಯದಂತೆ.
- ಬ್ಯಾಚ್ ಗಾತ್ರ ಮತ್ತು ದರ ನಿಯಮ ಸಮಾನವಾಗಿರಬೇಕು, ತಡೆಬಾಧಕ ಪರಿಣಾಮಗಳನ್ನು ತಪ್ಪಿಸಲು.
- ಬೀಜ ನಿಯಂತ್ರಣ (ಮೂಲรองಿಸಿದರೆ) ನಿರ್ಣಾಯಕ ರನ್ಗಳಿಗೆ.
ಇದರಿಂದ SEAL Showdown ಫಲಿತಾಂಶಗಳು ನಿಜವಾಗಿಯೂ ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸುತ್ತವೆ, ನಿಮ್ಮ ಮೂಲಸೌಕರ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಅಲ್ಲ.
ಸೆಟ್ಅಪ್: ಯೋಜನೆಗಳು, ಡೇಟಾಸೆಟ್ಗಳು, ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ಗಳು
ನಿಮ್ಮ ಬೆಂಚ್ಮಾರ್ಕ್ ಅನ್ನು ಸಾಫ್ಟ್ವೇರ್ ಯೋಜನೆಯಂತೆ ರಚಿಸಿ:
- ಯೋಜನೆ:
showdown-customer-support-v1
- ಡೇಟಾಸೆಟ್:
tickets_jan_to_mar_2025.jsonl
- ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್:
support_resolution_v2 (ಸಿಸ್ಟಮ್ + ಬಳಕೆದಾರ ಟೆಂಪ್ಲೇಟ್ಗಳು)
- ಮಾದರಿಗಳು:
gpt-4o, claude-3.5-sonnet, gemini-1.5, llama-3-70b
- ಮೆಟ್ರಿಕ್ಸ್:
semantic_similarity, rubric_score, latency_ms, cost_usd
- ಔಟ್ಪುಟ್:
runs/2025-09-25/
ಎರಡನೆಯ ಉದಾಹರಣೆಯ ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್:
system: |
ನೀವು ಸಹಾಯಕ, ಸಂಕ್ಷಿಪ್ತ ಸಹಾಯಕ. ಅನುಮಾನವಿದ್ದರೆ, ಸಂಕ್ಷಿಪ್ತ ಸ್ಪಷ್ಟೀಕರಣದ ಪ್ರಶ್ನೆ ಕೇಳಿ.
user_template: |
ಕಾರ್ಯ: ಗ್ರಾಹಕ ಟಿಕೆಟ್ ಪರಿಹರಿಸಿ.
ನಿಯಮಗಳು: ವಾಸ್ತವಿಕ, ಗೌರವಪೂರ್ವಕ ಮತ್ತು ಮುಂದಿನ ಹೆಜ್ಜೆಗಳನ್ನ ಒದಗಿಸಿ.
ಟಿಕೆಟ್:
"""
{{ticket_text}}
"""
few_shots:
- input: "ನನ್ನ ಆರ್ಡರ್ ಹಾನಿಗೊಂಡು ಬಂದಿದೆ, ಈಗ ಏನು ಮಾಡಬೇಕು?"
output: "ಕ್ಷಮಿಸಿ ಇದು ಸಂಭವಿಸಿದುದಕ್ಕೆ. ನಾನು ಬದಲಾವಣೆ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಪ್ರಾರಂಭಿಸಿದ್ದೇನೆ..."
ನಿಮ್ಮ ಹಾರ್ನಸ್ ಅನ್ನು ಎಲ್ಲಾ ರನ್ಗಳಲ್ಲಿಯೂ ಸ್ಥಿರವಾಗಿಟ್ಟುಕೊಳ್ಳಿ. ಆವೃತ್ತಿ ನವೀಕರಣಗಳನ್ನು ಗಮನವಿಟ್ಟು ಮಾಡಿರಿ: support_resolution_v2 → v3 ಮಾತ್ರ ನೀವು ವರ್ತನೆ ಬದಲಾಯಿಸಲು ನೀವು ಬಯಸುವಾಗ.
ನಂಬಬಹುದಾದ ರೂಬ್ರಿಕ್ ರಚನೆ
ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗೆ (ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ, ವರ್ಗಾವಣೆ), ನಿಖರ ಹೋಲಿಕೆ ಅಥವಾ F1 ಉತ್ತಮವಾಗಿದೆ. ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗೆ (ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ, ಸಂಪಾದಕೀಯ, ಸಪೋರ್ಟ್ ಟೋನ್), ಸ್ಪಷ್ಟ ಮತ್ತು ಪರೀಕ್ಷಿಸಬಹುದಾದ ಮಾನದಂಡಗಳೊಂದಿಗೆ ರೂಬ್ರಿಕ್ ರಚಿಸಿ:
- ಸರಿಯಾದತೆ (0–4): ವಾಸ್ತುತತ್ವ ಮತ್ತು ಸಂಬಂಧಿತ ಮಾಹಿತಿಗಳು.
- ಪೂರ್ಣತೆ (0–3): ಎಲ್ಲಾ ಅಗತ್ಯ ಅಂಶಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
- स्पಷ್ಟತೆ (0–2): ಸುಲಭವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತೆ.
- ಧ್ವನಿ/ಸುರಕ್ಷತೆ (0–1): ವೃತ್ತಿಪರ ಮತ್ತು ಸುರಕ್ಷಿತ.
LLM ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಉದಾಹರಣಾ ರೂಬ್ರಿಕ್ ಪ್ರಾಂಪ್ಟ್:
ನೀವು ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ಗೆ ಎರಡು ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತಿದ್ದೀರಿ.
JSON ರೂಪದಲ್ಲಿ correctness, completeness, clarity, tone_safety, ಮತ್ತು overall (0–10) ಕ್ಷೇತ್ರಗಳನ್ನು ನೀಡಿರಿ.
ಹಲ್ಲು ಅನೇಕತೆ ಮತ್ತು ಅಪೂರ್ಣ ಕ್ರಮಗಳ ಬಗ್ಗೆ ಕಟ್ಟುನಿಟ್ಟಾಗಿ ಇರಲಿ.
ಅಂಕೆಯ ಹಿನ್ನೆಲையில் ಸಣ್ಣ ವಿವರಣೆ ನೀಡಿರಿ.
ಸಲಹೆ: 20–30 ಕೈಯಿಂದ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾದ ಉದಾಹರಣೆಗಳಿಂದ ರೂಬ್ರಿಕ್ ಅನ್ನು ಅಳವಡಿಸಿ, ನಂತರ LLM ಮೌಲ್ಯಮಾಪನವನ್ನು ತಪಾಸಿಸಿ ಸರಿಹೊಂದಿಸಿ.
ಪ್ರಾಮುಖ್ಯತೆ ಹೊಂದಿರುವ ಮೆಟ್ರಿಕ್ಸ್ (ಮತ್ತು ಯಾವಾಗ)
- ನಿಖರ ಹೋಲಿಕೆ / F1:ಒಂದು ಸರಿಯಾದ ಉತ್ತರ ಇರುವ ಪದಾರ್ಥ ಸಾರ್ವಕಾಲಿಕ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತಮ.
- ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ (ಎಂಬೆಡಿಂಗ್ ಕೋಸೈನ್):ಪುನಃವಾಕ್ಯವನ್ನು ಹಿಡಿದುಕೊಳ್ಳುತ್ತದೆ; ಸಂಕ್ಷಿಪ್ತ ಮತ್ತು ಪ್ರಶ್ನೋತ್ತರಗಳಿಗೆ ಉಪಯುಕ್ತ.
- LLM-ನ್ಯಾಯಾಧೀಶ: ವ್ಯಾಖ್ಯಾನಾತ್ಮಿಕ ಗುಣಮಟ್ಟಕ್ಕೆ ಶಕ್ತಿಶಾಲಿ; ಆದರೆ ಮಾನವ ಪರಿಶೀಲನೆ ಸಹಿತ ದೃಢೀಕರಿಸಿ.
- ವಿಳಂಬ: ಸರಾಸರಿ ಮತ್ತು p95 ಸಮಯಗಳು ಟೈಔಟ್ಗಳು ಮತ್ತು ಬಳಕೆದಾರ ಅನುಭವ ಸಮಸ್ಯೆಗಳನ್ನು ಹಿಡಿಯುತ್ತದೆ.
- ಪ್ರತಿ 1K ವಿನಂತಿಗಳ ವೆಚ್ಚ: ಬಜೆಟ್ ಮತ್ತು ಪ್ರಮಾಣ ಯೋಜನೆಗೆ ಬಹುಮುಖ್ಯ.
- ಸ್ಥಿರತೆ / ವ್ಯತ್ಯಾಸ: ಹಲವಾರು ಚಲಾವಣೆಗಳಿಂದ ಸ್ತರತೆಯ ಮತ್ತು ಯಾದೃಚ್ಛಿಕತೆಯ ಪ್ರಭಾವ ಕಂಡುಹಿಡಿಯಿರಿ.
- ಸುರಕ್ಷತಾ ಸೂಚನೆಗಳು: ಜೈಲ್ಬ್ರೇಕ್, ನಿರಾಕರಣೆ ದರಗಳು ಮತ್ತು ನೀತಿಯ ಉಲ್ಲಂಘನೆಗಳು.
ವೇಪಾರಿಕ ಗುರಿಗಳೊಂದಿಗೆ ಹೊಂದಾಣಿಕೆಯಾಗಿ ಮಿಶ್ರಿತ ಅಂಕೆಗಟ್ಟುವಿಕೆಗಳನ್ನು ನಿರ್ಮಿಸಿ. ಉದಾಹರಣೆ: 50% ಗುಣಮಟ್ಟ (ರೂಬ್ರಿಕ್), 20% ವಿಳಂಬ, 20% ವೆಚ್ಚ, 10% ಸುರಕ್ಷತೆ.
ನಿಮ್ಮ ಮೊದಲ Showdown ನಡೆಸುವುದು: ಹೆಜ್ಜೆ-ತಪ್ಪು ಟ್ಯುಟೋರಿಯಲ್
ನಾವು ಪ್ರಶ್ನಾ-ನಾಯಕಿತ ಸ್ವರೂಪದಲ್ಲಿ ಸಂರಚಿತ ನೆರೆದ ಪ್ರವಾಸವನ್ನು ನೀಡುತ್ತೇವೆ.
1) ಪ್ರತಿನಿಧಿಸಬಹುದಾದ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ ಅನ್ನು ನಾನು ಹೇಗೆ ಸಂಗ್ರಹಿಸಬೇಕು?
- ಉತ್ಪಾದನಾ ಲಾಗ್ಗಳ ನಿಜವಾದ ಮಾದರಿಗಳನ್ನು privacy ನಿಯಂತ್ರಣೆಗಳೊಂದಿಗೆ ತೆಗೆದುಕೊಂಡಿರಿ; ಸುಲಭ, ಮಧ್ಯಮ ಮತ್ತು ಕಷ್ಟಕರ ಪ್ರಾಂಪ್ಟ್ ಗಳು ಒಳಗೊಂಡಿರಲಿ.
- ಸುರಕ್ಷತೆಯ ಬಗ್ಗೆ ಚಿಂತಿಸುವಾಗ ಅತಿರೋಧ್ಯ ಮತ್ತು ವಿರುದ್ಧ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಸೇರಿಸಿ.
- ಪ್ರತಿ ಪ್ರಾಂಪ್ಟ್ವನ್ನ ಪ್ರಕಾರದಿಂದ ಲೆಬಲ್ ಮಾಡಿ:
ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸಿ, ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ, ವರ್ಗೀಕರಣ, ಕಾರಣ, ಕೋಡ್, SQL, ನೀತಿ, ಸುರಕ್ಷತೆ.
2) ಎಷ್ಟು ಪ್ರಾಂಪ್ಟ್ಗಳು ಬೇಕಾಗಿವೆ?
- ತ್ವರಿತ smoke ಪರೀಕ್ಷೆಗಳಿಗಾಗಿ 50 ಪ್ರಾಂಪ್ಟ್ಗಳು.
- ದಿಕ್ಕು ನಿರ್ಣಯಗಳಿಗೆ 200–500 ಪ್ರಾಂಪ್ಟ್ಗಳು.
- ಹೆಚ್ಚು ವಿಶ್ವಾಸಪಾತ್ರ ನಿರ್ಧಾರ ಅಥವಾ SLA ಗಳಿಗೆ 1,000+ ಪ್ರಾಂಪ್ಟ್ಗಳು ಮತ್ತು ಹಲವು ಪುನರಾವರ್ತನೆಗಳು.
3) ಯಾವ ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸುವುದು?
- "ಪ್ರೀಮಿಯಂ" ಮುಚ್ಚಿದ ಮಾದರಿ, ಸತತವಾದ ಮಾದರಿ ಮತ್ತು ಮುಕ್ತ ಮೂಲ ಸ್ಪರ್ಧಿ ಇದರಲ್ಲಿ ಕನಿಷ್ಠ ಒಂದು ಆಯ್ಕೆಮಾಡಿ.
- ನಿಮ್ಮ ಕಾರ್ಯಭಾರ ಬಹುಭಾಷಾ ಇದ್ದರೆ, ಅನಿಲಿಂಗ್ವಲ್ ಉತ್ತಮತೆ ಹೊಂದಿರುವ ಮಾದರಿಯನ್ನು ಸೇರಿಸಿ.
4) ಯಾವ ಪರಿಮಾಣಗಳನ್ನು ಸ್ಥಿರಗೊಳಿಸಬೇಕು?
ತಾಪಮಾನ, top_p, ಗರಿಷ್ಠ ಟೋಕನ್ಗಳು, ಮತ್ತು ಸುರಕ್ಷತಾ ಸುಡ್ಕಲುಗಳು.
- ಮಾಡಲಾದ ಸಿಸ್ಟಮ್ ಸೂಚನೆಗಳನ್ನು ಎಲ್ಲಾ ಮಾದರಿಗಳಲ್ಲಿಯೂ ಸ್ಥಿರಗೊಳಿಸಿರಿ.
- ಸಾಧನಗಳು/ಕಾರ್ಯಗಳಿಗಾಗಿ, ಅಳಿಸಿಡಿ ಅಥವಾ ಕರೆ ಮಾದರಿಗಳನ್ನು ಸಮಾನಗೊಳಿಸಿ.
5) ಬ್ಯಾಚ್ ರನ್ ಅನ್ನು ನಾನು ಹೇಗೆ ನಡಿಸಲು?
{
"dataset": "tickets_jan_to_mar_2025.jsonl",
"prompt_harness": "support_resolution_v2",
"models": ["gpt-4o", "claude-3.5-sonnet", "gemini-1.5", "llama-3-70b"],
"params": {"temperature": 0.2, "top_p": 0.9, "max_tokens": 600},
"metrics": ["exact_match", "semantic_similarity", "rubric", "latency", "cost"],
"repetitions": 3,
"seed": 42
}
- ಮಾಡೆಲ್ ಪ್ರತಿ ಒಂದು ಅಥವಾ ಸಮಾಲೋಚನೆ ಮೂಲಕ ಜಾಬ್ಗಳನ್ನು ನಡೆಯಿರಿ ಜೊತೆಗೆ ಬ್ಯಾಕ್ಆಫ್ ಹ್ಯಾಂಡ್ಲಿಂಗ್.
- ಕಚ್ಚಾ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಟೈಂಸ್ಟ್ಯಾಂಪ್ಗಳ ಮತ್ತು ಮಾದರಿ ಮೆಟಾಡೇಟಾ ಜೊತೆಗೆ ಡಿಸ್ಕ್ಗೆ ಉಳಿಸಿ.
6) ಫಲಿತಾಂಶಗಳನ್ನು ನಾನು ಹೇಗೆ ಅಂಕೆಗಣನೆ ಮಾಡಿ ಸಂಗ್ರಹಿಸಬೇಕೆ?
- ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗಾಗಿ ಪ್ರತಿ ಪ್ರಾಂಪ್ಟ್ ವಿಳಂಬ ನಿಖರ ಹೋಲಿಕೆ / F1 ಅನ್ನು ಲೆಕ್ಕಿಗೊಳಿಸಿ.
- ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಕಾರ್ಯಗಳಿಗಾಗಿ, ರೂಬ್ರಿಕ್ ಮೌಲ್ಯಮಾಪಕನ್ನು ಬಳಸಿರಿ ಮತ್ತು ಒಟ್ಟು ಅಂಕೆಗೆ ಸಂಯೋಜಿಸಿ.
- ಕಾರ್ಯ ಪ್ರಕಾರ ಮತ್ತು ಸಮಗ್ರ ತೂಕಮಾಪನದೊಂದಿಗೆ ನಾಯಕಪಟ್ಟಿಗಳು ರಚಿಸಿ.
7) ಉತ್ತಮ ವರದಿ ಯಾವಾಗ ಕಾಣುತ್ತೆ?
- ಒಟ್ಟು ತೂಕಮಾಪನದಲ್ಲಿನ ವಿಜेता.
- ಪ್ರತಿ ಕಾರ್ಯಕ್ಕಾಗಿ ವಿಜೇತರು (ಉದಾಹರಣೆಗೆ, "ಅತ್ಯುತ್ತಮ ಪದಾರ್ಥ ಅನ್ವೇಷಣೆ: ಮಾದರಿ B").
- ವೆಚ್ಚ ಮತ್ತು ವಿಳಂಬ ಡೆಲ್ಟಾ.
- ದೋಷ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ತಪ್ಪುಗಳ ಉದಾಹರಣೆಗಳು.
- ಶಿಫಾರಸುಗಳು: "ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ ಪೈಪ್ಲೈನ್ಗಳಿಗೆ ಮಾದರಿ C ಬಳಸಿ; ಸಂಕೀರ್ಣ ಕಾರಣಗಳಿಗೆ ಮಾದರಿ A ಗಾಗಿ ಬ್ಯಾಕ್ಫಾಲ್."
ಉದಾಹರಣೆ: ಗ್ರಾಹಕ ಸಹಾಯದ ಬಳಕೆ ಪ್ರಕರಣ
ನೀವು ಒಂದು ಸಹಾಯ ಸಹಾಯಕವನ್ನು ನಿರ್ವಹಿಸುತ್ತೀರಿ ಎಂದುಕೊಳ್ಳಿ, ಅದು ಟಿಕೆಟ್ಗಳನ್ನು ವಿಂಗಡಿಸಿ ಪರಿಹರಿಸುತ್ತದೆ.
- ಡೇಟಾಸೆಟ್: 400 ಗುಪ್ತಾದೇಶಿತ ಟಿಕೆಟ್ಗಳು.
- ಕಾರ್ಯಗಳು: ವರ್ಗಾವಣೆ (ರೌಟಿಂಗ್), ಏಜೆಂಟ್ಗಾಗಿಯೂ ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ, ಪ್ರತಿಕ್ರಿಯೆ ವಿನ್ಯಾಸ.
- ಮೆಟ್ರಿಕ್ಸ್: ರೌಟಿಂಗ್ಗೆ F1, ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆಗೆ ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ, ತೊನೆಯಲ್ಲಿ / ಸರಿಯಾಗಿ ರೂಬ್ರಿಕ್ ಆಧಾರಿತ ಮೌಲ್ಯಮಾಪನ.
ಫಲಿತಾಂಶಗಳ ಸ್ನ್ಯಾಪ್ಶಾಟ್ (ದರ್ಶನ):
claude-3.5-sonnet: ತೊನೆಯಲ್ಲಿ ಮತ್ತು ಸುರಕ್ಷತೆಯಲ್ಲಿ ಅತ್ಯಧಿಕ ರೂಬ್ರಿಕ್ ಅಂಕಗಳು; ಸ್ವಲ್ಪ ನಿಧಾನವಾಗಿದೆ.
gpt-4o: ಸಂಕೀರ್ಣ ಕಾರಣ ಮತ್ತು ಅಂಚು ಪ್ರಕರಣಗಳಲ್ಲಿ ಉತ್ತಮ; ಹೆಚ್ಚು ವೆಚ್ಚ.
gemini-1.5: ವಿಶ್ವಾಸಯೋಗ್ಯ ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ ಮತ್ತು ಕಡಿಮೆ ವಿಳಂಬ; ಶಕ್ತಿಶಾಲಿ ವೆಚ್ಚ/ಪ್ರದರ್ಶನ.
llama-3-70b: ರೌಟಿಂಗ್ F1 ನಲ್ಲಿ ಸ್ಪರ್ಧಾತ್ಮಕ; ದೊಡ್ಡ ಪ್ರಮಾಣದ ವೆಚ್ಚ ನಿಯಂತ್ರಣದಲ್ಲಿ ಉತ್ತಮ.
ಶಿಫಾರಸು:
- ಪ್ರತಿಕ್ರಿಯೆ ವಿನ್ಯಾಸ:
claude-3.5-sonnet (ಪ್ರಾಥಮಿಕ)
- ಸಂಕೀರ್ಣ ಏರಿಕೆಗಳು:
gpt-4o (ಬ್ಯಾಕ್ಫಾಲ್)
- ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸುವಿಕೆ:
gemini-1.5 (ಪ್ರಾಥಮಿಕ)
- ರೌಟಿಂಗ್:
llama-3-70b (ಪ್ರಾಥಮಿಕ) ವಿಶ್ವಾಸ ಗಡಿಸೀಮೊಳೊಂದಿಗೆ
ಇದೇ ರೀತಿ ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು ”ಕಾರ್ಯಗಳಿಗೆ ಸೂಕ್ತವಾದ ಗೂಡುಗಳು” ಸಾಕಾಗುತ್ತವೆ, ಒಂದು ಏಕ ಮಾತ್ರ ಬಿಳಿ ಗುಂಡು ಅಲ್ಲ.
ಸಾಮಾನ್ಯ ತಪ್ಪುಗಳನ್ನು ತಪ್ಪಿಸುವುದು
- ರಹಸ್ಯ ಪ್ರಾಂಪ್ಟ್: ಗುಂಪು ನಿಜವಾದ ಲೇಬಲ್ಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್ನಲ್ಲಿ ಸೇರಿಸಬೇಡಿ.
- ಪರಿಮಾಣ ಬದಲಾವಣೆ: ತಾಪಮಾನವನ್ನು ಸ್ಥಿರವಾಗಿಟ್ಟುಕೊಳ್ಳಿ; ಗರಿಷ್ಠ ಟೋಕನ್ಗಳಲ್ಲಿ ಗುಪ್ತ ಬದಲಾವಣೆಗಳನ್ನು ಮಾಡಬೇಡಿ.
- ಚೆರ್ರಿ-ಪಿಕಿಂಗ್: ಸಂಪೂರ್ಣ ಡೇಟಾಸೆಟ್ ಬಳಸಿ, ಸುಲಭ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಕೈಯಿಂದ ಆಯ್ಕೆಮಾಡಬೇಡಿ.
- ಏಕ-ಚಲನೆಯ ರನ್ಗಳು: ವ್ಯತ್ಯಾಸ ಅಂದಾಜಿಸಲು ಮರುಪಡೆಗೆ ರನ್ ಮಾಡಿರಿ.
- ಮೆಟ್ರಿಕ್ ಅಸಮ್ಮತಿ: ಸೃಜನಶೀಲ ಬರಹಕ್ಕೆ BLEU ಬಳಸಿ ಬೇಡ; ರೂಬ್ರಿಕ್ + ಅರ್ಥತ್ಮಕ ಸಮಾನತೆಯನ್ನಾಗಿ ಆಯ್ಕೆಮಾಡಿ.
- ಲೋಗಿಂಗ್ ಇಲ್ಲದ ಬದಲಾವಣೆಗಳು: ಪ್ರಾಂಪ್ಟ್, ಡೇಟಾಸೆಟ್, ಕೋಡ್ ಮತ್ತು ಮಾದರಿ ಆವೃತ್ತಿಗಳನ್ನು ನಿಬಂಧಿತಗೊಳಿಸಿ.
ಪاور್ ಯೂಸರ್ಗಳಿಗೆ ಪ್ರगत ತಂತ್ರಗಳು
- ವರ್ಗೀಕೃತ ದೋಷದ ವಿಲಕ್ಷಣತೆ: ಫಲಿತಾಂಶಗಳನ್ನು ಕ್ಷೇತ್ರ, ಉದ್ದ ಅಥವಾ ಕಷ್ಟತೆ ಪ್ರವರ್ಗಗಳಲ್ಲಿ ವಿಭಜಿಸಿ; ಪ್ರಭಾವಣೆಯು ಹೆಚ್ಚು ಯಿರುವ ತಾಣಗಳಲ್ಲಿ ಸುಧಾರಣೆ ಗುರಿಯಾಗಿಸಿ.
- ವಿರೋಧಾತ್ಮಕ ದೃಢತೆ ಪರೀಕ್ಷೆಗಳು: ಜೈಲ್ಬ್ರೇಕ್ ಪ್ರಯತ್ನಗಳು ಮತ್ತು ನೀತಿ ಬಲಗಳು ಸೇರಿಸಿ; ಸಮಯಕಾಲದಲ್ಲಿ ಸುರಕ್ಷತಾ ಹಿಂಪಡೆಯನ್ನು ಲೆಕ್ಕಿಸು.
- ವೆಚ್ಚ ಅರಿವು ಹೊಂದಿದ ಟ್ಯೂನಿಂಗ್: ಗುಣಮಟ್ಟ ಹಾನಿ ಮಾಡದೆ ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಸುಧಾರಿಸಿ; ಅಭ್ಯರ್ಥಿಗಳಲ್ಲಿ $/ವಿನಂತಿಯನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.
- ಎನ್ಸೆಂಬಲ್ ವಿಧಾನಗಳು: ಕಾರ್ಯ ಪ್ರಕಾರ ಅತ್ಯುತ್ತಮ ಮಾದರಿಗೆ ಮಾರ್ಗದರ್ಶನ ಮಾಡಿ; ವಿಶ್ವಾಸ ಗಡಿಗಳ ಮತ್ತು ಸ್ವಯಂ-ಬ್ಯಾಕ್ಫಾಲ್ ಬಳಸಿ.
- ಸ್ವಯಂ-ಸ್ಥಿರತೆ: ಕಾರಣ ಕಾರ್ಯಗಳಿಗೆ, ಹಲವಾರು ಮಾದರಿಗಳನ್ನು ಚಾಲನೆಮಾಡಿ ಮತ್ತು ಬಹುಮತ / ಒಪ್ಪಂದ ಉತ್ತರ ಆಯ್ಕೆ ಮಾಡಿಕೊಳ್ಳಿ.
- ಕ್ಯಾಲಿಬ್ರೇಶನ್ ವಕ್ರರೇಖೆಗಳು: ವಿಶ್ವಾಸದೊಂದಿಗೆ ವರ್ಗೀಕರಣಕ್ಕೆ ಭವಿಷ್ಯತ್ತ ಅಂದಾಜು ಬಗ್ಗೆಯೂ ನಿಖರತೆ ಎತ್ತಿಹಿಡಿಯಿರಿ.
- ಮಾನವ-ಸಂಪರ್ಕದ ಪರಿಶೀಲನೆಗಳು: ಉತ್ಪಾದನೆಗಳ 5–10% ಕೈಯಿಂದ ಪರಿಶೀಲನೆಗೊಳಿಸಿ; ಭಿನ್ನಾಭಿಪ್ರಾಯದಿಂದ ರೂಬ್ರಿಕ್ ಉತ್ತಮಗೊಳಿಸಿ.
ವ್ಯಾಪಾರಿನ ಸ್ಫಟಿಕತೆ ಮತ್ತು ಫಲಿತಾಂಶಗಳ ವಿವರಣೆ
ಗುಣಮಟ್ಟದಲ್ಲಿ ಗೆದ್ದರೂ ವೆಚ್ಚವನ್ನು ದ್ವಿಗುಣಗೊಳಿಸುವ ಮಾದರಿ, ಪರಿಹಾರಗಳು ಅಥವಾ ಮತ್ತೆಪಾವತಿಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತಿದ್ದರೆ ನಿಕರ ಲಾಭದಲ್ಲಿ ಇರಬಹುದು. ಬಗೆ ಬಗೆಯಾಗಿ, ಕಡಿಮೆ ಗುಣಮಟ್ಟದ ಆದರೆ ವೇಗದ ಮಾದರಿ SLA ಗಳು ತಲುಪಿಸಿ NPS ಹೆಚ್ಚಿಸುವ ಸಾಧ್ಯತೆ ಇದೆ. ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಫಲಿತಾಂಶಗಳೊಂದಿಗೆ ಜೋಡಿಸಿ:
- ನಿಮ್ಮ KPI ತಿರಸ್ಕರಣೆಯ ದರವೇ ಆವಿದ್ದರೆ, ಸರಿಯಾದತೆ ಮತ್ತು ಪೂರ್ಣತೆಗಿಂತ ಹೆಚ್ಚಾಗಿ ಎಡವಿಡಿ.
- SLA ಮುಖ್ಯವಾದರೆ, p95 ವಿಳಂಬಕ್ಕೆ ಹೆಚ್ಚಿನ ಮಹತ್ವ ನೀಡಿ.
- ಬಜೆಟ್ ಸಣ್ಣವಾಗಿದ್ದರೆ, ಪ್ರತಿ 1K ವಿನಂತಿಗಳ ಒಟ್ಟು ವೆಚ್ಚವನ್ನು ನಿಯಂತ್ರಿಸಿ.
ನಿಮ್ಮ KPIಗಳಿಗೆ ಮೆಟ್ರಿಕ್ ತೂಕಗಳನ್ನು ನಕ್ಷೆ ಮಾಡಿ ಮತ್ತು SEAL Showdown ಅನ್ನು ಆ ತೂಕಗಳಲ್ಲಿ ಮರುನಡೆಸಿ.
ಪ್ರಾಯೋಗಿಕ અમಲು ಸಲಹೆಗಳು
- ಡೇಟಾ ಗೌಪ್ಯತೆ: ಪ್ರಾಂಪ್ಟ್ಗಳಲ್ಲಿ ಪಿಐಐ ಮತ್ತು ಸಂವೇದನಾಶೀಲ ಕ್ಷೇತ್ರಗಳನ್ನು ರೆಡ್ಯಾಕ್ಟ್ ಮಾಡಿ.
- ಕ್ಯಾಶಿಂಗ್: ಪ್ರಯೋಗದ ಹಿನ್ನೆಲೆಯಲ್ಲಿ ಮಾದರಿ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಕ್ಯಾಶ್ ಮಾಡಿ, ಮರು ಮೆಚ್ಚುಗೆಯನ್ನು ತಪ್ಪಿಸಲು.
- ಮರುಪ್ರಯತ್ನಗಳು: ದರ ಮಿತಿ ಮತ್ತು ತಾತ್ಕಾಲಿಕ ದೋಷಗಳಿಗೆ ಸಾಮಾನ್ಯ ಪ್ರವರ್ಧಿತ ಹಿಂಪಡೆಯನ್ನು ಜಾರಿಗೆ.
- ಸ್ಕೀಮಾ ಗಾರ್ಡರೈಲ್ಸ್: ರಚನೆಗೊಳಿಸಲಾದ ಔಟ್ಪುಟ್ಗಳಿಗೆ JSON ಸ್ಕೀಮಾ ಮಾನ್ಯತೆ ಬಳಸಿ.
- ಪ್ರಾಂಪ್ಟ್ ಟೆಲಿಮೆಟ್ರಿ: ಪ್ರತಿಯೊಂದು ವಿನಂತಿಗೆ ಟೋಕನ್ ಎಣಿಕೆ, ವಿಳಂಬ ಮತ್ತು ದೋಷ ಕಡತಗಳನ್ನು ದಾಖಲಿಸಿ.
- ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ: ಟೈಂಸ್ಟ್ಯಾಂಪ್ + ಗಿಟ್ ಕಮಿಟ್ ಹ್ಯಾಶ್ ಜೊತೆಗೆ ರನ್ಗಳಿಗೆ ಹೆಸರು ನೀಡಿ, ಪರಿಶೀಲನೆ ಕಾರ್ಯಕ್ಕಾಗಿ.
ಗಮನಾರ್ಹ: ನಿಮ್ಮ ದೈನಂದಿನ ಕಾರ್ಯಪದರೆಯಲ್ಲಿ ಮೌಲ್ಯಮಾಪನ
ನಿಮ್ಮ ತಂಡ ಪ್ರಾಂಪ್ಟ್ಗಳಲ್ಲಿ ನೇರವಾಗಿ ಬ್ರೌಸರ್ನಲ್ಲಿ ತಿದ್ದುಪಡಿ ಮಾಡುತ್ತಿದ್ದರೆ, Sider.AI ವೇಗದ ಪ್ರಾಂಪ್ಟ್ ಪ್ರಯೋಗಗಳು ಮತ್ತು ಪಕ್ಕಪಕ್ಕ ಹೋಲಿಕೆಗಳಿಗೆ ಸಹಾಯಕವಾಗಬಹುದು. SEAL Showdown ಬ್ಯಾಚ್ ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್ ಮತ್ತು ವರದಿ ತಯಾರಿಕೆಯ ಮೆಟ್ರಿಕ್ಗಳಿಗೆ ಸೂಕ್ತವಾದರೆ, Sider ಆರಂಭಿಕ ಅನ್ವೇಷಣೆಯ ಪ್ರಕ್ರಿಯಾ ವೇಗಪಡಿಸುತ್ತದೆ—ಪ್ರಾಂಪ್ಟ್ ರಚಿಸಿ, ವೈವಿಧ್ಯತಾ ಪರೀಕ್ಷೆ ಮಾಡಿ, ಉದಾಹರಣೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ—ನಂತರ ಅಧಿಕೃತ ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್ ಅನ್ನು ಸ್ಥಿರಗೊಳಿಸುವ ಮೊದಲು.
ಪುನರಾವರ್ತಿಸಬಹುದಾದ ಮೌಲ್ಯಮಾಪನ ಟೆಂಪ್ಲೇಟ್
ನಿಮ್ಮ showdown ವ್ಯವಸ್ಥೆಗಾಗಿ ಈ ಲಘುಮಾದರಿ ಬಳಸಿ:
# SEAL Showdown ಯೋಜನೆ
- ಉದ್ದೇಶ: [ಕಾರ್ಯದ]ಕ್ಕಾಗಿ ಅತ್ಯುತ್ತಮ ಮಾದರಿ ಆಯ್ಕೆಮಾಡು
- KPI ನಕ್ಷೆ: ಗುಣಮಟ್ಟ 50%, ವಿಳಂಬ 20%, ವೆಚ್ಚ 20%, ಸುರಕ್ಷತೆ 10%
- ಡೇಟಾಸೆಟ್: [ಪೇರು] (N=[ಗಾತ್ರ])
- ಪ್ರಾಂಪ್ಟ್ ಹಾರ್ನಸ್: [ಹೆಸರು@ಆವೃತ್ತಿ]
- ಮಾದರಿಗಳು: [ಪಟ್ಟಿ]
- ಪರಿಮಾಣಗಳು: ತಾಪಮಾನ, top_p, ಗರಿಷ್ಠ ಟೋಕನ್ಗಳು
- ಮೆಟ್ರಿಕ್ಸ್: [ಪಟ್ಟಿ]
- ಮರುಪ್ರಯತ್ನಗಳು: [n]
- ಬೀಜ: [ಅಂಕಿ]
- ವರದಿ: ನಾಯಕಪಟ್ಟಿ, ವೆಚ್ಚ ಪಟ್ಟಿಗಳು, ದೋಷಗಳು, ಶಿಫಾರಸುಗಳು
ತಪಾಸಣೆ: ಫಲಿತಾಂಶಗಳು ವಿಚಿತ್ರವಾಗಿದೆಯಾದರೆ
- ಎಲ್ಲಾ ಮಾದರಿಗಳು ಸರಾಭಾಗ: ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ಗಳು ಬಹಳ ಸುಲభವಾಗಿರಬಹುದು; ಕಷ್ಟಗಳ ಸೇರಿಸಿರಿ ಅಥವಾ ಕಾರ್ಯಗಳನ್ನು ವೈವಿಧ್ಯಮಯಗೊಳಿಸಿ.
- ಚಾಲನೆಯೊಳಗಿನ ಹೆಚ್ಚಿನ ವ್ಯತ್ಯಾಸ: ತಾಪಮಾನ ಕಡಿಮೆ ಮಾಡಿ, ಮರುಪ್ರಯತ್ನ ಸಂಖ್ಯೆ ಹೆಚ್ಚಿಸಿ, ಅಥವಾ ಸ್ವಯಂ-ಸ್ಥಿರತೆ ಬಳಸಿ.
- LLM ನ್ಯಾಯಾಧೀಶ ಮಾನವರಿಗೆ ವಿಭಿನ್ನ ಅಭಿಪ್ರಾಯ: ರೂಬ್ರಿಕ್ ಭಾಷೆಯನ್ನು ಕಟ್ಟುನಿಟ್ಟಾಗಿರಿಸಿ; ಹೆಚ್ಚು ಸಮೋಹಿತ ಉದಾಹರಣೆಗಳನ್ನು ಸೇರಿಸಿ.
- ವಿಳಂಬ spike ಗಳು: ವಿನಂತಿಗಳನ್ನು ಕ್ರಮಬದ್ಧವಾಗಿ ಮಾಡಿ, ಮರುಪ್ರಯತ್ನಗಳನ್ನು ಸೇರಿಸಿ, ಮತ್ತು ಪೂರೈಕೆದಾರ ಸ್ಥಿತಿಯನ್ನು ಪರಿಶೀಲಿಸಿ.
- ಅನಿರೀಕ್ಷಿತವಾಗಿ ಹೆಚ್ಚಿನ ವೆಚ್ಚ: ಬಹು ಶಾಟ್ಗಳಿಂದ ಸಂಭವಿಸುವ ಟೋಕನ್ ವಿದ್ಭ್ರಮಣವನ್ನು ಪರಿಶೀಲಿಸಿ; ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಸಂಕ್ಷಿಪ್ತಗೊಳಿಸಿ.
ಪೈಲಟ್ನಿಂದ ಉತ್ಪಾದನೆಗೆ
- 100–200 ಪ್ರಾಂಪ್ಟ್ಗಳ ಪೈಲಟ್ ಮಾಡಿ; ನಿಮ್ಮ ರೂಬ್ರಿಕ್ ಪರಿಶೀಲಿಸಿ.
- 1,000+ ಗೆ ವಿಸ್ತಾರ ಮಾಡಿ; ಮೆಟ್ರಿಕ್ ತೂಕಗಳನ್ನು ಅಂತಿಮಗೊಳಿಸಿ.
- ರಾತ್ರಿಯಲ್ಲ ಅಥವಾ ವಾರದRegression ರನ್ಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಿ.
- ಪ್ರಚಾರ ಮಿತಿಗಳನ್ನು ಸ್ಥಾಪಿಸಿ (ಉದಾ: ಹೊಸ ಮಾದರಿ ಕ್ವಾಲಿಟಿಯಲ್ಲಿ ಅಳತೆ +3% ಹೆಚ್ಚು ಮತ್ತು ವೆಚ್ಚದಲ್ಲಿ 10% ಅಥವಾ ಕಡಿಮೆ).
- ಡೇಟಾಸೆಟ್, ಪ್ರಾಂಪ್ಟ್, ಮತ್ತು ಮಾದರಿ ನವೀಕರಣಗಳ ಲಾಗ್ವನ್ನು ಕಾಯ್ದಿರಿಸಿ.
ಪ್ರಮುಖಾಂಶಗಳು
- ಪ್ರಾಂಪ್ಟ್ ಆಧರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳು ನ್ಯಾಯವಾಗಿರಲು ಪ್ರಾಂಪ್ಟ್ಗಳು, ಪರಿಮಾಣಗಳು ಮತ್ತು ರೂಬ್ರಿಕ್ ಸ್ಥಿರವಾಗಿರಬೇಕು.
- ವಸ್ತುನಿಷ್ಠ ಮತ್ತು ವ್ಯಾಖ್ಯಾನಾತ್ಮಕ ಮೆಟ್ರಿಕ್ಸ್ಗಳನ್ನು ಮಿಶ್ರಣಿಸಿ; LLM ನ್ಯಾಯಾಧೀಶವನ್ನು ಮಾನವ ಪರಿಶೀಲನೆ ಸಹಿತ ದೃಢೀಕರಿಸಿ.
- ದೋಷ ವಿಲಕ್ಷಣತೆ ಉಪಯೋಗಿಸಿ, ಮಾದರಿಗಳು ಅರ್ಥಪೂರ್ಣವಾಗಿ ಎಲ್ಲಿಂದ ವ್ಯತ್ಯಾಸ ಹೊಂದಿರುವುದನ್ನು ಹುಡುಕಿ.
- ಮೆಟ್ರಿಕ್ ತೂಕಗಳನ್ನು ವಾಜಿಬಾದ ಗುರಿಗಳೊಂದಿಗೆ ಜೋಡಿಸಿ,Leaderboard ಹೆಚ್ಚಿನ ಗೌರವಕ್ಕಾಗಿ ಅಲ್ಲ.
- ಪುನರಾವರ್ತಿಸಿ: ಬೆಂಚ್ಮಾರ್ಕ್ → ಪ್ರಾಂಪ್ಟ್ ತಿದ್ದುಪಡಿ → ಮರು ಬೆಂಚ್ಮಾರ್ಕ್ → ನಿರ್ಣಯ.
ಮುಂದಿನ ಹಂತಗಳು
- ನಿಮ್ಮ ಪ್ರಮುಖ ಕಾರ್ಯಗಳು ಮತ್ತು ಅಂಚು ಪ್ರಕರಣಗಳನ್ನು ಒಳಗೊಂಡ ಪ್ರತಿನಿಧಿ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ ಸಂಯೋಜಿಸಿ.
- ಅಂಕೆಮಾಡುವ ಮಾರ್ಗಸೂಚಿಗಳು ಮತ್ತು ಸಣ್ಣ ಅರ್ಥಪೂರ್ಣ ವಿವರಣೆ ಯೊಂದಿಗೆ ಸ್ಪಷ್ಟ ರೂಬ್ರಿಕ್ ವ್ಯಾಖ್ಯಾನಿಸಿರಿ.
- 3–4 ಮಾದರಿಗಳ ಮೇಲೆ ಸ್ಥಿರ ಪರಿಮಾಣಗಳೊಂದಿಗೆ SEAL Showdown ನಡೆಸಿ.
- ಕಾರ್ಯ ಪ್ರಕಾರ ಫಲಿತಾಂಶಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಿ ಮತ್ತು ಮಾರ್ಗದರ್ಶನ ಯೋಜನೆ ಅಥವಾ ವಿಜೇತನನ್ನು ಆಯ್ಕೆಮಾಡಿ.
- ಮಾದರಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ಡ್ರೀಫ್ ಹಿಡಿಯಲು ನಿಯಮಿತ Regression ಬೆಂಚ್ಮಾರ್ಕ್ ಗಳನ್ನು ಶೆಡ್ಯೂಲ್ ಮಾಡಿ.
ಪ್ರಶ್ನೋತ್ತರಗಳು
Q1: SEAL Showdown ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್ ಸಾಧನವನ್ನು ಏનમાં ಬಳಸುತ್ತಾರೆ?
SEAL Showdown ಸಾಧನವನ್ನು ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಬಳಸುತ್ತಾರೆ, ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ ಸೆಟ್ ಮತ್ತು ಸಮಾನ ಸೆಟ್ಟಿಂಗುಗಳೊಂದಿಗೆ ಹಲವು LLM ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು. ಇದು ನಿಮ್ಮ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳು, ವೆಚ್ಚ ಮತ್ತು ವಿಳಂಬ ಅಗತ್ಯಗಳಿಗೆ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯನ್ನು ಗುರುತಿಸುವಲ್ಲಿ ಸಹಾಯ ಮಾಡುತ್ತದೆ.
Q2: SEAL Showdown ಮೂಲಕ ನಾನು ಮಾದರಿಗಳನ್ನು ನ್ಯಾಯಪ್ರದವಾಗಿ ಹೇಗೆ ಹೋಲಿಸಬಹುದು?
ಎಲ್ಲಾ ಮಾದರಿಗಳಲ್ಲೂ ಒಂದೇ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಬಳಸಿರಿ, ತಾಪಮಾನ ಮತ್ತು ಗರಿಷ್ಠ ಟೋಕನ್ಗಳಂತಹ ಪರಿಮಾಣಗಳನ್ನು ಸ್ಥಿರವಾಗಿಟ್ಟುಕೊಳ್ಳಿ, ಮತ್ತು ಒಂದೇ ರೂಬ್ರಿಕ್ ಅನ್ವಯಿಸಿ. ಹಲವು ಪುನರಾವರ್ತನೆಗಳನ್ನು ನಡೆಸಿ, ನಂತರ F1, ಅರ್ಥತ್ಮಕ ಸಮಾನತೆ, LLM-ನ್ಯಾಯಧೀಶ, ವೆಚ್ಚ, ಮತ್ತು ವಿಳಂಬದಂತಹ ಮೆಟ್ರಿಕ್ಗಳೊಂದಿಗೆ ಅಂಕೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ.
Q3: ವಿಶ್ವಾಸಪಾತ್ರ ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಎಷ್ಟು ಪ್ರಾಂಪ್ಟ್ಗಳ ಅಗತ್ಯವಿದೆ?
ತ್ವರಿತ ದಿಕ್ಕು ನಿರ್ಣಯத்திற்கு ಸಾಮಾನ್ಯವಾಗಿ 200–500 ಪ್ರಾಂಪ್ಟ್ಗಳು ಸಾಕಾಗುತ್ತವೆ. ಹೆಚ್ಚು ವಿಶ್ವಾಸಪಾತ್ರ ನಿರ್ಧಾರ ಅಥವಾ SLA ಗಾಗಿ 1,000+ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಬಳಸಿ ಮತ್ತು ವ್ಯತ್ಯಾಸ ಅಂದಾಜಿಸಲು ಹಲವು ಪುನರಾವರ್ತನೆಗಳನ್ನು ನಡೆಸಿರಿ.
Q4: ಪ್ರಾಂಪ್ಟ್ ಆಧಾರಿತ ಮಾದರಿ ಹೋಲಿಕೆಗಳಿಗೆ ಯಾವ ಮೆಟ್ರಿಕ್ಗಳು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ?
ನಿಖರ ಹೊಂದಾಣಿಕೆ ಅಥವಾ F1 ಅನ್ನು ವಸ್ತುನಿಷ್ಠ ಕಾರ್ಯಗಳಿಗಾಗಿ ಬಳಸಿ, ಅರ್ಥಗರ್ಭಿತ ಹೋಲಿಕೆಗಾಗಿ ಶಬ್ದಗಳ ಹೋಲಿಕೆಯನ್ನು ಬಳಸಿ ಮತ್ತು ವ್ಯಕ್ತಿನಿಷ್ಠ ಗುಣಮಟ್ಟಕ್ಕಾಗಿ ರುಬ್ರಿಕ್ ಆಧಾರಿತ LLM ಶ್ರೇಣೀಕರಣವನ್ನು ಬಳಸಿ. ನೈಜ-ಪ್ರಪಂಚದ ವಹಿವಾಟುಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸಲು ಗುಣಮಟ್ಟದೊಂದಿಗೆ ಲೇಟೆನ್ಸಿ (latency) ಮತ್ತು ವೆಚ್ಚವನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.
Q5: ಸುರಕ್ಷತೆ ಮತ್ತು ಜೈಲ್ಬ್ರೇಕ್ ಪರೀಕ್ಷೆಗಾಗಿ ನಾನು SEAL Showdown ಅನ್ನು ಬಳಸಬಹುದೇ?
ಖಂಡಿತ ಬಳಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಪ್ರತಿಕೂಲ ಪ್ರಾಂಪ್ಟ್ಗಳು ಮತ್ತು ಪಾಲಿಸಿ ಟ್ರ್ಯಾಪ್ಗಳನ್ನು ಸೇರಿಸಿ, ನಿರಾಕರಣೆ ದರಗಳು ಮತ್ತು ಉಲ್ಲಂಘನೆಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ ಮತ್ತು ತೂಕದ ಸ್ಕೋರಿಂಗ್ಗೆ ಸುರಕ್ಷತೆಯನ್ನು ಸೇರಿಸಿ. ನಿಯಮಿತ ರಿಗ್ರೆಷನ್ ರನ್ಗಳು ಕಾಲಾನಂತರದಲ್ಲಿ ಸುರಕ್ಷತಾ ಹಿಂಜರಿತಗಳನ್ನು (safety regressions) ಪತ್ತೆಹಚ್ಚಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.