પરિચય

2023 થી lmarena ai મોટા-ભાષા-મોડેલ શોડાઉન્સ જોવા માટેનું જાહેર ક્ષેત્ર બની ગયું છે, જે યુસી બર્કલે ખાતેના મૂળ LMSYS ચેટબોટ એરેના પ્રયોગમાંથી વિકસિત થયું છે. પ્રથમ વખત મુલાકાત લેનારાઓ માટે, lmarena ai એ AI પ્રગતિના જીવંત સ્ટોક ટિકર જેવું લાગે છે, અને તે આંતરડાકીય ડિઝાઇન તેની અપીલનો એક ભાગ છે. દર મહિને ત્રણ મિલિયનથી વધુ મુલાકાતીઓ અને દૈનિક મતો 100 000 થી વધુ થતા હોવાથી, lmarena ai વાસ્તવિક પ્રોમ્પ્ટ્સ, વાસ્તવિક વપરાશકર્તાઓ અને વાસ્તવિક હિસ્સા દ્વારા સંચાલિત જીવંત લીડરબોર્ડ પ્રદાન કરે છે. પ્લેટફોર્મનું વચન તાજગીપૂર્ણ રીતે લોકશાહી લાગે છે: કોઈપણ પ્રોમ્પ્ટ સબમિટ કરી શકે છે, જોડી કરેલા મોડેલ જવાબો જોઈ શકે છે અને મત આપી શકે છે જે Elo સ્કોર્સને આગળ ધપાવે છે. તેમ છતાં સમાન ખુલ્લાપણું પદ્ધતિસરના પ્રશ્નોને આમંત્રણ આપે છે. આ માર્ગદર્શિકા lmarena ai તેની રેન્કિંગ કેવી રીતે બનાવે છે, શા માટે તેનું ક્રાઉડસોર્સિંગ મહત્વનું છે અને મર્યાદાઓ - સંદર્ભ વિન્ડોઝ, મતદાન પૂર્વગ્રહ અને આંકડાકીય અવાજ - હજી પણ ક્યાં કરડે છે તે વિશે જણાવે છે.

પૃષ્ઠભૂમિ

lmarena ai નું મૂળભૂત તત્વ સરળ A/B સરખામણી છે. એક વપરાશકર્તા પ્રોમ્પ્ટ ટાઈપ કરે છે, બે અનામી મોડેલ જવાબો બાજુ બાજુ પ્રદર્શિત થાય છે અને વપરાશકર્તા પસંદગીના જવાબ પર ક્લિક કરે છે. અંદરખાને, ક્લિકને જીત-હાર પરિણામ તરીકે રેકોર્ડ કરવામાં આવે છે અને ક્લાસિકલ ચેસમાંથી વારસામાં મળેલ પરંતુ AI મોડેલો માટે ટ્યુન કરેલી Elo-શૈલીની રેટિંગ સિસ્ટમમાં ધકેલવામાં આવે છે. ટેક્સ્ટ, કોડ, વિઝન અને વધુમાં, lmarena ai જીત-દર દર્શાવે છે જે તમને દિવસો દિવસના ફેરફારોને જોવા દે છે, જે સાઇટને સ્કોરબોર્ડ અને પ્રયોગશાળા બંને બનાવે છે. તે પહોળાઈ 'શ્રેષ્ઠ GPT-4 વિકલ્પ' ની શોધ કરતા શોખીનો અને સંશોધકોને આકર્ષે છે જે બેંચમાર્ક પેપર દાવાઓની ચકાસણી કરે છે. OpenAI, Google અને Meta જેવી ટેક જાયન્ટ્સ શાંતિથી બોર્ડનું નિરીક્ષણ કરે છે, કારણ કે અચાનક ઘટાડો ઘણીવાર મુખ્ય મથકની અંદર PR અને ઉત્પાદન ચર્ચાઓને ઉત્તેજિત કરે છે.

ઓપરેશનલ રીતે, lmarena ai હળવા સ્ટેક પર ચાલે છે. જ્યારે તમે 'સબમિટ' કરો છો, ત્યારે તમારો પ્રોમ્પ્ટ અને મત સંગ્રહિત થાય છે, પછી પ્લેટફોર્મ દ્વારા પૂરા પાડવામાં આવેલ API કી દ્વારા અથવા કેટલાક કિસ્સાઓમાં મોડેલ માલિકો દ્વારા દાન કરવામાં આવેલ પસંદ કરેલા મોડેલોને પ્રોક્સી કરવામાં આવે છે. આ આર્કિટેક્ચર lmarena ai ને પાતળું રાખે છે. સાઇટનું ગોપનીયતા બેનર વપરાશકર્તાઓને યાદ અપાવે છે કે જાહેર ડેટાસેટને સુધારવા માટે વાતચીતો શેર કરવામાં આવી શકે છે, જે પ્રોજેક્ટને અંતર્ગત સંશોધન આચારને રેખાંકિત કરે છે. તે ડેટાસેટ, જેમાં હવે લાખો પંક્તિઓ છે, તે ઓપન-સોર્સ વિશ્લેષણ નોટબુકને ફીડ કરે છે અને મોડેલ મૂલ્યાંકન પર સામયિક સંશોધન પેપર્સને બળતણ આપે છે.

પદ્ધતિ

lmarena ai લોજિસ્ટિક અપડેટ ફંક્શન સાથે સંશોધિત Elo સિસ્ટમનો ઉપયોગ કરે છે:

ΔE = K × (પરિણામ − અપેક્ષિત)

જ્યાં પરિણામ જીત માટે 1, હાર માટે 0, ટાઈ માટે 0.5 છે અને અપેક્ષિત મેચ પહેલાંના રેટિંગ્સમાંથી ગણવામાં આવે છે. lmarena ai ના રેટિંગ એન્જિનમાં, K-પરિબળ ગતિશીલ છે, મોડેલો વધુ રમતો એકઠા કરે તેમ અસ્થિરતાને ઘટાડવા માટે સંકોચાય છે. છૂટાછવાયા મેચ-અપ્સ પર અનિશ્ચિતતા અંતરાલોને ધ્યાનમાં લેવા માટે વૈકલ્પિક બાયસિયન કૌશલ્ય રેટિંગ (એક Glicko-2 વેરિઅન્ટ) આંતરિક રીતે પરીક્ષણ કરવામાં આવી રહ્યું છે. મહત્વપૂર્ણ રીતે, એરેના ડોમેન્સને સ્તરીકૃત કરે છે જેથી Gemini 2.5 Flash જેવા ઇમેજ મોડેલ ટેક્સ્ટ-ચેટ સ્ટેન્ડિંગ્સને ખાઈ ન જાય. સ્પામને ઘટાડવા માટે મતોને ફિલ્ટર કરવામાં આવે છે: IP દર મર્યાદાઓ, ટ્રાફિક સ્પાઇક્સ દરમિયાન કેપ્ચા બર્સ્ટ્સ અને ભારે મતદારો માટે ન્યૂનતમ એકાઉન્ટ વય મેનીપ્યુલેશન જોખમને ઘટાડે છે.

પ્લેટફોર્મ દર મહિને કાચા મત લોગ પ્રકાશિત કરે છે, જે સ્વતંત્ર આંકડાશાસ્ત્રીઓને સ્ટેન્ડિંગ્સને પુનઃઉત્પાદિત કરવાની મંજૂરી આપે છે. સંશોધકોએ માન્ય કર્યું છે કે lmarena ai Elo સ્કોર્સ પ્રમાણિત બેંચમાર્ક્સ જેમ કે MMLU અને GSM-Hard સાથે મજબૂત રીતે સંબંધિત છે (ρ≈0.83), પરંતુ સર્જનાત્મક કાર્યો પર ભારે ભિન્નતા સાથે. તે ભિન્નતા આંશિક રીતે ઇરાદાપૂર્વકની છે: સર્જનાત્મક પ્રોમ્પ્ટ્સ વ્યક્તિલક્ષી હોય છે અને lmarena ai અંતિમ-વપરાશકર્તા સંતોષ માટે પ્રોક્સી તરીકે તે વ્યક્તિલક્ષીતાને સ્વીકારે છે.

વિશ્લેષણ અને ચર્ચા

શક્તિઓ. લોકશાહી નમૂના: કારણ કે પ્રોમ્પ્ટ્સ વપરાશકર્તા દ્વારા જનરેટ કરવામાં આવે છે, lmarena ai વાસ્તવિક પ્રશ્નોનું જંગલી વિતરણ કેપ્ચર કરે છે, જેમાં નજીવી અંકગણિતથી લઈને વિસ્તૃત ભૂમિકા ભજવણી સુધીનો સમાવેશ થાય છે, જે કેન્ડ ટેસ્ટ સ્યુટ્સ ભાગ્યે જ કરે છે. ઝડપી પુનરાવર્તન: નવા મોડેલો પ્રકાશનના કલાકોમાં જ બોર્ડ પર દેખાય છે, જે સમુદાયને જીવંત રેટિંગ ચડતા જોવા દે છે, જેમ કે ઓગસ્ટ 2025 માં નેનો બનાના (Gemini 2.5 Flash) ઇમેજ લીડરબોર્ડની ટોચ પર પહોંચી ગયું. આ વિવિધતા ઘણીવાર સ્થિર બેંચમાર્ક્સનો વિરોધાભાસ કરે છે. પારદર્શિતા: લોગ અને કોડને ઓપન-સોર્સ કરીને, lmarena ai તપાસને આમંત્રણ આપે છે, જે અપારદર્શક માર્કેટિંગ દાવાઓથી ભરેલા બજારમાં એક દુર્લભ વલણ છે.

મર્યાદાઓ રહે છે. વિકાસકર્તાઓ કેટલીકવાર ભૂલી જાય છે કે lmarena ai એક સ્વયંસેવક પ્લેટફોર્મ છે. પ્રથમ, સંદર્ભ-વિન્ડો મર્યાદા: મોડેલો હાલમાં ખર્ચના કારણોસર 32 k ટોકન્સમાં કાપવામાં આવેલા પ્રોમ્પ્ટ્સ મેળવે છે, જે 1 M-ટોકન વિન્ડોની જાહેરાત કરતા ફ્રન્ટિયર મોડેલોને દંડિત કરે છે. બીજું, મતદાર પૂર્વગ્રહ: પ્રેક્ષકો અંગ્રેજી બોલતા ટેક ઉત્સાહીઓ તરફ ઝુકાવ કરે છે, તેથી મેન્ડરિન અથવા કાનૂની ડ્રાફ્ટિંગ કાર્યો પર Elo ગેપ્સ ઓછો અહેવાલ આપી શકાય છે. ત્રીજું, પ્રોમ્પ્ટ અસંગતતા: કારણ કે દરેક દ્વંદ્વયુદ્ધમાં અલગ-અલગ પ્રોમ્પ્ટ્સ જોવા મળે છે, હેડ-ટુ-હેડ પુનઃઉત્પાદનક્ષમતા ઓછી છે. છેલ્લે, ટ્રાન્ઝિટિવ કૌશલ્યની Elo ધારણા તૂટી શકે છે જ્યારે મોડેલો વિશેષતા ધરાવે છે; એક વિઝન મોડેલ કોડ પર ટેક્સ્ટ મોડેલ સામે હારી શકે છે પરંતુ મલ્ટિમોડલ કાર્યો પર જીતી શકે છે, તેમ છતાં Elo હજી પણ એક-પરિમાણીય રેન્કિંગને દબાણ કરશે. આ ચેતવણીઓનો અર્થ એ છે કે lmarena ai એ કાર્ય-વિશિષ્ટ મૂલ્યાંકનોને બદલે પૂરક બનવું જોઈએ.

નિષ્કર્ષ

lmarena ai એ ન તો ચાંદીની ગોળી છે કે ન તો માત્ર લીડરબોર્ડ થિયેટર; તે જંગલીમાં જનરેટિવ AI ને માપવા માટેની જીવંત પ્રયોગશાળા છે. ક્રાઉડસોર્સ્ડ મતો, પારદર્શક ડેટા અને ઝડપી પુનરાવર્તનને મિશ્રિત કરીને, એરેના શૈક્ષણિક બેંચમાર્ક્સને પૂરક બનાવે છે અને વિક્રેતા દાવાઓનું દબાણ-પરીક્ષણ કરે છે. નીતિ નિર્માતાઓ માટે પણ, lmarena ai જાહેર ધારણા પર એક પલ્સ પ્રદાન કરે છે. તેની પદ્ધતિ અને મર્યાદાઓને સમજવાથી પ્રેક્ટિશનરોને રેન્કિંગને સૂક્ષ્મતાથી વાંચવામાં મદદ મળે છે અને સંશોધકોને યાદ અપાવે છે કે મૂલ્યાંકન એક ખુલ્લી સમસ્યા છે જ્યાં સમુદાય દ્વારા સંચાલિત સાધનો આવશ્યક, જો અપૂર્ણ હોય તો, ભૂમિકા ભજવે છે.

FAQ

Q1: lmarena ai શું છે અને તે પરંપરાગત બેંચમાર્કથી કેવી રીતે અલગ છે? જવાબ: lmarena ai જોડીવાળા વપરાશકર્તા મતદાન દ્વારા મોડેલ મૂલ્યાંકનોને ક્રાઉડસોર્સ કરે છે, જે Elo સ્કોર્સ ઉત્પન્ન કરે છે જે વાસ્તવિક-વિશ્વ પ્રોમ્પ્ટ વિવિધતાને પ્રતિબિંબિત કરે છે, જ્યારે સ્થિર બેંચમાર્ક્સ નિશ્ચિત પ્રશ્ન સેટ્સ અને ઑફલાઇન ગ્રેડિંગ પર આધાર રાખે છે.

Q2: lmarena ai પર Elo રેટિંગ્સની ગણતરી કેવી રીતે કરવામાં આવે છે? જવાબ: દરેક A/B દ્વંદ્વયુદ્ધ ગતિશીલ K-પરિબળ સાથે લોજિસ્ટિક Elo ફોર્મ્યુલાનો ઉપયોગ કરીને મોડેલોના રેટિંગને અપડેટ કરે છે અને સિસ્ટમ છૂટાછવાયા માટે બાયસિયન Glicko-2 ગોઠવણોને સમાવી શકે છે.

Q3: lmarena ai પર રેન્કિંગ આટલી વારંવાર કેમ બદલાય છે? જવાબ: નવા મોડેલો લગભગ દરરોજ એરેનામાં પ્રવેશ કરે છે, જ્યારે ચાલુ વપરાશકર્તા મતો સતત Elo સ્કોર્સને અપડેટ કરે છે; નાના K-પરિબળો સમય જતાં અસ્થિરતા ઘટાડે છે પરંતુ પ્રારંભિક તબક્કાઓ સ્વાભાવિક રીતે પ્રવાહી હોય છે.

Q4: lmarena ai પર આધાર રાખતા પહેલાં સાહસોએ કઈ મર્યાદાઓ ધ્યાનમાં લેવી જોઈએ? જવાબ: સંદર્ભ-વિન્ડો ટૂંકીકરણ, અંગ્રેજી-કેન્દ્રિત મતદાર પૂર્વગ્રહ અને પ્રોમ્પ્ટ વિવિધતા વિશિષ્ટ અથવા બહુભાષી જમાવટ માટે પ્રદર્શન સંકેતોને વિકૃત કરી શકે છે.

Q5: હું lmarena ai માં જવાબદારીપૂર્વક કેવી રીતે યોગદાન આપી શકું? જવાબ: વિવિધ, ડોમેન-સંબંધિત પ્રોમ્પ્ટ્સનો ઉપયોગ કરો, પ્રતિબંધિત સામગ્રીને ટાળો અને સતત મતદાન કરો; રચનાત્મક ભાગીદારી પ્લેટફોર્મ દ્વારા પ્રકાશિત જાહેર ડેટાસેટને સુધારે છે.

LMArena.ai માર્ગદર્શિકા: ચેટબોટ એરેના રેન્કિંગ, પદ્ધતિ અને મર્યાદાઓ

પરિચય

પૃષ્ઠભૂમિ

પદ્ધતિ

વિશ્લેષણ અને ચર્ચા

નિષ્કર્ષ

FAQ