কখনও কি এমন একটি শব্দকোষকে বশে আনার চেষ্টা করেছেন যা গ্রেমলিনের মতো বহুগুণে বৃদ্ধি পায়?
আমি একবার একজন ক্লায়েন্টের “চূড়ান্ত” শব্দ তালিকা খুলে দেখি যে অনবোর্ডিং-এর ১৪টি সংস্করণ রয়েছে—অন-বোর্ডিং, অন বোর্ডিং, অনবোর্ডিং, এবং কারও অদ্ভুত কাজিন, “ইউজার ইগনিশন”। আপনি যদি কখনও রান্নাঘরের আবর্জনার ড্রয়ার পরিষ্কার করে থাকেন তবে আপনি অনুভূতিটি জানেন। একটি সামঞ্জস্যপূর্ণ পরিভাষা ভিত্তি তৈরি করা এমনই—যতক্ষণ না আপনি একটি ভাল, উন্নত Sider ইউজার প্রম্পট দিয়ে AI-চালিত পরিভাষা নিষ্কাশনের হাতে এই ঝামেলা তুলে দিচ্ছেন।
এটি অন্য কোনও “AI সবকিছু পরিবর্তন করে দেবে” এমন উপদেশ নয়। এটি হল “AI, অনুগ্রহ করে এমন শব্দগুলি নিষ্কাশন করুন যা আমার পণ্যের জন্য বিশেষভাবে গুরুত্বপূর্ণ, কোনও ভুল ধারণা তৈরি করবেন না, এবং দুপুরের খাবারের আগে একটি পরিচ্ছন্ন শব্দকোষ তৈরি করতে আমাকে সহায়তা করুন।” আসুন AI-চালিত পরিভাষা নিষ্কাশনকে কেবল স্মার্ট নয়, পুনরাবৃত্তিযোগ্য, নিরীক্ষণযোগ্য এবং কিছুটা কম গ্রেমলিন-যুক্ত করি।
আমরা এখানে কী করছি (এবং এটি কেন গুরুত্বপূর্ণ)
আপনার কাছে প্রচুর পরিমাণে বিষয়বস্তু রয়েছে: পণ্যের নথি, আইনি ডেক, UX স্ট্রিং, রিলিজ নোট এবং কেউ রাত ১টায় করা এলোমেলো নামকরণের ব্রেইনস্টর্ম। AI-চালিত পরিভাষা নিষ্কাশন পুরো খড়ের গাদা স্ক্যান করতে পারে এবং মূল বিষয়গুলি বের করতে পারে: মূল বিশেষ্য, ডোমেইন-নির্দিষ্ট ক্রিয়া, সংক্ষিপ্ত রূপ, পণ্যের নাম এবং সেই লুকানো শব্দগুচ্ছগুলি (“সিঙ্গেল সাইন-অন”, “রেট লিমিটিং”, “জিরো-শট প্রম্পটিং”) যা আপনার অনুবাদক এবং লেখকরা অবশ্যই পরে জিজ্ঞাসা করবেন।
এখানে কৌশলটি হল প্রম্পট। কোনও কাব্যিক প্রম্পট নয়। একটি কাঠামোবদ্ধ, উদ্দেশ্যমূলকভাবে বিরক্তিকর, উন্নত Sider ইউজার প্রম্পট যা প্রতিবার সামঞ্জস্যপূর্ণ, নির্ভরযোগ্য পরিভাষা নিষ্কাশন নিশ্চিত করে।
যারা অধৈর্য তাদের জন্য
- আপনার একটি কাঠামোবদ্ধ, নিরীক্ষণযোগ্য প্রম্পট দরকার যা AI-কে কী নিষ্কাশন করতে হবে এবং কী উপেক্ষা করতে হবে তা বলে।
- প্রথমে মেশিন-পঠনযোগ্য আউটপুট (JSON বা TSV) এবং পরে মানুষ-পঠনযোগ্য নোটগুলির জন্য জিজ্ঞাসা করুন।
- নিয়ম তৈরি করুন: বাক্যের অংশ, ডোমেইন ফিল্টার, ফ্রিকোয়েন্সি থ্রেশহোল্ড এবং প্রসঙ্গ উইন্ডো।
- সর্বদা ডিডুপ্লিকেট করুন, স্বাভাবিক করুন এবং শৈলী সম্পর্কিত সিদ্ধান্তগুলি (case, হাইফেনেশন) স্পষ্টভাবে নির্ধারণ করুন।
- প্রতিটি উৎস ডোমেইন অনুসারে নিষ্কাশন চালান, তারপরে সমন্বয় করুন। ফিনান্সের শব্দগুলিকে ডেভেলপার নথির সাথে মেশাবেন না।
স্টার্টার কিট: AI-চালিত পরিভাষা নিষ্কাশন কীভাবে কাজ করে
AI-চালিত পরিভাষা নিষ্কাশনকে শব্দগুলির জন্য স্পিড ডেটিংয়ের মতো মনে করুন। মডেল প্রতিটি টোকেনের সাথে মিলিত হয়, কয়েকটি প্রশ্ন জিজ্ঞাসা করে (আপনি কি একটি ডোমেইন শব্দ? লোকেরা কি আপনাকে নিয়ে চিন্তা করে? আপনি কি বিভিন্ন প্রসঙ্গে অর্থ পরিবর্তন করেন?), এবং শুধুমাত্র শব্দকোষে নিয়ে যাওয়ার মতো শব্দগুলোকেই বেছে নেয়।
ভেতরে, বৃহৎ ভাষা মডেলগুলি যেগুলিতে ভাল:
- বহুশব্দ শব্দ এবং প্রকারগুলি চিহ্নিত করা: “two-factor authentication,” “2FA,” “two step verification.”
- ডোমেইন-নির্দিষ্ট অর্থ বাছাই করা: AI-তে “agent” বনাম রিয়েল এস্টেটে “agent”।
- ফ্রিকোয়েন্সি + বিষয়ভিত্তিক প্রাসঙ্গিকতা দ্বারা গুরুত্ব নির্ধারণ করা।
যেগুলিতে তারা কম পারদর্শী:
- “লগ ইন” (ক্রিয়া) বনাম “লগইন” (বিশেষ্য) এর জন্য আপনার দলের পছন্দ জানা।
- মঙ্গলবার আপনি তৈরি করা অভ্যন্তরীণ কোড নামগুলির সাথে মোকাবিলা করা।
- প্রতিটি বড় হাতের বিশেষ্যকে একটি নাইটক্লাবের ভিআইপি-র মতো অতিরিক্ত নিষ্কাশন না করা।
তাই আমরা একটি প্রম্পট দিয়ে এটি ঠিক করি। একটি খুব নির্দিষ্ট প্রম্পট।
AI-চালিত পরিভাষা নিষ্কাশনের জন্য উন্নত Sider ইউজার প্রম্পট
এটি অনুলিপি করুন। এটি সম্পাদনা করুন। আপনার PM-এর কীবোর্ডে টেপ করুন। লক্ষ্য: সামঞ্জস্যপূর্ণ, পরিচ্ছন্ন শব্দ আউটপুট যা আপনি স্থানীয়করণ, ডক্স, UX এবং বিপণন বিভাগে একটি শব্দকোষ বিষয়ক গৃহযুদ্ধ তৈরি না করে দিতে পারেন।
H2: উন্নত প্রম্পট: পণ্য এবং ডক্সের জন্য AI-চালিত পরিভাষা নিষ্কাশন
সিস্টেম/ভূমিকা
“আপনি একজন খুঁটিনাটি পরিভাষা বিশ্লেষক। আপনি ডোমেইন-নির্দিষ্ট শব্দ এবং তাদের প্রকারগুলি সনাক্ত করেন, সংক্ষিপ্তভাবে তাদের সংজ্ঞা দেন এবং ব্যবহারের নোট সরবরাহ করেন। আপনি স্পষ্ট যুক্তি এবং শূন্য ভুল ধারণার সাথে বৈধ, মেশিন-পঠনযোগ্য ডেটা আউটপুট করেন।”
কাজ
“সরবরাহকৃত বিষয়বস্তু থেকে ডোমেইন-প্রাসঙ্গিক শব্দগুলি নিষ্কাশন করুন। পণ্যের নাম, বৈশিষ্ট্যের নাম, প্রযুক্তিগত বিশেষ্য, সংক্ষিপ্ত রূপ এবং স্থিতিশীল বহুশব্দ অভিব্যক্তিগুলিকে অগ্রাধিকার দিন। সাধারণ ভাষা, অস্পষ্ট বিপণন বাক্যাংশ এবং অ-ডোমেইন বিশেষণগুলি বাদ দিন।”
বাধ্যবাধকতা
- JSON অ্যারে যার নাম terms এবং ক্ষেত্রগুলি হল:
- term (স্ট্রিং, ক্যানোনিকাল ফর্ম, ছোট হাতের অক্ষর যদি না proper noun হয়)
- variants (স্ট্রিং-এর অ্যারে)
- pos (স্ট্রিং: noun, verb, adj)
- domain (স্ট্রিং: যেমন, নিরাপত্তা, বিলিং, বিশ্লেষণ)
- definition (<= ২৫ শব্দ, নির্দিষ্ট, কোনও marketing fluff নয়)
- usage_example (১০–২০ শব্দ, সরল বাক্য)
- context_snippets (উৎস থেকে ১–৩টি সংক্ষিপ্ত উদ্ধৃতির অ্যারে)
- notes: আপনি প্রয়োগ করা স্বাভাবিকীকরণ নিয়মগুলির সংক্ষিপ্ত বুলেট তালিকা (হাইফেনেশন, ক্যাপিটালাইজেশন, সংক্ষিপ্ত রূপের সম্প্রসারণ)
- শুধুমাত্র সেই শব্দগুলি অন্তর্ভুক্ত করুন যা কমপক্ষে দুবার প্রদর্শিত হয় অথবা গুরুত্বপূর্ণ proper noun হয়।
- বহুশব্দ শব্দগুলিকে একত্রিত করুন (যেমন, “role-based access control”)।
- হাইফেনেশন এবং casing সামঞ্জস্যপূর্ণভাবে স্বাভাবিক করুন।
- প্রকারগুলি ম্যাপ করুন: singular/plural, হাইফেনেশন, camelCase, সংক্ষিপ্ত রূপের সম্প্রসারণ।
ফিল্টার
- বাদ দিন: জেনেরিক বিশেষণ, সময়ের উল্লেখ, কোম্পানির বয়লারপ্লেট, স্লোগান, পণ্যের জন্য গুরুত্বপূর্ণ না হলে মানুষের নাম, ডোমেইন প্রসঙ্গ ছাড়া অস্পষ্ট একক শব্দ।
- নথি জুড়ে ডিডুপ্লিকেট করুন।
ফরম্যাটিং
- terms ব্লকের জন্য বৈধ JSON ফেরত দিন। JSON-এর আগে বা পরে কোনও মন্তব্য নয়।
- এর পরে একটি প্লেইন-টেক্সট ‘Notes’ বিভাগ রাখুন।
স্কোরিং
- প্রমাণ ঘনত্বের ভিত্তিতে আত্মবিশ্বাস স্কোর করুন: ফ্রিকোয়েন্সি, সংজ্ঞাগুলির সান্নিধ্য, শিরোনাম, শব্দকোষ-সদৃশ ব্যবহার।
ইনপুট
- আপনি বিভাগে বিষয়বস্তু পাবেন। প্রতিটি বিভাগের জন্য, শব্দগুলি নিষ্কাশন করুন এবং বিদ্যমান সেটে মার্জ করুন।
যাচাইকরণ
- যদি কোনও শব্দকে প্রসঙ্গ থেকে সংজ্ঞায়িত করা না যায়, তবে < ০.৫ আত্মবিশ্বাসের সাথে চিহ্নিত করুন এবং আরও উদাহরণ সরবরাহ করার জন্য Notes-এ একটি অনুরোধ যুক্ত করুন।”
উদাহরণ আউটপুট (সংক্ষিপ্ত)
terms: [
{
"term": "two-factor authentication",
"variants": ["2fa", "two-step verification"],
"pos": "noun",
"domain": "security",
"definition": "একটি লগইন প্রক্রিয়া যার জন্য পরিচয় প্রমাণের দুটি স্বতন্ত্র উপায় প্রয়োজন।",
"usage_example": "সেটিংস-এ অ্যাডমিন অ্যাকাউন্টগুলির জন্য two-factor authentication সক্ষম করুন।",
"context_snippets": ["সুরক্ষা ট্যাবে 2FA সক্ষম করুন", "two-step verification ইমেলগুলি"],
"confidence": 0.92
}
]
নোট:
- ‘role-based access control’ এর জন্য হাইফেনেশন স্বাভাবিক করা হয়েছে।
- সংক্ষিপ্ত রূপগুলির ক্যানোনিকালাইজড সম্প্রসারণ।
- বড় হাতের proper noun: “PostgreSQL,” “OAuth 2.0.”
এই নিন। এটি আপনার পুনরায় ব্যবহারযোগ্য ইঞ্জিন। এটিকে বিরক্তিকর করুন। এটিকে সামঞ্জস্যপূর্ণ করুন। এটিকে এমন কিছু করুন যার জন্য আপনার ভবিষ্যতের আপনি স্থানীয়করণের সময়সীমার দিনে রাত ১১:৫৯ মিনিটে ধন্যবাদ জানাবেন।
বাস্তব-বিশ্বের কর্মপ্রবাহ: আপনার স্যুপ মেশানো বন্ধ করুন
আপনি আপনার টমেটো স্যুপের সাথে আপনার আইসড কফি মেশাবেন না। (যদি মেশান, তবে আমাদের কথা বলা দরকার।) এখানেও একই: উৎসগুলি আলাদা রাখুন, তারপরে সমন্বয় করুন।
- প্রথম রাউন্ড: শুধুমাত্র পণ্যের নথিতে AI-চালিত পরিভাষা নিষ্কাশন চালান। JSON রপ্তানি করুন।
- দ্বিতীয় রাউন্ড: ডেভেলপার নথিতে চালান। JSON রপ্তানি করুন।
- তৃতীয় রাউন্ড: আইনি/নীতিতে চালান। JSON রপ্তানি করুন, তবে সত্যিই, সত্যিই বিপণন-এস ফিল্টার করুন।
- সমন্বয় করুন: JSON অ্যারে মার্জ করুন। ক্যানোনিকাল ফর্ম দ্বারা ডিডুপ্লিকেট করুন। ডোমেইন অনুসারে প্রকারগুলি সংরক্ষণ করুন। যদি “token” নিরাপত্তা এবং বিলিং জুড়ে বিভিন্ন জিনিস বোঝায়, তবে উভয়ই স্পষ্টভাবে পরিধিযুক্ত রাখুন।
পরামর্শ: নিষ্কাশনের সময় একটি “উৎস” ক্ষেত্র যুক্ত করুন যাতে কেউ যখন চিৎকার করে বলে “API-তে ‘ম্যাজিক সস’ কে যুক্ত করেছে?” তখন আপনি সর্বদা জানতে পারেন শব্দটি কোথা থেকে এসেছে।
স্কোরিং এবং আত্মবিশ্বাস: কারণ সবকিছু শব্দকোষের নাগরিকত্বের যোগ্য নয়
যদি কোনও শব্দ পাদটীকায় দুবার প্রদর্শিত হয় এবং শিরোনামে কখনও না থাকে তবে এটি ভিআইপি নয়। একটি তিনটি-সংকেত স্কোর ব্যবহার করুন:
- ফ্রিকোয়েন্সি: উৎস জুড়ে অপরিশোধিত গণনা।
- সান্নিধ্য: শিরোনামের কাছাকাছি শব্দ, সংজ্ঞা, পরামিতিগুলির টেবিলগুলি উচ্চতর ওজন পায়।
- সামঞ্জস্য: আপনার কর্পাসে যত কম প্রতিযোগী অর্থ, আত্মবিশ্বাস তত বেশি।
যদি কোনও শব্দের স্কোর কম হয় তবে কোনও অংশীদার এটিকে রাখার জন্য জোর দেয় (হ্যালো, “প্ল্যাটফর্ম”), তবে একটি ব্যবহারের নোট সহ এটি যুক্ত করুন: “জেনেরিক বিপণন ব্যবহার এড়িয়ে চলুন; নির্দিষ্ট বৈশিষ্ট্যের নাম পছন্দ করুন।”
স্বাভাবিকীকরণ নিয়ম: যে অংশে সবাই তর্ক করে
AI-চালিত পরিভাষা নিষ্কাশন ভারী বোঝা বহন করে, তবে স্বাভাবিকীকরণ শান্তি বজায় রাখে:
- Case: Proper noun বড় হাতের (OAuth 2.0), ব্র্যান্ডেড না হলে বৈশিষ্ট্যগুলি ছোট হাতের।
- হাইফেনেশন: একটি লেন বেছে নিন। role-based access control (RBAC), “role based” নয়।
- বিশেষ্য বনাম ক্রিয়া: login (বিশেষ্য), log in (ক্রিয়া)। হ্যাঁ, এটি গুরুত্বপূর্ণ। হ্যাঁ, আপনার অ্যাপ এগুলি মেশায়।
- সংক্ষিপ্ত রূপ: প্রথমে সম্পূর্ণ শব্দ (role-based access control) হিসাবে পরিচয় করান তারপরে সংক্ষিপ্ত রূপ (RBAC)।
- Plural: ক্যানোনিকাল সাধারণত singular হয় যদি না শব্দটি সহজাতভাবে plural হয় (credentials)।
এগুলি আপনার প্রম্পট Notes-এ বেক করুন যাতে মডেল সেগুলি আরও শক্তিশালী করে।
বহুভাষী? শব্দগুলি অনুবাদ করবেন না। তাদের পরিচালনা করুন।
স্থানীয়করণ দলগুলির জন্য, শব্দকোষ হল আইন। প্রথমে উৎস ভাষায় নিষ্কাশন করুন, তারপরে ক্ষেত্রগুলির সাথে লক্ষ্য স্থানীয়করণের জন্য শব্দ এন্ট্রি তৈরি করুন:
- source_term, locale_term, part_of_speech, gender/grammar notes, do-not-translate flag, forbidden forms.
- সাংস্কৃতিক সতর্কতা যুক্ত করুন। AI-তে “Agent” বনাম স্প্যানিশ গ্রাহক সহায়তায় “agente”—ভিন্ন ভাইব।
AI লক্ষ্য-ভাষা পরামর্শ তৈরি করতে সহায়তা করতে পারে, তবে পণ্যের নাম, সিস্টেম ভেরিয়েবল এবং কোড উপাদানগুলিতে “অনুবাদ করবেন না” রাখুন। আপনার ভবিষ্যতের QA দল আপনাকে ধন্যবাদ জানাবে।
আমি যে সবচেয়ে অগোছালো ভুলগুলি দেখি (এবং কীভাবে সেগুলি এড়ানো যায়)
- বড় হাতের শব্দগুলির অতিরিক্ত নিষ্কাশন: ফিল্টারগুলির সাথে ঠিক করুন: “Proper noun শুধুমাত্র যদি পণ্য/পরিষেবা বা মান (যেমন, OAuth, Kubernetes) হয়।”
- অস্পষ্ট সংজ্ঞা: ২৫ শব্দ বা তার কম বাধ্য করুন, একটি পরীক্ষামূলক আচরণ সহ (“প্রতি ব্যবহারকারী প্রতি মিনিটে অনুরোধ সীমিত করুন”)।
- কোনও উদাহরণ নেই: সর্বদা একটি usage_example অন্তর্ভুক্ত করুন। লোকেরা দেখে শেখে।
- ডোমেইন মেশানো: প্রতিটি শব্দের জন্য ডোমেইন ট্যাগ করুন। আপনি পরে সমন্বয় করতে পারেন, তবে এমন ভান করবেন না যে “key” সর্বত্র একই জিনিস বোঝায়।
- কোনও সংস্করণ নেই: শব্দকোষ পরিবর্তন হয়। একটি সংস্করণ স্ট্যাম্প রাখুন। পুরানো নামের জন্য একটি “deprecated” ক্ষেত্র যুক্ত করুন।
একটি নমুনা অনুচ্ছেদের সাথে একটি দ্রুত পরীক্ষা ড্রাইভ
ধরুন আপনার ডকে লেখা আছে: “অ্যাডমিন ব্যবহারকারীদের জন্য two-factor authentication সক্ষম করুন। আমাদের role-based access control (RBAC) আপনাকে কাস্টম ভূমিকা নির্ধারণ করতে দেয়। API key প্রতি ৯০ দিনে ঘোরাতে হবে।”
একটি ভাল নিষ্কাশন ফেরত দেয়:
- two-factor authentication (প্রকার: 2FA, two-step verification) — ডোমেইন: নিরাপত্তা
- role-based access control (RBAC) — ডোমেইন: নিরাপত্তা
- অ্যাডমিন ব্যবহারকারী (প্রকার: প্রশাসক) — ডোমেইন: পরিচয়
- API key — ডোমেইন: নিরাপত্তা/ডেভঅপস
- key rotation — ডোমেইন: নিরাপত্তা
একটি খারাপ নিষ্কাশন ফেরত দেয়:
- enable; users; days; custom; rotation (অনুগ্রহ করে না)
এটি কার মালিকানাধীন হওয়া উচিত? ইঙ্গিত: “প্রত্যেকের” নয়।
- ডক্স/বিষয়বস্তু: সংজ্ঞা এবং উদাহরণগুলির মালিক।
- পণ্য/UX: বৈশিষ্ট্যের নাম এবং ক্যাপিটালাইজেশন যাচাই করুন।
- Eng/DevRel: প্রযুক্তিগত নির্ভুলতা এবং প্যারামিটার নামকরণের বুদ্ধি-পরীক্ষা করুন।
- স্থানীয়করণ: স্থানীয় নিয়ম এবং নিষিদ্ধ ফর্ম যুক্ত করুন।
- আইনি/ব্র্যান্ড: ট্রেডমার্কযুক্ত নাম এবং শৈলী অনুমোদন করুন।
AI হল সেই ইন্টার্ন যে কখনও ঘুমায় না। মানুষ এখনও নিয়ম তৈরি করে।
নোট করার মতো: Sider.AI আপনার নিষ্কাশন অটো পাইলট হতে পারে
আপনি যদি CSV-এর সাথে কুস্তি করার চেয়ে কফি চুমুক দিয়ে আপনার বিকেল কাটাতে চান, তবে Sider.AI একাধিক নথিতে এই উন্নত প্রম্পট চালাতে পারে, JSON মার্জ করতে পারে এবং আপনি “কে camelCase আবিষ্কার করেছে?” বলার চেয়ে দ্রুত ফলাফলগুলি স্পট-চেক করতে দিতে পারে। আমার পরীক্ষায়, প্রকার এবং আত্মবিশ্বাসের স্কোরগুলির জন্য UI-এর পাশাপাশি দৃশ্য আপনাকে এক পৃষ্ঠায় “log-out” এবং অন্য পৃষ্ঠায় “logout” অনুমোদন করা থেকে বিরত রাখে। এটি জাদু নয়—কেবল ভাল গার্ডরেল। মনোযোগ: আপনাকে এখনও একজন বসের মতো প্রম্পট লিখতে হবে এবং আপনার স্বাভাবিকীকরণ নিয়ম সেট করতে হবে। সরঞ্জামগুলি দ্বিধা সমাধান করে না। তারা কেবল এটি স্পষ্ট করে।
কীভাবে নাটক ছাড়া এটিকে আপনার সামগ্রী পাইপলাইনে প্লাগ করবেন
- আপনার PR/মার্জ চেকলিস্টে নিষ্কাশন যুক্ত করুন। নতুন বৈশিষ্ট্য? নতুন শব্দ।
- পরিবর্তিত ডক্সে রাতের বেলা চালান। JSON-এর পার্থক্য করুন। নতুন/কম আত্মবিশ্বাসের এন্ট্রিগুলিতে পর্যালোচনা ফোকাস করুন।
- শব্দকোষ সম্পূর্ণতার উপর ভিত্তি করে অনুবাদগুলি গেট করুন। কোনও শব্দ নেই, কোনও টিকিট নেই।
- সিদ্ধান্ত লগ ট্র্যাক করুন: যখন “Spaces” “Projects” হয়ে গেল, তখন তা নোট করুন। আপনার ভবিষ্যতের আপনি মন পড়তে পারবে না।
প্রবণতা: AI-চালিত পরিভাষা নিষ্কাশনের জন্য পরবর্তীতে কী আসছে
- প্রসঙ্গ-সচেতন পরিচালনা: যে মডেলগুলি স্বয়ংক্রিয়ভাবে বিরোধী অর্থ সনাক্ত করে এবং ডোমেইন বিভাজন প্রস্তাব করে।
- লাইভ UI বাইন্ডিং: শব্দকোষ এন্ট্রি যা সরাসরি আপনার ডিজাইন সিস্টেম এবং কম্পোনেন্ট লাইব্রেরিতে সিঙ্ক হয়।
- পুনরুদ্ধার-বর্ধিত যাচাইকরণ: মডেলটি শব্দটি কোথায় দেখেছে এবং এটি কেন গুরুত্বপূর্ণ তা উল্লেখ করে।
- গুণমান স্কোরিং: ভবিষ্যদ্বাণীমূলক পতাকা যখন কোনও শব্দ দরকারী হওয়ার জন্য খুব জেনেরিক হয়।
হ্যাঁ, এর কিছু অংশ বিদ্যমান। মজার অংশটি হল এটিকে বিরক্তিকর এবং নির্ভরযোগ্য করে তোলা।
সরল চেকলিস্ট (এটি লেমিনেট করুন)
- কঠোর JSON আউটপুট সহ উন্নত Sider প্রম্পট চালান।
- ডোমেইন দ্বারা ট্যাগ করুন এবং আত্মবিশ্বাস স্কোর করুন।
- স্বাভাবিক করুন: case, হাইফেনেশন, সংক্ষিপ্ত রূপ, বিশেষ্য/ক্রিয়া।
- সংজ্ঞা যুক্ত করুন ≤ ২৫ শব্দ + ব্যবহারের উদাহরণ।
- উৎস প্রতি আউটপুট মার্জ করুন; ক্যানোনিকাল ফর্মগুলির সাথে ডিডুপ করুন।
- আপনার শব্দকোষের সংস্করণ তৈরি করুন। অপ্রচলিত শব্দ চিহ্নিত করুন।
- স্থানীয়করণের জন্য “অনুবাদ করবেন না” আইটেম লক করুন।
- SME-এর সাথে কম আত্মবিশ্বাসের আইটেমগুলি পর্যালোচনা করুন।
মোড়ানো: কম গ্রেমলিন, আরও স্পষ্টতা
AI-চালিত পরিভাষা নিষ্কাশন আপনার পণ্যকে সহজ করবে না। তবে এটি আপনার ভাষাকে সামঞ্জস্যপূর্ণ করবে—এবং সামঞ্জস্যতা হল কীভাবে আপনি বৈশিষ্ট্যগুলি শিপিং করার সময় “লগ ইন” নিয়ে তর্ক করা বন্ধ করবেন। উন্নত প্রম্পট দিয়ে শুরু করুন। এটিকে বিরক্তিকর রাখুন। এবং যখন কেউ কোনও স্পেসিফিকেশনে “ইউজার ইগনিশন” ফেলে দেয়, তখন আপনার সিস্টেম বিনয়ের সাথে জিজ্ঞাসা করবে, “অনুগ্রহ করে এটি সংজ্ঞায়িত করুন।”
এখন সেই শব্দকোষ ড্রয়ারটি পরিষ্কার করতে যান। রাবার ব্যান্ডগুলি থাকতে পারে। মেয়াদোত্তীর্ণ সয়া সস? কোনও শব্দ নয়। অবশ্যই মেয়াদোত্তীর্ণ।
FAQ
Q1:সাধারণ ইংরেজিতে AI-চালিত পরিভাষা নিষ্কাশন কী?
এটি আপনার সামগ্রী স্ক্যান করতে এবং গুরুত্বপূর্ণ ডোমেইন শব্দগুলি—যেমন বৈশিষ্ট্যের নাম, সংক্ষিপ্ত রূপ এবং বহুশব্দ বাক্যাংশ—বের করতে AI ব্যবহার করছে, তারপর তাদের সংজ্ঞায়িত এবং স্বাভাবিক করছে। এটিকে একটি পরিচ্ছন্ন, ব্যবহারযোগ্য শব্দকোষ স্বয়ংক্রিয়ভাবে তৈরি করার মতো মনে করুন।
Q2:আরও ভাল শব্দ নিষ্কাশনের জন্য আমি কীভাবে একটি উন্নত Sider ইউজার প্রম্পট লিখব?
নির্দিষ্ট এবং বিরক্তিকর হন: JSON আউটপুট দাবি করুন, অন্তর্ভুক্তি/বহির্ভুক্তি নিয়ম সংজ্ঞায়িত করুন, সংজ্ঞা এবং উদাহরণগুলির প্রয়োজন করুন এবং ডোমেইন ট্যাগ করুন। স্বাভাবিকীকরণ নোট যুক্ত করুন যাতে মডেলটি সামঞ্জস্যপূর্ণ casing, হাইফেনেশন এবং সংক্ষিপ্ত রূপ পরিচালনা প্রয়োগ করে।
Q3:আমি কীভাবে AI কে এলোমেলো বড় হাতের শব্দগুলি অতিরিক্ত নিষ্কাশন করা থেকে আটকাতে পারি?
ফিল্টার ব্যবহার করুন যা শুধুমাত্র পণ্যের নাম, মান এবং প্রসঙ্গ সহ স্পষ্ট বহুশব্দ শব্দগুলির অনুমতি দেয়। ফ্রিকোয়েন্সি থ্রেশহোল্ড এবং আত্মবিশ্বাসের স্কোরগুলির প্রয়োজন করুন যাতে জেনেরিক বা এককালীন শব্দগুলি ফিল্টার হয়ে যায়।
Q4:আমার কি একবারে সমস্ত নথি থেকে শব্দ নিষ্কাশন করা উচিত?
ডোমেইন অনুসারে নিষ্কাশন চালান—পণ্যের নথি, বিকাশকারীর নথি, আইনি—তারপর মার্জ করুন এবং ডিডুপ করুন। এটি প্রসঙ্গ সংরক্ষণ করে এবং সংঘর্ষ প্রতিরোধ করে যেমন “token” টিমের মধ্যে পাঁচটি ভিন্ন জিনিস বোঝায়।
Q5:এই কর্মপ্রবাহে Sider.AI কোথায় সাহায্য করে?
Sider.AI আপনাকে একাধিক ফাইলে উন্নত প্রম্পট চালাতে, আউটপুট মার্জ করতে এবং দ্রুত আত্মবিশ্বাস এবং প্রকারগুলি পর্যালোচনা করতে দেয়। এটি আপনার জন্য শৈলী নির্ধারণ করবে না, তবে এটি আপনার নিয়মগুলি প্রয়োগ করা ব্যথাহীন করে তোলে।