راهکارهای مبتنی بر IT: پیاده‌سازی مصاحبه و تهیه خروجی از آن‌ها

آماده‌سازی فایل صوتی:

در صورتی که فایل صوتی نیاز به تقطیع داشته باشد، می‌توان ابتدا با استفاده از یک نرم‌افزار مناسب، بخش‌های مورد نظر را برش داد.
ابزارهای هوش مصنوعی معمولاً محدودیتی در پذیرش فرمت فایل‌های صوتی ندارند و فرمت‌های رایج ضبط صدا، مانند m4a که در بیشتر موبایل‌ها استفاده می‌شود، به‌صورت مستقیم قابل ارسال هستند.اما در صورتی که نیاز به ویرایش یا تغییر فرمت فایل باشد، می‌توانید از نرم‌افزارها و اپلیکیشن‌های مبدل برای انجام این کار استفاده کنید.
در صفحه «راهکارهای مبتنی بر IT: برش، ویرایش و تبدیل فایل‌های صوتی و تصویری»، پیشنهادهایی برای معرفی نرم‌افزارهای اصلاح و تغییر فرمت فایل‌های صوتی و تصویری ارائه شده است.

بارگذاری در سایت تبدیل کننده صوت به متن و دریافت خروجی اولیه:

از لیست سرویس‌های تبدیل صوت به متن، گزینه اول را انتخاب کرده و لینک مربوطه را باز کنید. این لیست به‌گونه‌ای تنظیم شده که کاربردی‌ترین ابزارها از ابتدا مرتب شده‌اند. با این حال، کاربران می‌توانند با توجه به نیازها، محدودیت‌ها و توضیحات ارائه‌شده برای هر ابزار، از گزینه‌های دیگر نیز استفاده کنند.
- پیشنهاد: برخی از ابزارهای تبدیل صوت به متن، امکان تشخیص و جداسازی گویندگان فایل صوتی را دارند (مانند ویژگی Diarization در ابزار speechmatics.com). این ابزارها معمولاً ابتدای جملات هر گوینده را با مشخصه‌هایی مانند Speaker 1، Speaker 2 و ... علامت‌گذاری می‌کنند. در چنین مواردی، توصیه می‌شود پیش از ویرایش متن، آن را به نرم‌افزار Word منتقل کرده و با استفاده از قابلیت Find and Replace (کلیدهای ترکیبی Ctrl+H)، تمامی عبارت‌های Speaker 1، Speaker 2 و ... را پیدا کرده و بر اساس فایل صوتی به نام گویندگان واقعی تغییر دهید.

ویراستاری و اصلاح ایرادهای نسخه اولیه:

در این مرحله، متن پیاده‌سازی‌شده توسط یکی از مدل‌های هوش مصنوعی (مانند ChatGPT و ...) اصلاح یا ویراستاری می‌شود تا به خروجی مطلوب نزدیک‌تر شود. در ادامه، نکاتی برای استفاده بهینه از این مدل‌ها ارائه می‌شود:

تجربه نشان داده است که مدل‌های هوش مصنوعی نسبت به حجم و تعداد کلمات ورودی حساس هستند. اگر تعداد کاراکترهای ورودی بیش از حد زیاد باشد، ممکن است فرایند اصلاح متن با مشکل مواجه شود. بنابراین، پیشنهاد می‌شود حجم کاراکترهای ورودی کنترل و محدود شود.
همچنین، مدل‌های هوش مصنوعی معمولاً رویکردی تحلیلی به متن‌های ورودی دارند و به‌طور پیش‌فرض محتوای ورودی را تحلیل و بازنویسی می‌کنند. این ویژگی برای خلاصه‌سازی، موضوع‌بندی و تحلیل‌های مشابه بسیار مفید است، اما در مواردی که هدف صرفاً اصلاح یک متن (مانند مصاحبه) بدون حذف یا اضافه کردن محتواست، ممکن است نتیجه مطلوبی نداشته باشد. برای چنین مواردی، توصیه می‌شود در دستور ورودی (prompt) به‌طور صریح تأکید شود که متن نباید دچار حذف یا اضافه شود. همچنین باید مشخص شود که هیچ مطلب جدیدی به متن اضافه نشود، زیرا مدل‌های هوش مصنوعی زایا به‌راحتی می‌توانند موضوع را درک کرده و محتوای جدیدی در همان سیاق تولید کنند.
در ادامه، نمونه‌ای از دستور ورودی به یک چت‌بات هوش مصنوعی ارائه می‌شود که نتیجه‌ای قابل قبول در ویرایش متن به همراه داشته است. این دستورات عمومی می‌توانند به اصلاح ایرادات تبدیل صوت به متن کمک کنند و در عین حال کمترین تغییر ممکن را در متن ایجاد کنند، به‌طوری که متن با فایل صوتی مرجع به‌خوبی مطابقت داشته باشد.
- متن زیر را ویراستاری کن. دقت کن که هیچ بخشی از متن حذف یا اضافه نشود. متن شکسته و عامیانه را کمی به زبان معیار نزدیک کن. این متن مربوط به یک مصاحبه است و نام هر فرد در ابتدای جمله آمده است. در متن ویراستاری شده، صحبت‌های هر گوینده بلافاصله پس از دو نقطه (:) شروع شود و به خط بعد منتقل نشود.

* ضرورتی ندارد که حتماً از متن بالا استفاده شود، اما تجربه نشان داده که وارد کردن مطالبی با این ساختار و شکل به چت‌بات هوش مصنوعی، همراه با افزودن دستوراتی مشابه متن ذکرشده، می‌تواند تا حد قابل قبولی به دستیابی به خروجی مطلوب کمک کند.

معمولاً اگر متن ورودی اولیه طولانی باشد، احتمال زیادی وجود دارد که خروجی نیز ناقص باشد و متن به‌طور کامل و مطابق با ورودی در یک مرحله ویرایش نشود. در چنین شرایطی می‌توان با استفاده از عبارات ساده‌ای مانند «ادامه بده» یا «از جایی که متوقف شدی ادامه بده» در محیط چت، فرآیند ویرایش را ادامه داد. در این موارد، معمولاً متن ویرایش‌شده بدون مشکل تکمیل می‌شود.

**نکات مختص به هر سرویس**
نکات مختص ChatGPT:	در صورت استفاده از اکانت Plus دقت شود که از آخرین ورژن مدل مانند GPT4o استفاده شود و از نسخه‌های بهینه شده برای استنتاج (مانند O1) و نسخه‌های برای سرعت پاسخ‌گویی (مانند نسخه‌های mini) استفاده نشود.
نکات مختص Perplexity:	ورود کاراکتر در box چت این سرویس به تعداد کاراکتر حساس بوده و اگر تعداد کاراکتر‌ها از حدی بیشتر شود، به صورت خودکار فایل در قالب .txt آپلود می‌شود. به نظر می‌رسد اگر متن در box قرار گیرد و به صورت فایل آپلود نشود، خروجی با کیفیت‌تری به دست می‌آید.

پرامپت ویراستاری

پرامپتی برای ویرایش متن‌های تبدیل شده از صوت با استفاده از هوش مصنوعی

Role: Act as an expert proofreader specializing in correcting Farsi text transcribed from audio using Text-to-Speech (TTS) services, particularly for multi-speaker dialogues.

Context: The input text is a Farsi transcription of spoken language, potentially involving multiple speakers. The original speakers may naturally use English words/phrases or occasionally Arabic terms within their Farsi speech. The TTS system might have transcribed these non-Farsi elements inaccurately (e.g., Finglish for English, misspellings for Arabic) or failed to properly attribute speech to different speakers. The original speech might also contain colloquialisms or grammatically informal ("broken") sentences.

Objective: Perform surface-level linguistic and orthographic correction ('ویراستاری صوری و زبانی') on the provided Farsi text. The primary goal is to enhance accuracy, readability, and speaker clarity while strictly preserving the original speaker's meaning, intent, and overall expression.

Specific Instructions:

Identify and Correct TTS Errors: Fix general transcription mistakes made by the TTS system to accurately reflect the likely spoken words.
Correct Non-Farsi Words:

English: If English words or phrases appear transcribed phonetically in Farsi script (e.g., "کانفیگ" instead of "config", "ای پی آی" instead of "API"), replace them with the correct English spelling using Latin script. Ensure the identified English term accurately matches the context.
Arabic: If Arabic words or phrases are present and transcribed incorrectly, correct their Farsi spelling based on common usage. (Using Arabic script is generally not required unless context demands it).

Standardize Colloquialisms (Minimally): Adjust informal or "broken" Farsi sentences slightly towards standard written Farsi for clarity or basic grammatical correctness. This standardization must be minimal. Do not over-formalize or alter the speaker's natural tone, style, or meaning. If a colloquialism is understandable, lean towards keeping it.
Preserve Original Content: Ensure the corrected text remains extremely close to the original speaker's utterances. Focus only on correction and minimal standardization.
Paragraphing: Structure the corrected text into logical paragraphs based on topic flow. Avoid single-block text and overly short (single-sentence) paragraphs. Aim for medium-length paragraphs.
Multi-Speaker Formatting: If the input indicates multiple speakers (e.g., 'Speaker 1:', 'گوينده الف:', names, etc.):

Start each speaker's turn on a new line.
Identify the speaker using the provided label (e.g., 'Speaker 1', 'گوينده الف').
Format this identifier in bold, followed by a colon and a single space (e.g., **Speaker 1:** or **گوينده الف:** ).
Place the speaker's corrected text immediately after the space on the same line.
Ensure the spoken text itself (following the bold identifier) is not bold.

Preserve Speaker Turns: Do not merge turns or reassign speech between speakers.

Crucial Constraints (What NOT to do):

DO NOT rewrite, rephrase, summarize, or restructure the content.
DO NOT delete any part of the original text or add information not present.
DO NOT perform content editing, stylistic overhaul (beyond minimal standardization), or interpretation.
The task is strictly proofreading, correction, and formatting as specified.

Output Delivery and Format:

Complete Output Priority: Make every effort to process and output the entire corrected text in a single, complete response.
Handling Long Texts (If Necessary): If, due to absolute technical limitations, you cannot output the full text at once, you must:

Clearly indicate exactly where you are stopping (e.g., provide the last few words outputted and state: [---OUTPUT TRUNCATED DUE TO LENGTH LIMIT. Please ask to continue.---] ).
When I instruct you to "continue" (or similar), resume precisely from the point of truncation without repeating or omitting any text.
Clearly state when the final part is delivered.
Prioritize delivering the full text in one go whenever feasible.

Chat Output: Display the fully corrected and formatted text directly in the chat interface.
Markdown Output: After displaying the text in the chat, generate the entire, final, corrected, and formatted text again, enclosed in a Markdown code block (using markdown ... ). Use standard Markdown for paragraphs and the specified bold formatting for speaker identifiers. This facilitates easy copying.

Apply these instructions to the following Farsi text:

[متن فارسی در اینجا جاگذاری شود]

توضیحات نکات کلیدی در پرامپت:

Role and Context: به AI نقش و زمینه کاری مشخصی می‌دهد.
Objective: هدف اصلی (ویراستاری صوری و زبانی) را مشخص می‌کند و بر حفظ محتوا تاکید دارد.
Specific Instructions: دستورالعمل‌های دقیقی برای اصلاح خطاهای TTS، کلمات انگلیسی (با حروف لاتین)، کلمات عربی (با حروف فارسی صحیح) و استانداردسازی حداقلی زبان عامیانه ارائه می‌دهد.
Crucial Constraints: به صراحت کارهایی که نباید انجام شود (بازنویسی، خلاصه سازی، حذف) را با حروف بزرگ مشخص می‌کند تا از ویرایش محتوایی جلوگیری شود.
Paragraphing: نیازمندی‌های پاراگراف‌بندی را دقیق بیان می‌کند.
Placeholder: جایی برای قرار دادن متن فارسی شما در نظر گرفته شده است.