راهکارهای مبتنی بر IT: پیادهسازی مصاحبه و تهیه خروجی از آنها
آمادهسازی فایل صوتی:
- در صورتی که فایل صوتی نیاز به تقطیع داشته باشد، میتوان ابتدا با استفاده از یک نرمافزار مناسب، بخشهای مورد نظر را برش داد.
- ابزارهای هوش مصنوعی معمولاً محدودیتی در پذیرش فرمت فایلهای صوتی ندارند و فرمتهای رایج ضبط صدا، مانند m4a که در بیشتر موبایلها استفاده میشود، بهصورت مستقیم قابل ارسال هستند.اما در صورتی که نیاز به ویرایش یا تغییر فرمت فایل باشد، میتوانید از نرمافزارها و اپلیکیشنهای مبدل برای انجام این کار استفاده کنید.
- در صفحه «راهکارهای مبتنی بر IT: برش، ویرایش و تبدیل فایلهای صوتی و تصویری»، پیشنهادهایی برای معرفی نرمافزارهای اصلاح و تغییر فرمت فایلهای صوتی و تصویری ارائه شده است.
بارگذاری در سایت تبدیل کننده صوت به متن و دریافت خروجی اولیه:
- از لیست سرویسهای تبدیل صوت به متن، گزینه اول را انتخاب کرده و لینک مربوطه را باز کنید. این لیست بهگونهای تنظیم شده که کاربردیترین ابزارها از ابتدا مرتب شدهاند. با این حال، کاربران میتوانند با توجه به نیازها، محدودیتها و توضیحات ارائهشده برای هر ابزار، از گزینههای دیگر نیز استفاده کنند.
- پیشنهاد: برخی از ابزارهای تبدیل صوت به متن، امکان تشخیص و جداسازی گویندگان فایل صوتی را دارند (مانند ویژگی Diarization در ابزار speechmatics.com). این ابزارها معمولاً ابتدای جملات هر گوینده را با مشخصههایی مانند Speaker 1، Speaker 2 و ... علامتگذاری میکنند. در چنین مواردی، توصیه میشود پیش از ویرایش متن، آن را به نرمافزار Word منتقل کرده و با استفاده از قابلیت Find and Replace (کلیدهای ترکیبی Ctrl+H)، تمامی عبارتهای Speaker 1، Speaker 2 و ... را پیدا کرده و بر اساس فایل صوتی به نام گویندگان واقعی تغییر دهید.
- پیشنهاد: برخی از ابزارهای تبدیل صوت به متن، امکان تشخیص و جداسازی گویندگان فایل صوتی را دارند (مانند ویژگی Diarization در ابزار speechmatics.com). این ابزارها معمولاً ابتدای جملات هر گوینده را با مشخصههایی مانند Speaker 1، Speaker 2 و ... علامتگذاری میکنند. در چنین مواردی، توصیه میشود پیش از ویرایش متن، آن را به نرمافزار Word منتقل کرده و با استفاده از قابلیت Find and Replace (کلیدهای ترکیبی Ctrl+H)، تمامی عبارتهای Speaker 1، Speaker 2 و ... را پیدا کرده و بر اساس فایل صوتی به نام گویندگان واقعی تغییر دهید.
ویراستاری و اصلاح ایرادهای نسخه اولیه:
در این مرحله، متن پیادهسازیشده توسط یکی از مدلهای هوش مصنوعی (مانند ChatGPT و ...) اصلاح یا ویراستاری میشود تا به خروجی مطلوب نزدیکتر شود. در ادامه، نکاتی برای استفاده بهینه از این مدلها ارائه میشود:
- تجربه نشان داده است که مدلهای هوش مصنوعی نسبت به حجم و تعداد کلمات ورودی حساس هستند. اگر تعداد کاراکترهای ورودی بیش از حد زیاد باشد، ممکن است فرایند اصلاح متن با مشکل مواجه شود. بنابراین، پیشنهاد میشود حجم کاراکترهای ورودی کنترل و محدود شود.
- همچنین، مدلهای هوش مصنوعی معمولاً رویکردی تحلیلی به متنهای ورودی دارند و بهطور پیشفرض محتوای ورودی را تحلیل و بازنویسی میکنند. این ویژگی برای خلاصهسازی، موضوعبندی و تحلیلهای مشابه بسیار مفید است، اما در مواردی که هدف صرفاً اصلاح یک متن (مانند مصاحبه) بدون حذف یا اضافه کردن محتواست، ممکن است نتیجه مطلوبی نداشته باشد. برای چنین مواردی، توصیه میشود در دستور ورودی (prompt) بهطور صریح تأکید شود که متن نباید دچار حذف یا اضافه شود. همچنین باید مشخص شود که هیچ مطلب جدیدی به متن اضافه نشود، زیرا مدلهای هوش مصنوعی زایا بهراحتی میتوانند موضوع را درک کرده و محتوای جدیدی در همان سیاق تولید کنند.
- در ادامه، نمونهای از دستور ورودی به یک چتبات هوش مصنوعی ارائه میشود که نتیجهای قابل قبول در ویرایش متن به همراه داشته است. این دستورات عمومی میتوانند به اصلاح ایرادات تبدیل صوت به متن کمک کنند و در عین حال کمترین تغییر ممکن را در متن ایجاد کنند، بهطوری که متن با فایل صوتی مرجع بهخوبی مطابقت داشته باشد.
-
متن زیر را ویراستاری کن. دقت کن که هیچ بخشی از متن حذف یا اضافه نشود. متن شکسته و عامیانه را کمی به زبان معیار نزدیک کن. این متن مربوط به یک مصاحبه است و نام هر فرد در ابتدای جمله آمده است. در متن ویراستاری شده، صحبتهای هر گوینده بلافاصله پس از دو نقطه (:) شروع شود و به خط بعد منتقل نشود.
-
* ضرورتی ندارد که حتماً از متن بالا استفاده شود، اما تجربه نشان داده که وارد کردن مطالبی با این ساختار و شکل به چتبات هوش مصنوعی، همراه با افزودن دستوراتی مشابه متن ذکرشده، میتواند تا حد قابل قبولی به دستیابی به خروجی مطلوب کمک کند.
- معمولاً اگر متن ورودی اولیه طولانی باشد، احتمال زیادی وجود دارد که خروجی نیز ناقص باشد و متن بهطور کامل و مطابق با ورودی در یک مرحله ویرایش نشود. در چنین شرایطی میتوان با استفاده از عبارات سادهای مانند «ادامه بده» یا «از جایی که متوقف شدی ادامه بده» در محیط چت، فرآیند ویرایش را ادامه داد. در این موارد، معمولاً متن ویرایششده بدون مشکل تکمیل میشود.
| نکات مختص ChatGPT: | در صورت استفاده از اکانت Plus دقت شود که از آخرین ورژن مدل مانند GPT4o استفاده شود و از نسخههای بهینه شده برای استنتاج (مانند O1) و نسخههای برای سرعت پاسخگویی (مانند نسخههای mini) استفاده نشود. |
| نکات مختص Perplexity: | ورود کاراکتر در box چت این سرویس به تعداد کاراکتر حساس بوده و اگر تعداد کاراکترها از حدی بیشتر شود، به صورت خودکار فایل در قالب .txt آپلود میشود. به نظر میرسد اگر متن در box قرار گیرد و به صورت فایل آپلود نشود، خروجی با کیفیتتری به دست میآید. |
پرامپت ویراستاری
پرامپتی برای ویرایش متنهای تبدیل شده از صوت با استفاده از هوش مصنوعی
Role: Act as an expert proofreader specializing in correcting Farsi text transcribed from audio using Text-to-Speech (TTS) services, particularly for multi-speaker dialogues.
Context: The input text is a Farsi transcription of spoken language, potentially involving multiple speakers. The original speakers may naturally use English words/phrases or occasionally Arabic terms within their Farsi speech. The TTS system might have transcribed these non-Farsi elements inaccurately (e.g., Finglish for English, misspellings for Arabic) or failed to properly attribute speech to different speakers. The original speech might also contain colloquialisms or grammatically informal ("broken") sentences.
Objective: Perform surface-level linguistic and orthographic correction ('ویراستاری صوری و زبانی') on the provided Farsi text. The primary goal is to enhance accuracy, readability, and speaker clarity while strictly preserving the original speaker's meaning, intent, and overall expression.
Specific Instructions:
-
Identify and Correct TTS Errors: Fix general transcription mistakes made by the TTS system to accurately reflect the likely spoken words.
-
Correct Non-Farsi Words:
-
English: If English words or phrases appear transcribed phonetically in Farsi script (e.g., "کانفیگ" instead of "config", "ای پی آی" instead of "API"), replace them with the correct English spelling using Latin script. Ensure the identified English term accurately matches the context.
-
Arabic: If Arabic words or phrases are present and transcribed incorrectly, correct their Farsi spelling based on common usage. (Using Arabic script is generally not required unless context demands it).
-
Standardize Colloquialisms (Minimally): Adjust informal or "broken" Farsi sentences slightly towards standard written Farsi for clarity or basic grammatical correctness. This standardization must be minimal. Do not over-formalize or alter the speaker's natural tone, style, or meaning. If a colloquialism is understandable, lean towards keeping it.
-
Preserve Original Content: Ensure the corrected text remains extremely close to the original speaker's utterances. Focus only on correction and minimal standardization.
-
Paragraphing: Structure the corrected text into logical paragraphs based on topic flow. Avoid single-block text and overly short (single-sentence) paragraphs. Aim for medium-length paragraphs.
-
Multi-Speaker Formatting: If the input indicates multiple speakers (e.g., 'Speaker 1:', 'گوينده الف:', names, etc.):
-
Start each speaker's turn on a new line.
-
Identify the speaker using the provided label (e.g., 'Speaker 1', 'گوينده الف').
-
Format this identifier in bold, followed by a colon and a single space (e.g., **Speaker 1:** or **گوينده الف:** ).
-
Place the speaker's corrected text immediately after the space on the same line.
-
Ensure the spoken text itself (following the bold identifier) is not bold.
-
Preserve Speaker Turns: Do not merge turns or reassign speech between speakers.
Crucial Constraints (What NOT to do):
-
DO NOT rewrite, rephrase, summarize, or restructure the content.
-
DO NOT delete any part of the original text or add information not present.
-
DO NOT perform content editing, stylistic overhaul (beyond minimal standardization), or interpretation.
-
The task is strictly proofreading, correction, and formatting as specified.
Output Delivery and Format:
-
Complete Output Priority: Make every effort to process and output the entire corrected text in a single, complete response.
-
Handling Long Texts (If Necessary): If, due to absolute technical limitations, you cannot output the full text at once, you must:
-
Clearly indicate exactly where you are stopping (e.g., provide the last few words outputted and state: [---OUTPUT TRUNCATED DUE TO LENGTH LIMIT. Please ask to continue.---] ).
-
When I instruct you to "continue" (or similar), resume precisely from the point of truncation without repeating or omitting any text.
-
Clearly state when the final part is delivered.
-
Prioritize delivering the full text in one go whenever feasible.
-
Chat Output: Display the fully corrected and formatted text directly in the chat interface.
-
Markdown Output: After displaying the text in the chat, generate the entire, final, corrected, and formatted text again, enclosed in a Markdown code block (using markdown ... ). Use standard Markdown for paragraphs and the specified bold formatting for speaker identifiers. This facilitates easy copying.
Apply these instructions to the following Farsi text:
[متن فارسی در اینجا جاگذاری شود]
توضیحات نکات کلیدی در پرامپت:
- Role and Context: به AI نقش و زمینه کاری مشخصی میدهد.
- Objective: هدف اصلی (ویراستاری صوری و زبانی) را مشخص میکند و بر حفظ محتوا تاکید دارد.
- Specific Instructions: دستورالعملهای دقیقی برای اصلاح خطاهای TTS، کلمات انگلیسی (با حروف لاتین)، کلمات عربی (با حروف فارسی صحیح) و استانداردسازی حداقلی زبان عامیانه ارائه میدهد.
- Crucial Constraints: به صراحت کارهایی که نباید انجام شود (بازنویسی، خلاصه سازی، حذف) را با حروف بزرگ مشخص میکند تا از ویرایش محتوایی جلوگیری شود.
- Paragraphing: نیازمندیهای پاراگرافبندی را دقیق بیان میکند.
- Placeholder: جایی برای قرار دادن متن فارسی شما در نظر گرفته شده است.