بیت و سمپل ریت در آهنگ چیست؟
توضیحات:
-
به نام خدا
یادم می آید وقتی وارد عرصه تولید موسیقی و آهنگ شدم، خیلی ذوق داشتم. کار هایی که باید برای تنظیم آهنگ انجام می شد، بسیار زیاد بودند و من توانستم یاد بگیرم چطور صدا ها را مثل آن چیزی که می شنیدم، میکس کنم. متأسفانه من به خاطر مشغله هایی که در ابتدای کارم داشتم، نتوانستم اصول و طریقه کنترل صوت که با کامپیوتر انجام می شد را یاد بگیرم، در نتیجه ساختن موسیقی با لپ تاپ کمی برایم نامانوس بود.
حتی کار روی اولین آهنگم با کامپیوتر، برایم گیج کننده بود. با خودم می گفتم که هر یک از گزینه ها چه کاری انجام می دهد؟ چطور باید بفهمم که کدام گزینه کارآمدتر است؟
به همین دلیل بر آن شدم تا برخی از مشخصه های اصلی صوت دیجیتال و نحوه تاثیرشان روی روند تولید را در این مقاله با شما به اشتراک بگذارم. تمرکزم روی سمپل ریت (Sample rate) و عمق بیت (bit depth) صدا و همین طور موضوعات مرتبط با آن ها خواهد بود. محتوای این مقاله کمی تئوری است و با ریاضیات سر و کار دارد اما امیدوارم بتواند پرده از راز های پشت پرده صوت دیجیتال و نحوه عملکردش بردارد و شما را نسبت به آن آگاه تر کند.
صوت دیجیتال چیست؟
صوت دیجیتال سیستمی است که از طریق آن اطلاعات صوتی را در یک سیستم کامپیوتری ذخیره، بازسازی و دستکاری می کنیم. ویژگی های خاص یک موج صوتی آنالوگ مثل فرکانس و دامنه، به داده تبدیل می شود تا نرم افزار کامپیوتر بتواند آن را بخواند. این ویژگی به ما امکان می دهد تا صدا را در یک بستر نرم افزاری مدیریت، ویرایش و تنظیم کنیم.
نمونه (سمپل) صدا چیست؟
موج صوتی از طریق یک سری اسنپ شات یا سمپل ها در اندازه های مختلف، به داده تبدیل می شود. یعنی یک سمپل تصویری است که در یک زمان و دامنه نوسان خاص از یک موج صوتی گرفته شده است. این اطلاعات بعدا به داده های باینری قابل درک تبدیل می شوند.
این سیستم در ثانیه هزاران بار اندازه گیری می کند. اگر ما بتوانیم تعداد زیادی از این اندازه ها را با سرعت بالا و مقادیر مختلف دامنه ثبت کنیم، می توانیم عملا از این اسنپ شات ها برای بازسازی رزولوشن و پیچیدگی یک موج آنالوگ بهره ببریم.
سمپل ریت صدا چیست؟
سیستم این اندازه ها را با سرعتی که به آن سمپل ریت صدا گفته می شود، می گیرد. واحد اندازه گیری سمپل ریت هم کیلوهرتز است. سمپل ریت محدوده ای از فرکانس های گرفته شده را به صوت دیجیتال نشان می دهد. در اکثر امواج صوتی دیجیتال، یک سمپل ریت قابل تنظیم در Audio Preference تان را پیدا خواهید کرد. این نمونه خاص، سمپل ریت صدا در پروژه تان را کنترل می کند.
سمپل ریت هایی که معمولا برای موج صوتی دیجیتال می بینید، 44.1 یا 48 کیلوهرتز است. ممکن است فکر کنید این اعداد تصادفی انتخاب شده اند که اصلا این طور نیست! بیایید از یک موج سینوسی برای توضیح بیشتر کمک بگیریم:
برای اندازه گیری فرکانس این موج سینوسی، باید بتوانیم یک چرخه را شناسایی و تشریح کنیم. یک چرخه کامل از هر موج، شامل یک استیج مثبت و منفی است. برای دانستن طول این چرخه یا طول موجی که فرکانس موج را به ما می دهد، باید هر دو استیج را تشخیص دهیم بنابراین، باید موج را حداقل دو بار در چرخه کامل اندازه بگیریم تا فرکانش را به صورت دقیق به دست بیاوریم.
این یعنی ما می توانیم فرکانس موج سینوسی اصلی را با سمپل ریتی حداقل دو برابر فرکانسش بگیریم و مجدد از نو آن را بسازیم. این ریت به ریت نای کوئیست معروف است. از طرف دیگر، یک سیستم می تواند فرکانس هایی تا نصف میزان سمپل ریت صدا را گرفته و از نو خلق کند که به حد یا فرکانس نای کوئیست معروفند.
سیگنال بالای فرکانس نایکوئیست که توسط مبدل های صوت به دیجیتال (ADCها) به درستی ضبط نشده است، در سر تا سر فرکانس نایکوئیست منعکس می شود و فرکانس های مصنوعی را طی فرایندی به نام آلایزینگ به وجود میآورد.
برای پیشگیری از بروز پدیده آلایزینگ، فیلتر های پایین گذری را جلوی مبدل های صوت (آنالوگ به دیجیتال) گذاشته می شود تا فرکانس های بالاتر از فرکانس نایکوئیست، قبل از رسیدن صدا به مبدل از بین بروند. با این کار از ایجاد اَبَر بسامد های ناخواسته در صدای اصلی که دلیل شان آلایزینگ است، پیشگیری می شود. این فیلتر ها ممکن است روی صدا تاثیر بدی بگذارند که البته به لطف پیشرفت فناوری این مشکل به حداقل رسیده است.
چرا سمپل ریت استاندارد 44.1 کیلوهرتز است؟
رایج ترین سمپل ریتی موجود 44.1 کیلوهرتز یا 44100 نمونه در ثانیه است. این استاندارد اکثر صوت های مصرفی است که در فرمتهایی مثل CD کاربرد دارند.
این عدد تصادفی و دل به خواهی نیست. انسان می تواند فرکانس های بین 20 هرتز تا 20 کیلوهرتز را بشنود. بیشتر افراد در طول زندگی شان توانایی شنیدن فرکانس های بالاتر را از دست می دهند و فقط می توانند فرکانس های 15 تا 18 کیلوهرتز را بشنوند. با این حال، قاعده 20 تا 20 همچنان به عنوان محدوده استاندارد برای همه چیز هایی که می توانیم بشنویم، پذیرفته شده است.
کامپیوتر باید بتواند امواج با فرکانس تا 20 کیلوهرتز را به منظور حفظ تمام صداهایی که می توانیم در این محدوده بشنویم، دوباره تولید کند. بنابراین سمپل ریت 40 کیلوهرتز از نظر فنی ما را به نتیجه مطلوب می رساند، درست است؟
البته برای چنین سمپل ریتی شما به یک فیلتر پایین گذر و بسیار قدرتمند که احتمالا گران قیمت هم هست، نیاز دارید تا بتوانید از رخ دادن پدیده آلایزینگ جلوگیری کنید. سمپل ریت 44.1 کیلوهرتز از نظر فنی امکان ضبط صدا در فرکانس های حداکثر تا 22.05 کیلوهرتز را فراهم می کند. با قرار دادن فرکان نایکوئیست خارج از محدوده شنوایی مان، می توانیم بدون این که تاثیر منفی روی محدوده شنوایی مان گذاشته شود، از فیلتر های متعادل تری برای از بین بردن آلایزینگ استفاده کنیم.
سمپل ریت های دیگر: 48 کیلوهرتز، 88.2 کیلو هرتز، 96 کیلوهرتز و غیره
با این که 44.1 کیلوهرتز سمپل ریت قابل قبول برای اکثر صوت های پرکاربرد در دامنه شنوایی ما به حساب می آید، صوت هایی هم هستند که از سمپل ریت بالاتری استفاده می کنند. برخی از آن ها در اوایلی که صوت دیجیتال تازه ظهور کرده بود و فیلتر های آنتی آلایزینگ گران قیمت بود، به وجود آمدند. بالاتر رفتن فرکانس نایکوئیست به ما امکان می دهد تا فیلتر را فراتر از حد شنوایی انسان قرار دهیم، بنابراین روی صدا تاثیر کم تری می گذارد.
48 کیلوهرتز یکی دیگر از نرخ های سمپل ریت های رایج است. سمپل ریت بالاتر از نظر فنی منجر به گرفتن اندازه های بیشتر در هر ثانیه و بازسازی شبیه تر به صدای اصلی می شود، بنابراین 48 کیلوهرتز اغلب برای صدا های حرفه ای تر از آهنگ های موسیقی استفاده می شود. مثلا این سمپل ریت استاندارد مناسب ویدئو است و فرکانس نایکوئیست را تا حدود 24 کیلوهرتز تغییر می دهد و قبل از این که فیلترینگ لازم شود، بافر بیشتری اعمال می کند.
بعضی از مهندسان ترجیح می دهند در سمپل ریت های بسیار بالاتر که چند برابر 44.1 کیلوهرتز یا 48 کیلوهرتز هستند، کار کنند. سمپل ریت های 88.2 کیلوهرتز، 96 کیلوهرتز، 176.4 کیلوهرتز و 192 کیلوهرتز باعث بالاتر رفتن فرکانس های نایکوئیست می شوند که این یعنی فرکانس های مافوق صوت را می توان ضبط کرد و دوباره ساخت. فیلتر های پایین گذر تأثیر کم تری بر صدا دارند و سمپل های بیشتری در ثانیه تولید می کنند که منجر به بازسازی صدایی با کیفیت بسیار بالاتر از صدای اصلی می شود.
آیا می توانید تفاوت بین سمپل ریت های مختلف را با گوش تان تشخیص بدهید؟
برخی از مهندسان باتجربه ممکن است بتوانند تفاوت بین سمپل ریت های مختلف را بشنوند. با توجه به این که فناوری فیلتر کردن و تبدیل آنالوگ به دیجیتال پیشرفت کرده، تشخیص و شنیدن این تفاوت ها بسیار دشوارتر شده است.
آیا سمپل ریت بالاتر بهتر است؟
از لحاظ تئوری کار با سمپل ریت های بالاتر مثل 176.4 کیلوهرتز یا 192 کیلوهرتز ایده بدی نیست. فایل ها بزرگ تر خواهند بود، اما به حداکثر رساندن کیفیت صدا تا زمان خروجی گرفتن از پروژه نهایی، نتیجه را بهتر می کند. با این حال صدا نهایتا با سمپل 44.1 کیلوهرتز یا 48 کیلوهرتز تبدیل خواهد شد. از نظر ریاضی، تبدیل 88.2 به 44.1 و 96 به 48 بسیار آسان تر است، بنابراین بهتر است کل پروژه در یک قالب باشد. با این وجود، متداول ترین سمپل ریت 44.1 کیلوهرتز یا 48 کیلوهرتز است.
اگر سیستم روی سمپل ریت 48 کیلوهرتز تنظیم شده بود و ما از یک فایل صوتی 44.1 کیلوهرتز استفاده می کردیم، سیستم سمپل ها را سریع تر از آن که باید، می خواند. در نتیجه، صدا سریع تر و کمی زیرتر به نظر می رسید. اگر سمپل ریت سیستم در مقیاس 44.1 کیلوهرتز و فایل های صوتی در مقیاس 48 کیلوهرتز باشند، عکس این اتفاق می افتد. یعنی صدا های فایل صوتی کندتر و بم تر به نظر می رسیدند.
سمپل ریت های فوق العاده بالا کاربرد های خلاقانه و جالبی دارند. اگر تا به حال یک فایل صوتی استاندارد 44.1 کیلوهرتز را بم تر کرده باشید، احتمالاً متوجه شده اید تا حدی فرکانس های بالاتر کمتر شده اند. دلیل آن هم این است که فرکانس های بالاتر از 22.05 کیلوهرتز قبل از تبدیل فیلتر شده اند، بنابراین فرکانسی برای کم شدن وجود ندارد و در نتیجه یک حفره بزرگ ایجاد می شود.
با این حال، اگر این صوت مثلا در 192 کیلوهرتز ضبط شده بود، فرکانس هایی حداکثر تا 96 کیلوهرتز فرکانس های صدای اصلی ضبط می شد. بدیهی است که این محدوده چیزی خارج از آن چیزی است که انسان می تواند بشنود، اما بم کردن صدا باعث می شود تا این فرکانس های غیر قابل شنیدن، شنیدنی شوند. در نتیجه، شما می توانید با حفظ بخش هایی که فرکانس بالایی دارند، صدای ضبط شده را تا حد زیادی بم کنید.
عمق بیت صوت چیست؟
صدای آنالوگ یک موج پیوسته با بی نهایت مقدار دامنه غیر قابل شمارش است. برای اندازه گیری این موج در صوت دیجیتال، باید دامنه موج را هر بار که نمونه برداری می کنیم به عنوان یک مقدار محدود تعریف کنیم.
عمق بیت صوتی تعداد مقادیر دامنه ممکن که ما می توانیم برای هر نمونه ضبط کنیم را مشخص می کند. متداول ترین عمق بیت های صوتی 16 بیتی، 24 بیتی و 32 بیتی هستند. هر کدام از این ها نمایانگر تعدادی از این مقادیر ممکن هستند. سیستم هایی با عمق بیت صوتی بالاتر قادر به بیان مقادیر بیشتری هستند:
- 16 بیتی: 65536 مقدار
- 24 بیتی: 16777216 مقدار
- 32 بیتی: 4294967296 مقدار
با عمق بیت صوتی بالاتر و در نتیجه وضوح بالاتر، مقادیر دامنه بیشتری برای ضبط در دسترسمان قرار می گیرند. پس دامنه دقیق موج آنالوگ پیوسته هنگام نمونه برداری به یکی از این مقادیر نزدیکتر است. بنابراین تقریب دیجیتالی دامنه به موج آنالوگ اصلی متحرک نزدیک تر می شود.
- 16 بیتی: 65536 مقدار
- 24 بیتی: 16777217 مقدار
- 32 بیتی: 4284967296 مقدار
افزایش عمق بیت صوتی، در کنار افزایش سمپل ریت، نقاط بیشتری برای بازسازی موج آنالوگ عایدمان می کند
با این حال، موج آنالوگ متحرک، صرف نظر از وضوح و کیفیت، همیشه هم کاملا با یک مقدار هم تراز نمی شود. به همین دلیل آخرین بیت در داده ها که دامنه را نشان می دهد طی فرایندی به نام کوانتیزیشن، 0 یا 1 گرد می شود. و این یعنی یک قسمت لزوما تصادفی در سیگنال وجود دارد.
در صوت دیجیتال، ما این بخش تصادفی را به صورت یک نویز سفید آهسته می شنویم که به آن کف نویز گفته می شود. مثل نویز مکانیکی محیط آنالوگ یا نویز پس زمینه ای که در شرایط اکوستیک لایو وجود دارد، خطای کوانتیزیشن دیجیتال، نویزی را به صدایمان اضافه می کند.
روابط هارمونیک بین سمپل ریت و صوت می تواند باعث ایجاد الگو های خاص در کوانتیزیشن شود. این پدیده به عنوان نویز هم بسته شناخته می شود، که ما آن را به صورت طنین در کف نویز با یک سری فرکانس های خاص می شنویم. در این جا کف نویز ما در واقع بالاتر است که مقادیر دامنه بالقوه برای سیگنال ضبط شده را بیشتر می کند
با این حال، ما می توانیم تولید تصادفی مقادیر را به صورت مصنوعی انجام بدهیم تا مطمئن شویم که این الگو ها رخ نمی دهند. در فرایندی به نام دیترینگ (dithering)، ما می توانیم نحوه گرد شدن این بیت آخر را به صورت تصادفی انجام بدهیم. الگو ها ایجاد نمی شوند بلکه نویز هم بسته تصادفی تری ایجاد می شود که مقادیر دامنه بالقوه بیشتری را بر جا می گذارد.
دامنه کف نویز، کف دامنه دینامیکی ممکن ما می شود. در طرف دیگر، یک سیستم دیجیتال، اگر دامنه در شرایطی که سیگنال از مقدار ماکزیمم قابل تولید توسط سیستم باینری فراتر رفته خیلی بالا باشد، می تواند از حالت طبیعی خارج شود. به این سطح dBFS 0 (صفر) گفته می شود.
در نهایت، عمق بیت صوتی ما، تعداد مقادیر دامنه ممکن بین کف نویز و dBFS 0 را تعیین می کند.
آیا می توانید تفاوت بین عمق بیت های صوتی مختلف را بشنوید؟
ممکن است از خودتان بپرسید “آیا واقعاً گوش های انسان می تواند تفاوت بین سطح دامنه 65،536 و 4،294،967،296 را تشخیص دهد؟”
سوال به جایی است ! کف نویز حتی در سیستم 16 بیتی، فوق العاده پایین است. در صورتی که به بیش از 96 دسی بل محدوده دینامیکی موثر نیاز نداشته باشید ، سیستم 16 بیتی برای خروجی نهایی پروژه مناسب است.
با این حال فکر بدی نیست پروژه تان را با عمق بیت بالاتر انجام بدهید. از آن جا که کف نویز کاهش می یابد، قبل از بروز دیستورشن فضا یا هد روم بیشتری خواهید داشت. داشتن این فضای بافر اضافی قبل از دیستوریشن، شما را از مواجهه با خطا حین کار در امان نگاه می دارد و دست تان را بازتر می گذارد.