امروزه در عصر ارتباطات و گسترش روزافزون استفاده از شبكه های تلفن ،موبایل و اینترنت در جهان ومحدودیت پهنای باند در شبكه های مخابراتی، كدینگ و فشرده سازی صحبت امری اجتناب ناپذیر است. در چند دهه اخیر روشهای كدینگ مختلفی پدید آمده اند ولی بهترین و پركاربردترین آنها كدك های آنالیزباسنتز هستند كه توسط Atal & Remede در سال 1982 معرفی شدند [2]. اخیرا مناسبترین الگوریتم برای كدینگ صحبت با كیفیت خوب در نرخ بیت های پائین و زیر 16 kbps، روش پیشگویی خطی باتحریك كد (CELP) می باشد كه در سال 1985 توسط Schroeder & Atal معرفی شد [8] و تا كنون چندین استاندارد مهم كدینگ صحبت بر اساس CELP تعریف شده اند.
در سال 1988 CCITT برنامه ای برای استانداردسازی یك كدك 16 kbps با تاخیراندك و كیفیت بالا در برابر خطاهای كانال آغاز نمود و برای آن كاربردهای زیادی همچون شبكه PSTN ،ISDN، تلفن تصویری و غیره در نظر گرفت. این كدك در سال 1992 توسط Chen et al. تحت عنوان LD-CELP معرفی شد [6] و بصورت استاندارد G.728 در آمد [9] و در سال 1994 مشخصات ممیز ثابت این كدك توسط ITU ارائه شد[10] . با توجه به كیفیت بالای این كدك كه در آن صحبت سنتز شده از صحبت اولیه تقریبا غیرقابل تشخیص است و كاربردهای آن در شبكه های تلفن و اینترنت و ماهواره ای در این گزارش به پیاده سازی این كدك می پردازیم.
در فصل اول به معرفی وآنالیز سیگنال صحبت پرداخته می شود و در فصل دوم روش ها و استانداردهای كدینگ بیان می شوند. در فصل سوم كدك LD-CELP را بیشتر بررسی می كنیم و در فصل چهارم شبیه سازی ممیز ثابت الگوریتم به زبان C را بیان می نمائیم. و در پایان در فصل 5 به نحوه پیاده سازی بلادرنگ كدكG.728 بر روی پردازنده TMS320C5402 می پردازیم.
فصل اول
بررسی و مدل سازی سیگنال صحبت
1-1- معرفی سیگنال صحبت
صحبت در اثر دمیدن هوا از ریه ها به سمت حنجره و فضای دهان تولید میشود. در طول این مسیر در انتهای حنجره، تارهای صوتی قرار دارند. فضای دهان را از بعد از تارهای صوتی، لوله صوتی مینا مند كه در یك مرد متوسط حدود cm 17 طول دارد . در تولید برخی اصوات تارهای صوتی كاملاً باز هستند و مانعی بر سر راه عبور هوا ایجاد نمیكنند كه این اصوات را اصطلاحاً اصوات بی واك مینامند. در دسته دیگر اصوات ، تارهای صوتی مانع خروج طبیعی هوا از حنجره میگردند كه این باعث به ارتعاش درآمدن تارها شده و هوا به طور غیر یكنواخت و تقریباً پالس شكل وارد فضای دهان میشود. این دسته از اصوات را اصطلاحاً باواك میگویند.
فركانس ارتعاش تارهای صوتی در اصوات باواك را فركانس Pitch و دوره تناوب ارتعاش تارهای صوتی را پریود Pitch مینامند. هنگام انتشار امواج هوا در لوله صوتی، طیف فركانس این
امواج توسط لوله صوتی شكل میگیرد و بسته به شكل لوله ، پدیده تشدید در فركانس های خاصی رخ میدهد كه به این فركانس های تشدید فرمنت میگویند.
از آنجا كه شكل لوله صوتی برای تولید اصوات مختلف، متفاوت است پس فرمنت ها برای اصوات گوناگون با هم فرق میكنند. با توجه به اینكه صحبت یك فرآیند متغییر با زمان است پس پارامترهای تعریف شده فوق اعم از فرمنت ها و پریود Pitch در طول زمان تغییر میكنند به علاوه مد صحبت به طور نامنظمی از باواك به بی واك و بالعكس تغییر میكند. لوله صوتی ، همبستگی های زمان-كوتاه ، در حدود 1 ms ، درون سیگنال صحبت را در بر میگیرد. و بخش مهمی از كار كدكننده های صوتی مدل كردن لوله صوتی به صورت یك فیلتر زمان-كوتاه میباشد. همان طور كه شكل لوله صوتی نسبتاً آهسته تغییر میكند، تابع انتقال این فیلتر مدل كننده هم نیاز به تجدید، معمولاً در هر 20ms یکبارخواهد داشت.