وبلاگ اکسیو

«ابزار جدید صدای هوش مصنوعی برای کپی کردن لهجه‌های منطقه‌ای بریتانیا آموزش دیده است»

«یک ابزار جدید شبیه‌سازی صدای هوش مصنوعی از یک شرکت بریتانیایی ادعا می‌کند که می‌تواند طیفی از لهجه‌های بریتانیایی را با دقت بیشتری نسبت به برخی از رقبای آمریکایی و چینی خود تولید کند.

از آنجایی که بسیاری از داده‌هایی که به طور سنتی برای آموزش محصولات هوش مصنوعی با صدا استفاده می‌شوند، از منابع انگلیسی زبان آمریکای شمالی یا جنوبی می‌آیند، بسیاری از صداهای مصنوعی تمایل دارند شبیه به هم به نظر برسند.

برای مقابله با این موضوع، شرکت Synthesia یک سال را صرف جمع‌آوری پایگاه داده‌ای از صداهای بریتانیایی با لهجه‌های منطقه‌ای کرد، از طریق ضبط صدا از افراد در استودیوها و جمع‌آوری مطالب آنلاین.

این شرکت از آن داده‌ها برای آموزش محصولی به نام Express-Voice استفاده کرد که می‌تواند صدای یک فرد واقعی را شبیه‌سازی کند یا یک صدای مصنوعی تولید کند.

این صداها می‌توانند در محتوایی مانند ویدئوهای آموزشی، پشتیبانی فروش و ارائه‌ها استفاده شوند.

این شرکت گفت که مشتریانش خواهان بازنمایی دقیق‌تر منطقه‌ای بودند.

یوسف عالمی مجتی، رئیس تحقیق در Synthesia، گفت: “اگر مدیر عامل یک شرکت هستید، یا اگر فقط یک فرد عادی هستید، وقتی شباهت خود را دارید، می‌خواهید لهجه شما حفظ شود.”

او افزود که مشتریان فرانسوی زبان نیز اظهار داشتند که صداهای مصنوعی فرانسوی تمایل دارند بیشتر شبیه فرانسوی کانادایی به نظر برسند تا اهل فرانسه.

او گفت: “این فقط به این دلیل است که شرکت‌هایی که این مدل‌ها را می‌سازند تمایل دارند شرکت‌های آمریکای شمالی باشند و آن‌ها تمایل به داشتن مجموعه داده‌هایی دارند که نسبت به جمعیت‌شناسی که در آن هستند، سوگیری دارند.”

آقای مجتی گفت که دشوارترین لهجه‌ها برای تقلید، کمیاب‌ترین آن‌ها هستند، زیرا مواد ضبط شده کمتری برای آموزش مدل هوش مصنوعی در دسترس است.

همچنین گزارش‌هایی وجود دارد مبنی بر اینکه محصولات هوش مصنوعی با فرمان صوتی، مانند بلندگوهای هوشمند، بیشتر احتمال دارد که در درک طیف وسیعی از لهجه‌ها مشکل داشته باشند.

سال گذشته، اسناد داخلی پلیس غرب میدلندز نگرانی‌هایی را در مورد اینکه آیا سیستم‌های تشخیص صدا لهجه برمی را درک می‌کنند، فاش کرد.

در همین حال، استارتاپ Sanas مستقر در ایالات متحده رویکرد متضادی را در پیش گرفته است و ابزارهایی را برای استقرار در مراکز تماس توسعه می‌دهد که لهجه‌های کارکنان هندی و فیلیپینی را “خنثی” می‌کنند، همانطور که بلومبرگ در ماه مارس گزارش داد.

این شرکت می‌گوید هدف آن کاهش “تبعیض لهجه‌ای” است که کارگران هنگام عدم درک آن‌ها توسط تماس‌گیرندگان تجربه می‌کنند.

نگرانی‌هایی وجود دارد مبنی بر اینکه زبان‌ها و گویش‌ها در عصر دیجیتال در حال از دست رفتن هستند.

کارن هائو در کتاب Empire of AI می‌نویسد: “در میان بیش از هفت هزار زبانی که هنوز امروزه وجود دارند، تقریباً نیمی از آن‌ها طبق یونسکو در معرض خطر هستند؛ حدود یک سوم حضور آنلاین دارند؛ کمتر از ۲ درصد توسط گوگل ترنسلیت پشتیبانی می‌شوند؛ و طبق آزمایش‌های خود OpenAI، تنها پانزده یا ۰.۲ درصد توسط GPT-4 [یک مدل OpenAI] با دقت بیش از ۸۰ درصد پشتیبانی می‌شوند.”

هنری آیدر، کارشناس هوش مصنوعی، که به دولت‌ها و شرکت‌های فناوری از جمله Synthesia مشاوره می‌دهد، موافق است: “مدل‌های زبان در حال همگن‌سازی گفتار هستند.”

با این حال، هرچه این محصولات بهتر شوند، در دستان کلاهبرداران نیز مؤثرتر خواهند بود.

محصول Synthesia هنگام عرضه در هفته‌های آینده رایگان نخواهد بود و دارای موانعی در برابر گفتار نفرت‌انگیز و مطالب صریح خواهد بود.

اما در حال حاضر بسیاری از ابزارهای رایگان و متن‌باز شبیه‌سازی صدا وجود دارند که به راحتی قابل دسترسی و کمتر محافظت شده هستند.

در اوایل ماه ژوئیه، گزارش شد که پیام‌های تولید شده توسط صدای شبیه‌سازی شده هوش مصنوعی که وانمود می‌کرد وزیر امور خارجه ایالات متحده مارکو روبیو است، به وزرا ارسال شده است.

آقای آیدر می‌افزاید: “چشم انداز متن‌باز برای صدا در ۹ تا ۱۲ ماه گذشته به سرعت تکامل یافته است.”

“و این، از منظر ایمنی، یک نگرانی واقعی است.”

برای دنبال کردن برترین داستان‌ها و روندهای فناوری در جهان، در خبرنامه Tech Decoded ما ثبت‌نام کنید. خارج از بریتانیا هستید؟ اینجا ثبت نام کنید.»

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *