«ابزار جدید صدای هوش مصنوعی برای کپی کردن لهجههای منطقهای بریتانیا آموزش دیده است»

«یک ابزار جدید شبیهسازی صدای هوش مصنوعی از یک شرکت بریتانیایی ادعا میکند که میتواند طیفی از لهجههای بریتانیایی را با دقت بیشتری نسبت به برخی از رقبای آمریکایی و چینی خود تولید کند.
از آنجایی که بسیاری از دادههایی که به طور سنتی برای آموزش محصولات هوش مصنوعی با صدا استفاده میشوند، از منابع انگلیسی زبان آمریکای شمالی یا جنوبی میآیند، بسیاری از صداهای مصنوعی تمایل دارند شبیه به هم به نظر برسند.
برای مقابله با این موضوع، شرکت Synthesia یک سال را صرف جمعآوری پایگاه دادهای از صداهای بریتانیایی با لهجههای منطقهای کرد، از طریق ضبط صدا از افراد در استودیوها و جمعآوری مطالب آنلاین.
این شرکت از آن دادهها برای آموزش محصولی به نام Express-Voice استفاده کرد که میتواند صدای یک فرد واقعی را شبیهسازی کند یا یک صدای مصنوعی تولید کند.
این صداها میتوانند در محتوایی مانند ویدئوهای آموزشی، پشتیبانی فروش و ارائهها استفاده شوند.
این شرکت گفت که مشتریانش خواهان بازنمایی دقیقتر منطقهای بودند.
یوسف عالمی مجتی، رئیس تحقیق در Synthesia، گفت: “اگر مدیر عامل یک شرکت هستید، یا اگر فقط یک فرد عادی هستید، وقتی شباهت خود را دارید، میخواهید لهجه شما حفظ شود.”
او افزود که مشتریان فرانسوی زبان نیز اظهار داشتند که صداهای مصنوعی فرانسوی تمایل دارند بیشتر شبیه فرانسوی کانادایی به نظر برسند تا اهل فرانسه.
او گفت: “این فقط به این دلیل است که شرکتهایی که این مدلها را میسازند تمایل دارند شرکتهای آمریکای شمالی باشند و آنها تمایل به داشتن مجموعه دادههایی دارند که نسبت به جمعیتشناسی که در آن هستند، سوگیری دارند.”
آقای مجتی گفت که دشوارترین لهجهها برای تقلید، کمیابترین آنها هستند، زیرا مواد ضبط شده کمتری برای آموزش مدل هوش مصنوعی در دسترس است.
همچنین گزارشهایی وجود دارد مبنی بر اینکه محصولات هوش مصنوعی با فرمان صوتی، مانند بلندگوهای هوشمند، بیشتر احتمال دارد که در درک طیف وسیعی از لهجهها مشکل داشته باشند.
سال گذشته، اسناد داخلی پلیس غرب میدلندز نگرانیهایی را در مورد اینکه آیا سیستمهای تشخیص صدا لهجه برمی را درک میکنند، فاش کرد.
در همین حال، استارتاپ Sanas مستقر در ایالات متحده رویکرد متضادی را در پیش گرفته است و ابزارهایی را برای استقرار در مراکز تماس توسعه میدهد که لهجههای کارکنان هندی و فیلیپینی را “خنثی” میکنند، همانطور که بلومبرگ در ماه مارس گزارش داد.
این شرکت میگوید هدف آن کاهش “تبعیض لهجهای” است که کارگران هنگام عدم درک آنها توسط تماسگیرندگان تجربه میکنند.
نگرانیهایی وجود دارد مبنی بر اینکه زبانها و گویشها در عصر دیجیتال در حال از دست رفتن هستند.
کارن هائو در کتاب Empire of AI مینویسد: “در میان بیش از هفت هزار زبانی که هنوز امروزه وجود دارند، تقریباً نیمی از آنها طبق یونسکو در معرض خطر هستند؛ حدود یک سوم حضور آنلاین دارند؛ کمتر از ۲ درصد توسط گوگل ترنسلیت پشتیبانی میشوند؛ و طبق آزمایشهای خود OpenAI، تنها پانزده یا ۰.۲ درصد توسط GPT-4 [یک مدل OpenAI] با دقت بیش از ۸۰ درصد پشتیبانی میشوند.”
هنری آیدر، کارشناس هوش مصنوعی، که به دولتها و شرکتهای فناوری از جمله Synthesia مشاوره میدهد، موافق است: “مدلهای زبان در حال همگنسازی گفتار هستند.”
با این حال، هرچه این محصولات بهتر شوند، در دستان کلاهبرداران نیز مؤثرتر خواهند بود.
محصول Synthesia هنگام عرضه در هفتههای آینده رایگان نخواهد بود و دارای موانعی در برابر گفتار نفرتانگیز و مطالب صریح خواهد بود.
اما در حال حاضر بسیاری از ابزارهای رایگان و متنباز شبیهسازی صدا وجود دارند که به راحتی قابل دسترسی و کمتر محافظت شده هستند.
در اوایل ماه ژوئیه، گزارش شد که پیامهای تولید شده توسط صدای شبیهسازی شده هوش مصنوعی که وانمود میکرد وزیر امور خارجه ایالات متحده مارکو روبیو است، به وزرا ارسال شده است.
آقای آیدر میافزاید: “چشم انداز متنباز برای صدا در ۹ تا ۱۲ ماه گذشته به سرعت تکامل یافته است.”
“و این، از منظر ایمنی، یک نگرانی واقعی است.”
برای دنبال کردن برترین داستانها و روندهای فناوری در جهان، در خبرنامه Tech Decoded ما ثبتنام کنید. خارج از بریتانیا هستید؟ اینجا ثبت نام کنید.»