آیا هوش مصنوعی به زودی میتواند داستان بنویسد، ویدیوهای بلند مدت بسازد یا موسیقی بسازد؟ خوب، این چیزی است که گوگل سعی در درک آن دارد. در حال حاضر، گوگل با پروژه جدید Wordcraft در حال نوشتن داستان براساس ورودیهای نویسندگان است. LaMDA هوش مصنوعی محاورهای گوگل است که در اوایل سال جاری پس از اینکه یک مهندس ادعا کرد هوش مصنوعی حسی است، مورد بحث قرار گرفت. گوگل در رویداد هوش مصنوعی خود در نیویورک نشان داد که " با نویسندگان حرفهای که از ادیتور Wordcraft برای ایجاد یک حجم از داستانهای کوتاه استفاده کردهاند، همکاری کردهاست." این داستانها اکنون به صورت آنلاین برای عموم در دسترس هستند تا بخوانند.
او گفت: "من معتقدم که ما میخواهیم نحوه بیان خلاقانه مردم را تغییر دهیم. ما با نویسندگان حرفهای درگیر شدیم و از آنها دعوت کردیم تا داستانهای تجربی را با استفاده از LaMDA به عنوان یک ابزار بنویسند. ما همچنین یاد گرفتیم که این کار آسان نیست. LaMDA نیز همه کارها را انجام نمیدهد. داگلاس آک، مدیر ارشد تحقیقات گوگل، در یک نشست مطبوعاتی پیش از این رویداد گفت: " این نویسندگان هستند که این کار را انجام میدهند."
بنابراین آیا گوگل آیندهای را میبیند که LaMDA شاید بتواند جایگزین نویسندگان انسانی شود؟ طبق گفته آک که اعتراف کرد که اگر کسی از LaMDA بخواهد که کل داستان را بنویسد، نتایج خوب یا جالب نخواهند بود. " نکته جالب این است که از این تکنولوژی به عنوان یک چاشنی استفاده کنید، به علاوه آنچه که سعی دارید انجام دهید. ما به حرکت دادن بار با این ابزارها ادامه خواهیم داد. او توضیح داد: " اما این ابزارها به طور موثر نوعی چاشنی باقی خواهند ماند، آنها به عنوان راهی برای قادر ساختن ما به تعریف متفاوت داستانها باقی خواهند ماند."
او همچنین تصدیق کرد که این مدلها خطرات جدی ایجاد میکنند، و هدف این نیست که تمایز بین آنچه واقعی است و آنچه براساس هوش مصنوعی است را تار کند. او اشاره کرد: " ما همچنین باید گفتگو را در مورد مدلهای تولیدی مرتبط با مالکیت معنوی در نظر بگیریم."
نوشتن داستان تنها راه خلاقانه ای نیست که گوگل با کمک مدلهای هوش مصنوعی خود در حال بررسی آن است. گوگل همچنین به دنبال این است که چگونه هوش مصنوعی میتواند برای تولید ویدئو و موسیقی مورد استفاده قرار گیرد. در تولید ویدئوی مبتنی بر هوش مصنوعی، گوگل دو مدل جدید به نام Imagen و Phenaki را نشان داد. در حالی که ویدئوی تصویر سازی از انتشار برای تولید تصاویر منحصر به فرد با کیفیت بالا استفاده میکند، که گوگل ادعا میکند برای ویدئوهای کوتاهتر مناسبتر است، Imagen از یک "تکنیک یادگیری توالی که یک سری از توکنها را در طول زمان تولید میکند" برای ایجاد ویدئوهای با شکل بلند استفاده میکند. گوگل گفت که ترکیب این دو مدل، دقت فوقالعاده در سطح چارچوب و انسجام در زمان را تضمین خواهد کرد.
همچنین ویدئوهایی را نشان داد که توسط این دو مدل ایجاد شده بودند. وقتی از آک در مورد چالشهای استفاده از هوش مصنوعی برای ساخت یک ویدئو سوال شد، او گفت که در حالی که آنها پیشرفت را میبینند، این کار هنوز هم دشوار است. " دشواری تضمین انسجام بین هر چارچوب است. او توضیح داد: " اگر شما یک چارچوب از چارچوب قبلی را پیشبینی کنید، مدل انسجام خود را از دست میدهد." این یک چالش اساسی در تولید ویدئو بود، که گوگل میگوید هنوز به طور کامل آن را حل نکرده است.
در نهایت، AudioLM یک چارچوب جدید برای تولید گفتار و موسیقی واقع گرایانه براساس تنها یک نمونه صوتی کوتاه است. در حال حاضر موسیقی محدود به پیانو است. گوگل میگوید: " این یک مدل صوتی خالص است که بدون هیچ متن یا نمایش نمادینی از موسیقی آموزش داده میشود."