ChatGPT сега поддржува гласовни разговори и прашања базирани на фотографии

Живот
26/09/2023
13:03

ChatGPT добива сериозни подобрувања што ќе му овозможат на овој четбот да се справува со гласовни команди и прашања засновани на фотографии.

Корисниците ќе можат да имаат гласовен разговор со ChatGPT на уреди кои користат оперативни системи Android и iOS, но и да користат фотографии како начин за пребарување. OpenAI, компанијата зад овој четбот, веќе започна со надградби кои првично ќе бидат достапни за корисниците на Plus и Enterprise, а потоа и за другите.

За да ја испробате опцијата гласовни разговори во апликацијата ChatGPT, потребно е да изберете Settings – New Features, а со допирање на копчето за микрофон ќе може да се избере еден од петте различни гласови.

Компанијата OpenAI вели дека двонасочните гласовни разговори се овозможени со нов модел на текст во говор кој создава „звук како човечки глас и само неколку секунди примерок од говор“ од текстот. Компанијата создаде 5 гласови со помош на професионални актери, а нејзиниот систем за препознавање говор Whisper ги претвора зборовите изговорени од корисникот во текст.

Интересна е и функцијата поврзана со фотографиите. OpenAI наведува дека корисникот може на четботот да му покаже фотографија од на пр. на вашата скара и прашање зошто не се вклучува, а можно е да добиете предлог за оброк врз основа на прехранбените производи фотографирани во фрижидерот. Исто така, може да се побара решение за математичка задача што е фотографирана.

Во меѓувреме, Microsoft ги истакна можностите на интерфејсот Copilot AI за решавање на математички проблем во Windows.

OpenAI користи GPT-3-5 и GPT-4 за да овозможи препознавање фотографии. За да ја користите оваа опција, треба да го допрете копчето за фотографија или иконата + на iOS и Android, а потоа да изберете постоечка фотографија на уредот или да креирате нова. Исто така, можно е да му поставувате прашања на ChatGPT за повеќе фотографии и да ја користите алатката за цртање за да го ставите фокусот на одреден дел од фотографијата.

Од друга страна, OpenAI предупреди за можна злоупотреба. Лошите актери можат да ги имитираат гласовите на јавни личности и „обични“ луѓе и потенцијално да извршат измама. Поради ова, OpenAI се фокусира на гласовните разговори ChatGPT и работи со одредени партнери во други случаи со ограничена употреба.

Во однос на фотографиите, OpenAI соработуваше со креаторите на апликацијата Be My Eyes, која им помага на лицата со оштетен вид подобро да се движат во околината. Ова функционира благодарение на волонтерите кои се придружуваат на видео-повиците со нив.

OpenAI го ограничи начинот на кој ChatGPT може да анализира и да дава директни тврдења за луѓето што се појавуваат на фотографиите бидејќи „тоа не е секогаш точно и овие системи мора да ја почитуваат приватноста на поединците“.

Исто така, треба да се каже дека ChatGPT разбира англиски на фотографии подобро од другите јазици, барем засега.

Во меѓувреме, Spotify се здружи со OpenAI за да користи технологија базирана на глас за интересна цел. Spotify ја претстави алатката Voice Translation, која преведува подкасти на различни јазици.

Извор: Кајгана