
Në mjedise komplekse, njerëzit mund të kuptojnë kuptimin e të folurit më mirë se AI, sepse ne përdorim jo vetëm veshët, por edhe sytë tanë.
Për shembull, ne shohim gojën e dikujt duke lëvizur dhe mund të dinë intuitivisht se tingulli që dëgjojmë duhet të vijë nga ai person.
Meta AI është duke punuar në një sistem të ri dialogu AI, i cili do të thotë të mësojë AI gjithashtu të mësojë të njohë korrelacione delikate midis asaj që sheh dhe dëgjon në një bisedë.
VisualVoice mëson në një mënyrë të ngjashme me atë se si njerëzit mësojnë të zotërojnë aftësi të reja, duke mundësuar ndarjen audio-vizuale të të folurit duke mësuar shenja vizuale dhe dëgjimore nga videot e pa tabelave.
Për makinat, kjo krijon një perceptim më të mirë, ndërsa perceptimi njerëzor përmirësohet.
Imagjinoni të jeni në gjendje të merrni pjesë në takime në grupe në MetAVerse me kolegë nga e gjithë bota, duke u bashkuar me takime të grupeve më të vogla ndërsa ata lëvizin nëpër hapësirën virtuale, gjatë së cilës tingulli reverbs dhe timbres në skenë bëjnë sipas mjedisit rregullon në përputhje me rrethanat.
Kjo do të thotë, ai mund të marrë informacione audio, video dhe tekst në të njëjtën kohë, dhe ka një model më të pasur të kuptimit mjedisor, duke lejuar përdoruesit të kenë një përvojë të shëndoshë "shumë wow".
Koha e postimit: Korrik-20-2022