Në mjedise komplekse, njerëzit mund ta kuptojnë kuptimin e të folurit më mirë se AI, sepse ne përdorim jo vetëm veshët, por edhe sytë tanë.
Për shembull, ne shohim gojën e dikujt që lëviz dhe mund të dimë intuitivisht se tingulli që dëgjojmë duhet të vijë nga ai person.
Meta AI është duke punuar në një sistem të ri dialogu të AI, i cili do të mësojë AI të mësojë gjithashtu të njohë korrelacionet delikate midis asaj që sheh dhe dëgjon në një bisedë.
VisualVoice mëson në mënyrë të ngjashme me mënyrën se si njerëzit mësojnë të zotërojnë aftësi të reja, duke mundësuar ndarjen audio-vizuale të të folurit duke mësuar sinjalet vizuale dhe dëgjimore nga videot pa etiketa.
Për makinat, kjo krijon perceptim më të mirë, ndërsa perceptimi i njeriut përmirësohet.
Imagjinoni të jeni në gjendje të merrni pjesë në takimet e grupit në metaverse me kolegë nga e gjithë bota, duke u bashkuar me takimet e grupeve më të vogla ndërsa lëvizin nëpër hapësirën virtuale, gjatë së cilës tingujt dhe timbret e zërit në skenë veprojnë sipas mjedisit Rregullojeni në përputhje me rrethanat.
Kjo do të thotë, ai mund të marrë informacion audio, video dhe tekst në të njëjtën kohë, dhe ka një model më të pasur të të kuptuarit mjedisor, duke i lejuar përdoruesit të kenë një përvojë tingulli "shumë wow".
Koha e postimit: Korrik-20-2022