Google е изградила нова технология, за да задейства гласовото си търсене, което според компанията ще го направи още по-бързо и по-точно. Новата технология използва Connectionist Temporal Classification (CTC) и техники за дискриминация на последователността на обучение. През 2012 г. Google премина от Gaussian Mixture Model (GMM) към Deep Neural Networks (DNNs), което позволи на компанията да прецени по-добре кой звук създава потребител по това време и предостави повишена точност на разпознаване на речта.
Нашите подобрени акустични модели разчитат на повтарящи се невронни мрежи (RNN). RNN имат контури за обратна връзка в своята топология, което им позволява да моделират временни зависимости: когато потребителят говори / u / в предишния пример, техният артикулаторен апарат идва от / j / звук и от / m / звук преди. Опитайте да го кажете на глас - „музей“ - той протича съвсем естествено на един дъх и RNNs може да улови това. Типът RNN, използван тук, е дългосрочна краткосрочна памет (LSTM) RNN, която чрез клетките на паметта и усъвършенствания механизъм за подреждане запаметява информация по-добре от другите RNN. Приемането на такива модели вече подобри значително качеството на нашия разпознаващ.
Промяната в технологията е направена от Google и сега се използва за захранване с гласово търсене в приложението Google както на iOS и Android, така и на диктовка на устройства с Android.
Източник: Google Research Blog