Convex Analytical Training Framework от Stanford U и Google подобрява разбирането и оптимизирането на Transformers

Въпреки че забележителната сила и успех на комутационните архитектури са добре документирани от изследователската общност за машинно обучение през последните години, все още липсва литература, предоставяща строг теоретичен анализ на комутационните мрежи и обяснения на функциите, които са научили.

в новия вестник Изпъкнали трансформатори: подобряване на подобряването и разбирането на трансформаторните мрежиизследователският екип в Станфордския университет и Google Research предоставят стабилен теоретичен анализ на основните механизми на трансформаторите и въвеждат нова рамка за изпъкнало аналитично обучение за подобряване на тяхната оптимизация.

Екипът обобщава основния си принос, както следва:

  1. Ние предлагаме алтернативна формулировка на стандартния механизъм за самовнимание и изучаваме проблема със системното обучение на мрежите за внимание/превключвател с него.
  2. Ние модифицираме проблема със систематичното обучение на мрежи/адаптери за внимание с предложения слой за внимание, като по този начин сме в състояние да намерим глобално оптимално решение, без да изискваме неизпъкнали директиви за оптимизация, например нормализиране на слоя и пропускане на връзки.
  3. Ние също така прилагаме нашата изпъкнала аналитична рамка към много архитектури, например мрежи със или без FCN слой. Така можем да обясним ефекта на всеки компонент върху моделите, научени по време на обучението.
  4. Разкриваме косвен механизъм за регулиране, задействан от механизма на нашето внимание. Ние също така оценяваме тази регулация като катализатор за разпръскване между токени.
  5. Ние показваме ефективността на нашето изпъкнало преформулиране чрез различни експериментални резултати. Ние също така показваме, че нашата преформулация значително облекчава явлението хъркане, което е изследвано в скорошни научни статии (Power et al., 2022; Thilak et al., 2022).

Екипът първо предлага изпъкнала алтернатива на механизма за самовнимание на трансформаторите и преформулира тренировъчния модел като проблем с изпъкнала оптимизация. Предложеното изпъкнало преформулиране осигурява няколко предимства: позволява на изследователите глобално да оптимизират своите мрежови параметри без директиви за неизпъкнала оптимизация, придобитите функции са прозрачни и интерпретируеми и предоставя представа за структурите на получените функции и техните свойства за обобщаване.

В своите пилотни проучвания екипът сравнява предложения изпъкнал подход за обучение с модулно непараметрично обучение в среда ученик-учител с предварително обучен BERT модел и срещу стандартни комутационни мрежи с механизми за самоконтрол върху алгоритмични набори от данни. Резултатите показват, че изпъкналото обучение достига до перфектна точност на обобщение 10 пъти по-бързо от стандартното не-изпъкнало обучение и със значително по-ниски загуби при тестване.

Като цяло, тази работа предоставя добре дошъл поглед към скритите механизми на превключвателните мрежи, които екипът се надява да надгради върху последващи документи, за да постигне по-нататъшен напредък в тази важна изследователска област.

хартията Изпъкнали трансформатори: подобряване на подобряването и разбирането на трансформаторните мрежи бягане arXiv.


автор: Хеката е | редактор: Майкъл Саразин


Знаем, че не искате да пропуснете никакви новини или научни открития. Абонирайте се за нашия популярен бюлетин Глобално AI синхронизиране седмично За седмични актуализации на AI.