Site Loader

Содержание

СЕТЕВЫЕ ТРАНСФОРМАТОРЫ

   Добрый день новички, решил сегодня поговорить о трансформаторах напряжения, о принципе их работы и и области применения. Без трансформатора в электронике никак не обойтись. В бытовых приборах в основном используются понижающие трансформаторы. Все мы отлично знаем, что напряжение бытовой сети составляет 220 вольт 50 герц. С вольтажом думаю все понятно, а вот с частотой могут возникнуть вопросы. Что значит частота 50 герц? Источники переменного тока имеют определенную частоту от долей сотен килогерц и выше. Частота 50 герц означает, что электрический ток меняет свое направление и величину 50 раз за одну секунду, и сетевые трансформаторы работают именно на такой частоте. 

   Трансформатор состоит из двух обмоток: первичная — в которую подается напряжение и вторичная из которого выходит уже то напряжение, на которое расчитан трансформатор. Сетевые трансформаторы могут понижать и повышать номинал входного напряжения и силы тока.

   Сила тока зависит от диаметра вторичной обмотки трансформатора, а величина напряжения — от количества витков этой же обмотки. Обе обмотки намотаны на железном сердечке, в первичную обмотку подается напряжение, методом индукции во вторичной обмотке образуется ток. Первичная и вторичная обмотка не связаны друг с другом.

   Трансформаторы бывают разных мощностей от нескольких ватт до сотен киловатт. Трансформаторы используют повсюду для изменения величины и тока напряжения.

   Есть также импульсные источники питания, где трансформатор работает на частоте в несколько килогерц, а такую частоту обеспечивает специальный генератор который называют задающим генератором. Такие блоки питания вошли в моду в последние 10-20 лет и уже незаменимы по этой линии, применяются повсюду, в блоках питания телевизоров, компьютеров, двд проигрывателей и во многом другом.

   Такие источники питания отличаются малыми размерами большей выходной мощностью. Тут трансформатор работает тем же принципом, только вместо железного сердечника применен в основном ферромагнитный сердечик (феррит) который работает на высокой частоте, именно благодаря высокой частоте трансформатор имеет маленькие размеры, а трансформаторы с железным середечником работают на частоте 50 герц (оптимальная частота).

   Есть также трансформаторы в которых сердечник отсытствует — это трансформаторы свободных колебаний, в число таких трансформаторов входит трансформатор Теслы, более известный как катушка Теслы. 

   Трансформаторы могут иметь несколько вторичных обмоток для получения напряжения разных номиналов но суть одна — повышение или понижение начального напряжения. В данной статье не привожу расчетов и сложных формул, главное — это понять принцип действия. Спасибо за внимание — Ака.

   Форум по радиоэлементам

   Форум по обсуждению материала СЕТЕВЫЕ ТРАНСФОРМАТОРЫ





ПРОВОДНИКИ И ИЗОЛЯТОРЫ

Что такое изолятор и чем он отличается от токопроводящего материала. Занимательная теория радиоэлектроники.



СЗТТ :: силовой трансформатор ОЛ-1_25/20(35)

Скачать опросные листы на силовые трансформаторы

Скачать каталог на трансформаторы (pdf; 32 Мб)

Скачать каталог на трансформаторы ТВ (pdf; 3,5 Мб)

Скачать каталог «Трансформаторы для железных дорог» (pdf; 7,6 Мб)

 Силовые трансформаторы ОЛ-1,25/20(35)

ТУ16 — 98 ОГГ.670 121.008 ТУ

Руководства по эксплуатации

Сертификаты

Версия для печати (pdf)

Требования к оформлению заказов трансформаторов предназначенных на экспорт

Назначение

Трансформаторы предназначены для обеспечения питания цепей собственных нужд пунктов секционирования и автоматического включения резерва (АВР) электрических сетей 20 (35) кВ частоты 50 Гц.

Технические характеристики силового трансформатора ОЛ-1,25/20(35)

Наименование параметра

Значение

Класс напряжения, кВ

20

35

Частота питающей сети, Гц

50

Номинальное напряжение первичной обмотки, кВ

20

35

Номинальное напряжение вторичной обмотки, В*

100

209

220

231

Схема и группа соединения обмоток

1/1-0

1/1-0

Номинальная мощность, В∙А

1250

Ток холостого хода, %, не более

35

Потери холостого хода, Вт, не более

30

Напряжение короткого замыкания, %

4,5

Потери короткого замыкания, Вт, не более

40

Климатическое исполнение и категория размещения

УХЛ1

Масса трансформатора, кг

98

107

*Возможно изготовление с другими номинальными напряжениями по заказу

Общий вид трансформатора (чертеж)

Версия для печати (pdf)

 

Золотой Шар

ВВЕДЕНИЕ

Рост использования Ethernet для различных систем информационных технологий (IT) хорошо известен.

Ethernet позволяет компаниям использовать возможности широкой полосы пропускания для поддержки сетей будущего и обмена данными в реальном времени. Это привело к расширению интеграции трансформаторов на основе Ethernet в подключенные коммуникационные приложения, главным образом для изоляции и формирования сигнала. Высокая надежность, требуемая в системах связи, может оказаться под угрозой при передаче данных от модулей, которые имеют различные силовые характеристики. В случае сбоя в работе одного модуля могут перестать работать корректно другие подключенные устройства, что ухудшит общую производительность и надежность сети.

На производителей компонентов также лежит обязанность соответствовать текущим тенденциям технологичности производства IT-оборудования, что включает в себя: миниатюризацию, более высокие показатели производительности и показатели качества продукции. Важно, чтобы все компоненты в системе способствовали повышению уровня автоматизированного производства.

В этой статье будет представлен новый тип решения, использующего SMD сетевой трансформатор для IT-оборудования на базе Ethernet. Будет рассмотрена конструкция компонентов, технологические достижения, которые обеспечивают высококачественные характеристики преобразования сигнала в устройстве, предназначенном для полностью автоматизированного производства.

СЕТЕВОЙ ТРАНСФОРМАТОР (LAN)

Трансформатор LAN (Local Area Network — локальная сеть) — это устройство, предназначенное для связи интерфейса между приемопередатчиком физического уровня и разъемом RJ45. Типичная схема локальной сети с приемопередатчиком физического уровня показана на рисунке ниже.

Назначение сетевого трансформатора — передавать импульсные сигналы с высокой скоростью и в то же время обеспечивать изоляцию между входом и выходом. Теоретически, схема будет включать в себя импульсный трансформатор и дроссельные катушки синфазного режима, которые позволят ему передавать/ принимать сигналы, обеспечивая основные функции: связь, согласование, изоляция и фильтрация.

Традиционные сетевые трансформаторы состоят, по меньшей мере, из двух частей: импульсного трансформатора (T1) и синфазного дросселя (T2), как показано ниже на рисунке ниже.

Эти комбинированные части обеспечивают соотношение витков 1: 1 при приеме/передаче.

Традиционные сетевые трансформаторы обычно имеют сердечник тороидальной (кольцевой) формы и используются на линиях Т1 и Т2 из-за их превосходных электрических характеристик. Преимущество кольцевого сердечника состоит в том, что благодаря его симметричному сердечнику с замкнутым контуром поток рассеяния меньше, чем в трансформаторах обычного типа. Следовательно, кольцевой сердечник более эффективен и обеспечивает преимущество, заключающееся в меньшем излучении электромагнитных помех (EMI).

Традиционное изготовление сетевого трансформатора обычно использует ручной труд в процессе намотки, что может привести к увеличению производственных затрат и снижению качества. Структура традиционного сетевого трансформатора указана на рисунке ниже.

ПРЕИМУЩЕСТВА НОВЫХ SMD LAN ТРАНСФОРМАТОРОВ
Автоматизация производства и согласованность функций становятся все более важными требованиями в свете увеличении скорости и объемов передачи данных. Новые SMD LAN трансформаторы изготавливаться с использованием полностью автоматического производства, которое способствует повышению надежности компонента. Такие трансформаторы могут стать оптимальным решением.
Инновационная конструкция SMD LAN трансформатора позволяет магнитному потоку проходить через внутреннюю часть обоих сердечников, обеспечивая функциональный эквивалент тороидального сердечника. Конструкция SMD LAN трансформатора представлена на рисунке ниже.

В конструкции SMD LAN трансформатора используется передовая технология автоматической намотки для производства магнитных компонентов поверхностного монтажа, а также современная технология поверхностного монтажа, делающая компонент полностью автоматизированным производственным продуктом. SMD LAN трансформаторы могут иметь более короткие сроки производства, требуют меньше рабочей силы, лучше подходят для современных систем проектирования заказчика.

ПРЕИМУЩЕСТВА SMD LAN АРХИТЕКТУРЫ:

• Оптимизирована для систем проектирования
• Сокращает время отладки EMI и IEEE
• Экономит место на печатной плате
• Позволяет полностью заменить стандартные трансформаторы
• Позволяет полностью автоматизировать производство

РЕЗЮМЕ

Для создания современного сетевого трансформатора можно применять компоненты компании BOURNS. Повышенная технологичность и надежность, обеспечиваемые SMD LAN трансформаторами BOURNS, делают их идеальными решениями для многих приложений на рынке связи. Компания BOURNS разработала свое новое семейство SMD LAN трансформаторов, которое полностью совместимо со стандартами IEEE 802.3 / 802.3u и 802.3ab. Интегрированные опции в данных трансформаторах облегчают инженерам разработку системных решений.

Сигнальные трансформаторы BOURNS:
https://bourns.com/products/magnetic-products/transformers-signal

SMD синфазные дроссели BOURNS:
https://www.bourns.com/products/magnetic-products/chip-inductors-common-mode

Что такое трансформаторная сеть | На пути к науке о данных

источник: арсений тогулев на unsplash.

Нейронная сеть Transformer представляет собой новую архитектуру, которая направлена ​​на решение последовательных задач, с легкостью обрабатывая долгосрочные зависимости. Он был предложен в документе «Внимание — это все, что вам нужно» 2017 [1]. Это современный современный метод в области НЛП.

Прежде чем перейти непосредственно к Трансформеру, я уделю некоторое время объяснению причин, по которым мы его используем, и того, как он появляется в картине.(Если вы хотите пропустить эту часть, то сразу переходите к теме Transformer, но я предлагаю вам прочитать ее последовательно для лучшего понимания).

Итак, история начинается с RNN (рекуррентных нейронных сетей).

Что такое РНН? Чем она отличается от простой ИНС? В чем основная разница?

RNN — это нейронные сети с прямой связью, развертываемые с течением времени.

источник: кола (CC0).

В отличие от обычных нейронных сетей, RNN предназначены для приема серий входных данных с без заранее определенного ограничения на размер .«Серия», как и любой вход этой последовательности, имеет некоторую связь со своими соседями или оказывает на них некоторое влияние.

Архитектура РНН. источник: кола (CC0).

Базовые сети с прямой связью тоже «помнят» что-то, но они помнят то, чему научились во время обучения. Хотя RNN учатся аналогичным образом во время обучения, кроме того, они запоминают то, что узнали из предыдущих входных данных, при создании выходных данных.

Изображение, иллюстрирующее долгосрочные зависимости. источник: кола (CC0).

Используется в разных типах моделей-

1.) Vector-Sequence Models — Они принимают векторы фиксированного размера в качестве входных и выходных векторов любой длины, например, в подписях к изображениям изображение дается в качестве входных данных, а выходные данные описывают изображение.

2. ) Модель вектора последовательности- Возьмите вектор любого размера и выведите вектор фиксированного размера. Например. Анализ тональности фильма оценивает рецензию любого фильма как положительную или отрицательную в виде вектора фиксированного размера.

3. ) Модель «последовательность к последовательности» — Самый популярный и наиболее часто используемый вариант, входные данные принимаются в виде последовательности, а выходные данные представляются в виде другой последовательности с различными размерами. Например. Языковой перевод для данных временных рядов для прогнозирования фондового рынка.

Его недостатки-

  1. Медленно обучается.
  2. Длинная последовательность приводит к исчезающему градиенту или, скажем, к проблеме долговременных зависимостей. Проще говоря, его память не так сильна, когда дело доходит до запоминания старой связи.

Для Например, . «Облака в ____».

Очевидно, что следующим словом будет небо, так как оно связано с облаками.Здесь мы видим, что расстояние между облаками и предсказанным словом меньше, поэтому RNN может легко его предсказать.

Но, для другого примера,

«Я вырос в Германии с моими родителями, я провел много лет и хорошо знаю их культуру, поэтому я свободно говорю ____».

Здесь прогнозируемое слово — немецкий язык, который напрямую связан с Германией, но расстояние между Германией и прогнозируемым словом в этом случае больше, поэтому RNN трудно предсказать.

Итак, к сожалению, по мере того, как этот разрыв увеличивается, RNN становятся неспособными к соединению, так как их память стирается с расстоянием.

источник: кола (CC0).

Долговременная кратковременная память — Особый вид RNN, специально созданный для решения задач с исчезающим градиентом. Они способны изучать долгосрочные зависимости. Запоминание информации в течение длительного периода времени практически является их поведением по умолчанию, а не тем, чему они изо всех сил пытаются научиться!

Эта ветвь позволяет передать информацию и пропустить долгую обработку ячейки.источник: кола (CC0).

Нейроны LSTM в отличие от обычных нейронов имеют ветвь, которая позволяет передавать информацию и пропускать длительную обработку текущей ячейки, это позволяет сохранять память в течение более длительного периода времени. Это действительно улучшает ситуацию с проблемой исчезающего градиента, но не так удивительно, как если бы оно работало до 100 слов, но примерно для 1000 слов оно начинает терять свою хватку.

Но, как и простой RNN, он также очень медленно обучается или даже медленнее.

Они берут ввод последовательно один за другим, что не может полностью использовать GPU, предназначенные для параллельных вычислений.

Как мы можем распараллелить последовательные данные?? (Я вернусь к этому вопросу.)

На данный момент мы имеем дело с двумя проблемами: вопрос о том, на какой части ввода мы должны сосредоточиться.

Я собираюсь объяснить внимание несколько иначе. Возьмем ситуацию-

Предположим, кто-то дал нам книгу по машинному обучению и попросил нас предоставить информацию о категориальной кросс-энтропии.Есть два способа сделать это: во-первых, прочитать всю книгу и вернуться с ответом. Во-вторых, перейдите к указателю, найдите главу «потери», перейдите к части кросс-энтропии и прочитайте часть «Категорная кросс-энтропия».

Как вы думаете, какой метод быстрее?

Как и в первом способе, на прочтение всей книги может уйти целая неделя. В то время как во-вторых, это вряд ли займет 5 минут. Кроме того, наша информация из первого метода будет более расплывчатой ​​и разнообразной, поскольку она основана на слишком большом количестве информации, в то время как информация из второго метода будет точной в соответствии с требованиями.

Что мы здесь сделали по-другому?

В первом случае мы не сосредотачивались конкретно на какой-либо части книги, тогда как во втором случае мы сосредоточили наше внимание на главе о потерях, а затем сосредоточили наше внимание на кросс-энтропийной части, где концепция Категориальная перекрестная энтропия объяснена. На самом деле, именно так поступает большинство из нас, людей.

Внимание в нейронных сетях чем-то похоже на то, что мы находим у людей. Они фокусируются на высоком разрешении в определенных частях входных данных, в то время как остальная часть входных данных имеет низкое разрешение [2].

Допустим, мы делаем NMT (нейронный машинный переводчик),

Посмотрите на эту анимацию, она показывает, как работает простая модель последовательностей.

Работа классической модели Seq-to-Seq. источник: jalammar’s (CC BY-NC-SA 4.0).

Мы видим, что для каждого шага кодера или декодера RNN обрабатывает свои входные данные и генерирует выходные данные для этого временного шага. На каждом временном шаге RNN обновляет свое скрытое состояние на основе входных данных и предыдущих выходных данных, которые он видел. В анимации мы видим, что скрытое состояние на самом деле представляет собой контекстный вектор , который мы передаем декодеру.

Время «Внимание» .

Контекстный вектор оказался проблематичным для этих типов моделей. У моделей проблемы с длинными предложениями. Или сказать, что они столкнулись с проблемой исчезающего градиента в длинных предложениях. Итак, решение пришло в статье [2], Внимание было введено. Это значительно улучшило качество машинного перевода, поскольку позволяет модели сосредоточиться на соответствующей части входной последовательности по мере необходимости.

Работа модели Seq-to-Seq с вниманием.источник: jalammar’s (CC BY-NC-SA 4.0).

Эта модель внимания отличается от классической последовательной модели двумя способами:

  • По сравнению с простой последовательной моделью здесь кодировщик передает гораздо больше данных декодеру. Если раньше в декодер посылалось только последнее, окончательное скрытое состояние кодирующей части, то теперь кодировщик передает в декодер все скрытые состояния (даже промежуточные).
  • Часть декодера выполняет дополнительный шаг, прежде чем производить вывод.Объясняется ниже-

Последний шаг декодеров выполняется следующим образом-

  1. Он проверяет каждое полученное скрытое состояние, поскольку каждое скрытое состояние кодировщика в основном связано с конкретным словом входного предложения.
  2. Я даю оценку каждому скрытому состоянию.
  3. Затем каждый балл умножается на соответствующий балл softmax, таким образом усиливая скрытые состояния с высокими баллами и заглушая скрытые состояния с низкими баллами. (обратитесь к изображению ниже для четкой визуализации.)
источник: jalammar’s (CC BY-NC-SA 4.0).

Это упражнение по оценке выполняется на каждом временном шаге на стороне декодера.

Теперь, когда мы собираем все это вместе:

  1. Уровень декодера внимания принимает встраивание токена и начальное скрытое состояние декодера, RNN обрабатывает его ввод и создает вывод и новый вектор скрытого состояния. (h5).
  2. Теперь мы используем скрытые состояния кодировщика и вектор h5 для вычисления вектора контекста C4 для этого временного шага.Именно здесь применяется концепция внимания, поэтому она называется шагом внимания.
  3. Объединяем (h5) и C4 в один вектор.
  4. Теперь этот вектор передается в нейронную сеть с прямой связью, выход нейронных сетей с прямой связью указывает выходное слово этого временного шага.
  5. Эти шаги повторяются для следующих временных шагов. (См. слайд ниже для четкой визуализации.)
Последний шаг. источник: jalammar’s (CC BY-NC-SA 4.0).

Итак, вот как работает Внимание .

Напр. Работа внимания в задаче с субтитрами к изображениям:-

Работа с вниманием в задаче с субтитрами к изображениям. источник: CodeEmporium (CC0).

Теперь вспомните вопрос, который я задавал ранее:

Как мы можем распараллелить последовательные данные??

Итак, вот и наши боеприпасы-

Статья под названием «Внимание — это все, что вам нужно» , опубликованная в 2017 году, представляет архитектуру кодировщика-декодера, основанную на уровнях внимания, называемых преобразователем. .

Основное отличие состоит в том, что входная последовательность может передаваться параллельно, что позволяет эффективно использовать графический процессор, а также можно увеличить скорость обучения. И он основан на многоголовом слое внимания, проблема исчезающего градиента также преодолевается с большим отрывом. Статья основана на применении трансформатора в NMT (нейронном машинном переводчике).

Итак, здесь обе наши проблемы, о которых мы говорили ранее, здесь до некоторой степени решены.

Как, например, в переводчике, состоящем из простых RNN, мы непрерывно вводим нашу последовательность или предложение, по одному слову за раз, чтобы генерировать вложения слов.Поскольку каждое слово зависит от предыдущего слова, его скрытое состояние действует соответствующим образом, поэтому необходимо выполнять по одному шагу за раз. В то время как в трансформере это не так, мы можем передать все слова предложения одновременно и определить вложение слова одновременно. Итак, как это работает на самом деле, посмотрим дальше —

источник: arXiv:1706.03762 [cs.CL].

1. Блок энкодера —

источник: arXiv:1706.03762 [cs.CL].

Это факт, что компьютеры не понимают слов, они работают с числами, векторами или матрицами. Итак, нам нужно преобразовать наши слова в вектор. Но как это возможно. Итак, здесь появляется концепция Embedding Space . Это похоже на открытое пространство или словарь, где слова с похожими значениями сгруппированы вместе или расположены близко друг к другу в этом пространстве. Это пространство называется пространством вложения, и здесь каждое слово, в соответствии с его значением, отображается и ему присваивается определенное значение. Итак, здесь мы конвертируем наши слова в векторы.

источник: arXiv:1706.03762 [cs.кл.].

Но еще одна проблема, с которой мы столкнемся, заключается в том, что каждое слово в разных предложениях имеет разные значения. Итак, для решения этой проблемы воспользуемся помощью позиционных энкодеров . Это вектор, который дает контекст в соответствии с положением слова в предложении.

Word → Встраивание → Позиционное встраивание → Конечный вектор, называемый контекстом.

Итак, наш ввод готов, теперь он поступает в блок энкодера.

Multi-Head Attention Part —

источник: arXiv:1706.03762 [cs.CL].

Теперь начинается основная суть трансформера, «Самовнимание».

Он фокусируется на том, насколько релевантно конкретное слово по отношению к другим словам в этом предложении. Он представлен в виде вектора внимания. Для каждого слова мы можем сгенерировать вектор внимания, который фиксирует контекстную связь между словами в этом предложении. Источник

: CodeEmporium (CC0).

Единственная проблема, с которой оно сталкивается, состоит в том, что для каждого слова оно имеет гораздо большую ценность в предложении, даже если мы склонны к его взаимодействию с другими словами этого предложения.Итак, мы определяем несколько векторов внимания для каждого слова и берем средневзвешенное значение, чтобы вычислить окончательный вектор внимания для каждого слова. Источник

: CodeEmporium (CC0).

Поскольку мы используем несколько векторов внимания, он называется многоголовым блоком внимания .

Сеть прямого распространения —

источник: arXiv:1706.03762 [cs.CL].

Теперь второй шаг — нейронная сеть с прямой связью. Это простая нейронная сеть с прямой связью, которая применяется к каждому вектору внимания. Ее основная цель — преобразовать векторы внимания в форму, приемлемую для следующего уровня кодировщика или декодера.

источник: arXiv:1706.03762 [cs.CL].

Сеть прямого распространения принимает векторы внимания «по одному». И самое лучшее здесь то, что в отличие от RNN, здесь каждый из этих векторов внимания на независимы друг от друга на . Итак, здесь можно применить распараллеливание , и в этом вся разница .

Выход энкодера. источник: arXiv:1706.03762 [cs.CL].

Теперь мы можем передавать все слова одновременно в блок кодировщика и одновременно получать набор кодированных векторов для каждого слова.

2. Блок декодера —

источник: arXiv:1706.03762 [cs.CL].

Теперь, как если бы мы обучали переводчика с английского на французский язык, поэтому для обучения нам нужно дать английское предложение вместе с его переведенным французским предложением для обучения модели. Итак, наши английские предложения проходят через блок кодировщика, а французские предложения проходят через блок декодера.

источник: arXiv:1706.03762 [cs.CL].

Сначала у нас есть слой внедрения и часть позиционного кодировщика, которая изменяет слова в соответствующие векторы. Это похоже на то, что мы видели в части кодировщика.

Многоголовая часть для внимания в маске —

источник: arXiv:1706.03762 [cs.CL].

Теперь он пройдет через блок самоконтроля, где для каждого слова во французских предложениях генерируются векторы внимания, показывающие, насколько каждое слово связано с каждым словом в том же предложении. (Точно так же, как мы видели в части кодировщика).

Но этот блок называется Маскированный многоголовый блок внимания , и я объясню простым языком-

Для этого нам нужно знать, как работает механизм обучения.Во-первых, мы даем английское слово, оно само переведет свою французскую версию , используя предыдущие результаты, затем оно будет соответствовать и сравниваться с фактическим французским переводом (который мы загрузили в блок декодера). После сравнения обоих он обновит значение своей матрицы. Вот как он научится после нескольких итераций.

Мы наблюдаем, что нам нужно скрыть следующее французское слово, чтобы сначала оно само предсказывало следующее слово, используя предыдущие результаты, не зная реального переведенного слова.Для того, чтобы обучение состоялось, не будет никакого смысла, если оно уже знает следующее французское слово. Поэтому нам нужно его скрыть (замаскировать).

Это пример англо-французского перевода. источник: CodeEmporium (CC0).

Мы можем взять любое слово из английского предложения, но для заучивания мы можем взять только предыдущее слово из французского предложения. Итак, выполняя распараллеливание с матричной операцией, мы убеждаемся, что матрица должна маскировать слов, появляющихся позже, путем преобразования их в 0, чтобы сеть внимания не могла их использовать.

источник: arXiv:1706.03762 [cs.CL].

Теперь результирующие векторы внимания из предыдущего уровня и векторы из блока кодировщика передаются в другой блок внимания с несколькими головками . ( в этой части также появляются результаты от блока энкодера. На диаграмме также ясно видно, что сюда поступают результаты от блоков энкодера. ). Вот почему он называется Encoder-Decoder Attention Block .

Поскольку у нас есть один вектор каждого слова для каждого английского и французского предложения.Этот блок фактически выполняет сопоставление английских и французских слов и определяет связь между ними. Итак, это та часть, где происходит основное сопоставление английских и французских слов.

Результатом этого блока являются векторы внимания для каждого слова в английских и французских предложениях. Каждый вектор представляет связь с другими словами на обоих языках .

источник: arXiv:1706.03762 [cs.CL].

Теперь мы передаем каждый вектор внимания в блок прямой связи, он формирует выходные векторы во что-то, что легко принимается другим блоком декодера или линейным слоем.

Линейный слой — это еще один слой прямой связи. Он используется для расширения размеров до количества слов на французском языке после перевода.

Теперь он проходит через уровень Softmax, который преобразует ввод в вероятностное распределение, которое человек может интерпретировать.

И полученное слово получается с наибольшей вероятностью после перевода.

Ниже приведен пример, который был проиллюстрирован в блоге Google AI [6] , я поместил его здесь для справки.

Обзор — Работа трансформаторной сети. источник: Google AI (CC0).

Преобразователь начинает с создания начальных представлений или вложений для каждого слова. Они представлены незакрашенными кружками. Затем, используя само-внимание, он собирает информацию из всех других слов, создавая новое представление для каждого слова, основанное на всем контексте, представленном закрашенными шариками. Затем этот шаг повторяется несколько раз параллельно для всех слов, последовательно создавая новые представления.

Декодер работает аналогично, но генерирует по одному слову слева направо. Он обращает внимание не только на другие ранее сгенерированные слова, но и на окончательные представления, сгенерированные кодировщиком.

Итак, вот как работает преобразователь, и теперь это самая современная техника в НЛП. Он дает замечательные результаты, используя механизм самоконтроля , а также решает проблему распараллеливания. Даже Google использует BERT , который использует преобразователь для предварительной подготовки моделей для распространенных приложений НЛП.

Основы Network Protector: применение, эксплуатация и тестирование

В этом руководстве описаны основные процедуры эксплуатации и обслуживания Network Protector. Фото: TestGuy.

Сетевые системы

обычно используются в больницах, высотных офисных зданиях и учреждениях, где требуется высокая степень надежности обслуживания. В сетевой системе несколько коммунальных служб соединены параллельно во вторичных обмотках трансформатора, что создает надежную и универсальную систему.

В распределительных сетях часто используются два или более трансформатора, питаемых от разных фидеров высокого напряжения. Трансформаторы подключаются через сетевые устройства защиты к общей шине коллектора, а нагрузка обслуживается кабелями или шинами от шины коллектора.

Наиболее важными элементами системы электропитания переменного тока являются сетевой трансформатор и устройство защиты сети. Эти устройства обеспечивают автоматическую работу для надежного обслуживания нагрузок, локализации неисправностей и равномерного распределения мощности по нескольким первичным цепям.

Условия использования сети

Вторичные сети обслуживают нагрузки с высокой плотностью (например, центральные районы), имеют несколько первичных фидеров, имеют вторичные линии, соединенные в сетку для надежности, и чаще всего имеют сетевое напряжение 216/125 вольт.

3 Пример системы распределения электроэнергии фидерной сети. Фото: EATON

Точечные сети относятся к одному месту (например, большому административному зданию) с трансформатором и устройством защиты сети, расположенным рядом с определенной нагрузкой.Спотовые сети имеют напряжение 480/277 вольт.

Пример системы распределения электроэнергии точечной сети. Фото: EATON


Содержимое

  1. Сетевые трансформаторы
  2. Сетевые протекторы
  3. Релейная защита NWP
  4. Кабельные ограничители
  5. Токоограничивающие предохранители
  6. Тестирование и техническое обслуживание Network Protector

1. Сетевые трансформаторы

Специальные распределительные трансформаторы используются в сетевых системах, построенных с учетом уникальных требований к применению, таких как вентиляция, физический размер, способность к погружению и устойчивость к короткому замыканию.Сетевые трансформаторы обычно доступны в размерах до 2500 кВА, причем наиболее распространенный размер составляет 500 кВА.

Точечные сетевые трансформаторы. Фото: TestGuy.

Сетевые трансформаторы изготавливаются в нескольких исполнениях для установки в подземных хранилищах, на настиле или внутри зданий. Обычно они заполнены маслом или могут использовать биоразлагаемую или синтетическую негорючую жидкость в качестве изолирующей и охлаждающей среды.

Внутренний выключатель предназначен для отключения трансформатора при техническом обслуживании или осмотре, а также может использоваться для заземления первичного кабеля при выполнении работ на блоке.Выключатели сетевого трансформатора управляются вручную и обычно включают блокировку для предотвращения неправильной работы при включенной цепи.

Сетевые трансформаторы изготавливаются в нескольких исполнениях для установки в подземных хранилищах, на настиле или внутри зданий. Фото: Richards Mfg.

Сетевые системы могут обслуживать территорию с потребностью в кВА до 40 000 кВА. В г. Нью-Йорке отдельные сети могут обеспечивать еще большую нагрузку, в некоторых случаях до 250 000 кВА.


2. Сетевые протекторы

Устройство защиты сети (NWP) подключается между клеммами вторичной обмотки сетевого трансформатора и системой вторичной сети. Этот блок соединяет источник питания (сетевой трансформатор) с нагрузкой (сетевой системой) и отключает эти элементы, когда их роли меняются местами.

Большинство отказов можно устранить без прерывания обслуживания какой-либо нагрузки на шине коллектора. Думайте о сетевых устройствах защиты как о специально разработанных автоматических выключателях, используемых для изоляции неисправностей трансформатора, которые поступают обратно через систему низкого напряжения.

Устройство защиты сети (NWP) подключается между клеммами вторичной обмотки сетевого трансформатора и системой вторичной сети. Фото: EATON

Устройство защиты сети состоит из воздушного автоматического выключателя низкого напряжения и связанного с ним защитного реле как единый блок. Силовые предохранители могут быть включены для дополнительной защиты и рассчитаны на первичные неисправности, которые не изолированы автоматическим выключателем защиты сети.

Средство защиты сети предназначено для автоматической изоляции сети при возникновении сбоя в основной системе.Например, при повреждении первичного фидера автоматический выключатель, расположенный выше по потоку, сработает, чтобы разомкнуть первичный фидер, и оба трансформатора, подключенные к поврежденному фидеру, затем будут запитаны от вторичной сети.

Реле NWP обнаружит это как условие обратного питания и автоматически разомкнет устройство защиты сети, чтобы локализовать неисправность. Обслуживание всех нагрузок будет продолжаться бесперебойно за счет оставшихся четырех трансформаторов и энергосистемы.

Сетевой предохранитель состоит из трансформатора, низковольтного воздушного выключателя и связанного с ним защитного реле в виде интегрированного блока.Фото: TestGuy

Устройство защиты сети, расположенное на вторичной обмотке трансформатора, предназначено для защиты системы от повреждений первичной обмотки или внутренних повреждений трансформатора. Устройство защиты не предназначено для срабатывания при вторичных неисправностях.

Сетевые трансформаторы должны быть спроектированы таким образом, чтобы выдерживать перегрузки, вызванные такими событиями, и иметь размеры, обеспечивающие дополнительную мощность при удалении других трансформаторов в сети. Неисправность в устройстве защиты сети или во вторичной обмотке трансформатора является наиболее опасным типом неисправности с точки зрения работы устройства защиты сети.

Неисправность вторичной системы будет устранена вторичными предохранителями, ограничителями вторичного кабеля или самим кабелем. Выключатели первичного фидера не сработают, равно как и устройства защиты сети не сработают при возникновении вторичного КЗ.

Предохранители сети доступны в погружных или непогружных (вентилируемых) корпусах. Погружной корпус обеспечивает защиту закрытого механизма от затопления и повреждения водой.

Корпус непогружной представляет собой пыленепроницаемый стальной кожух, обеспечивающий защиту закрытого механизма от пыли и грязи.Оба типа защиты крепятся болтами непосредственно к баку сетевого трансформатора. В некоторых случаях сетевой протектор может быть установлен на стене в хранилище или расположен на отдельной раме в хранилище.

Устройство защиты сети имеет ручку управления с тремя рабочими положениями: «автоматический», «открыто» и «закрыто». Автоматическое положение можно считать нормальным положением рукоятки, так как оно позволяет реле управлять работой предохранителя.

Не рекомендуется вводить Network Protector в эксплуатацию с использованием режима ЗАКРЫТИЯ внешнего дескриптора.Устройство защиты должно быть установлено в положение AUTO, чтобы защитное реле могло управлять действиями выключателя.


3. Релейная защита NWP

Реле NWP обнаружит обратное питание и автоматически разомкнет сетевой предохранитель, чтобы локализовать неисправность. Фото: Ричардс/ETI

Сетевые протекторы

можно рассматривать как 2-позиционный вторичный переключатель с возможностью распознавания направления потока энергии через него. Сетевой протектор автоматически открывается, когда нагрузка на сеть снижается, и автоматически закрывается, когда нагрузка на сеть увеличивается с помощью реле.

Релейная система выполняет две основные функции. Один из них — размыкание цепи, а другой — повторное замыкание цепи. Цепь отключения определяет ток, подаваемый из сети на ее фидеры. Если реле обнаружит ток, протекающий из сети в трансформатор, оно разомкнет сетевой предохранитель.

Цепь повторного включения (или главное реле) контролирует выходное напряжение трансформатора и сравнивает его с напряжением сети.

  • Если напряжение сети выше выходного напряжения трансформатора, схема повторного включения не срабатывает.
  • Если напряжение в сетевой системе ниже выходного напряжения трансформатора, сработает схема повторного включения и включит сетевой трансформатор в общую нагрузку.

Разность напряжений между трансформатором и сетью обычно составляет от 1 до 3 вольт. Когда реле увидит эту заданную разницу напряжений, оно либо снова закроет, либо разомкнет предохранитель.

В некоторых конкретных схемах реле напряжение и ток также должны быть в фазе, чтобы эта операция имела место.Реле фазировки следит за тем, когда напряжение сетевого трансформатора опережает напряжение сети на заданную величину. Его цель состоит в том, чтобы получить операцию повторного включения только тогда, когда и сравнение напряжения, и сравнение фаз находятся в пределах заданных диапазонов.


4. Ограничители кабеля

Для обеспечения вторичной защиты сетевых систем с более высоким напряжением коммунальные предприятия обычно устанавливают устройства, известные как кабельные ограничители. Эти устройства состоят из медной трубки с элементом уменьшенного сечения, предназначенного для работы аналогично предохранителю.

Ограничительный элемент заключен в специальный корпус и вставлен в каждый конец вторичных основных кабелей. Размер кабельного ограничителя рассчитан на срабатывание при повреждении кабеля в конкретном участке вторичной сети, который он защищает.

Важно отметить, что кабельный ограничитель — это не то же самое, что токоограничивающий предохранитель. Фото: Richards Mfg.

Использование кабельных ограничителей во вторичной сети показано на рисунке выше. Два ограничителя, защищающие неисправную секцию, сработают, чтобы изолировать неисправность.Обратите внимание, что все соседние кабельные ограничители будут воспринимать гораздо меньший уровень тока и не будут работать.

Кабельные ограничители срабатывают достаточно быстро, чтобы предотвратить повреждение изоляции кабеля. Достаточно большая неисправность приведет к срабатыванию ограничителя задолго до того, как будет нанесено какое-либо повреждение изоляции кабеля.

Ограничители терминов связаны с их способностью ограничивать ущерб из-за неисправности. Ограничитель можно рассматривать как жертвенный элемент, предотвращающий масштабное повреждение другого оборудования.


5. Токоограничивающие предохранители

Вместе с сетевыми предохранителями также могут быть установлены силовые предохранители

. В этом типе применения размер токоограничивающего предохранителя должен быть рассчитан на перегорание при значительных повреждениях вторичной шины.

Токоограничивающие предохранители действуют очень быстро и фактически ограничивают допустимую величину тока короткого замыкания. Важно отметить, что кабельный ограничитель — это не то же самое, что токоограничивающий предохранитель.

Вторичная защита спотовой сети.Фото: Richards Mfg.

В примере сбоя шины, показанном на рисунке выше, перегорают все три ограничительных предохранителя, защищая систему от повреждения.


6. Тестирование и техническое обслуживание Network Protector

Перед вводом сетевого протектора в эксплуатацию его следует протестировать. Технический осмотр и плановые испытания проводятся в течение года в зависимости от условий эксплуатации и требований к надежности обслуживания.

Сетевые трансформаторы

заслуживают такого же отношения, когда речь идет о тестировании и обслуживании, однако для целей этой статьи раздел тестирования будет посвящен только самому блоку защиты сети.

Связанный: Диагностика и оценка состояния трансформатора

ПРЕДУПРЕЖДЕНИЕ. Проверка защитных устройств сети подразумевает работу с работающими высоковольтными системами, которые могут привести к серьезной травме или смерти. Только обученный и квалифицированный испытательный персонал должен проводить техническое обслуживание в полевых условиях, информация, представленная в этом руководстве, предназначена только для справки.

Визуальный/механический осмотр

Общие процедуры проверки устройств защиты сети включают оценку общего физического и механического состояния устройства.Данные паспортной таблички следует сравнивать с проектными чертежами и спецификациями при приемочных испытаниях.

Осмотрите установку устройства защиты сети, включая крепление, выравнивание и заземление. Убедитесь, что устройство чистое, а дугогасительные камеры не повреждены.

Связанный: Методы очистки для профилактического обслуживания электрооборудования

Подвижные и неподвижные контакты следует проверить на состояние и выравнивание. Протирка первичных и вторичных контактов и другие размеры, необходимые для удовлетворительной работы устройства защиты сети, должны быть проверены на правильность.

Проверка механического привода и выравнивания контактов должна выполняться как на устройстве защиты сети, так и на его рабочем механизме. Болтовые электрические соединения следует проверить на наличие высокого сопротивления с помощью низкоомного омметра (DLRO), инфракрасной камеры или калиброванного динамометрического ключа.

Проверьте посадку и выравнивание ячейки сетевого протектора. Работа скатного механизма должна быть плавной и легко включаться, проверьте наличие соответствующей смазки на движущихся токоведущих частях, а также на движущихся и скользящих поверхностях.

Погружные корпуса должны быть проверены на герметичность с использованием методов, рекомендованных изготовителем устройства. Счетчик операций должен увеличиваться на одну цифру за цикл закрытия-открытия, а показания должны регистрироваться как найденные, так и оставшиеся после тестирования.

Электрические испытания

Выполните тест на контактное/полюсное сопротивление и проверьте другие болтовые электрические соединения, используя DLRO, где это применимо. В большинстве случаев достаточно испытательного тока 10 А. Измерьте сопротивление каждого силового предохранителя.

Исследуйте значения, которые отличаются от значений аналогичных болтовых соединений более чем на 50 процентов от наименьшего значения. Исследуйте сопротивление предохранителя, которое отклоняется более чем на 15 процентов.

Испытания сопротивления изоляции выполняются в течение одной минуты на каждом полюсе, между фазами и между фазой и землей при закрытом устройстве защиты сети, а также на каждом разомкнутом полюсе. Напряжение следует применять, используя значения, указанные в литературе производителей, или используйте таблицу NETA Table 100.1 в качестве замены.

Проверка сопротивления изоляции — это необязательная проверка всей проводки управления по отношению к земле. Стандарты NETA требуют, чтобы приложенный потенциал составлял 500 вольт постоянного тока для кабеля с номинальным напряжением 300 вольт и 1000 вольт постоянного тока для кабеля с номинальным напряжением 600 вольт. Продолжительность испытания составляет одну минуту, исследуются значения менее двух МОм.

Для устройств с полупроводниковыми компонентами следуйте рекомендациям производителей, так как испытательное напряжение может повредить эти компоненты.

Тесты реле и управления NWP

В качестве предварительного условия для испытаний реле защиты необходимо проверить правильность любых соответствующих коэффициентов трансформации напряжения и/или тока и полярности.

Связанный: 6 объяснений электрических испытаний трансформаторов тока

Напряжение повторного включения При открытом защитном устройстве сети и в автоматическом режиме запишите напряжение, при котором защитное устройство сети закрывается при +60 градусах (это начальное напряжение). Повторите тест при -60 градусах (это напряжение запаздывания) и 0 градусов (настройка главного реле).

Обратный ток При закрытом устройстве защиты сети и в автоматическом режиме запишите ток, при котором устройство защиты сети открывается.Полученное показание тока является уставкой обратного тока главного реле.

Связанный: Обзор проверки и обслуживания реле защиты

Убедитесь, что двигатель может заряжать закрывающий механизм при минимальном напряжении, указанном производителем блока. Минимальное рабочее напряжение двигателя закрывающего механизма должно быть не более 75 процентов от номинального напряжения цепи управления.

Минимальное напряжение срабатывания реле управления электродвигателем должно соответствовать спецификациям производителей устройства, но не должно превышать 75 процентов от номинального напряжения цепи управления в соответствии со стандартами NETA.

Необходимо проверить минимальное напряжение срабатывания исполнительного механизма отключения и проверить работоспособность сброса исполнительного механизма. Минимальное напряжение срабатывания привода отключения не должно превышать 75 процентов от номинального напряжения цепи управления в соответствии со стандартами NETA.


Каталожные номера

Комментарии

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Регулируемый трансформатор локальной сети

Управляемый трансформатор локальной сети (ront) представляет собой специальный трансформатор, расположенный в трансформаторной подстанции, предназначенный для передачи электрического напряжения от сети среднего напряжения к сети низкого напряжения (обычно 230/400 вольт в Европе) используется трансформируемое (локальная сеть) более низкое напряжение.По сравнению с обычными неуправляемыми трансформаторами в трансформаторных подстанциях он может изменять коэффициент трансформации во время работы и, таким образом, обеспечивать, например, повышенную подачу солнечной энергии без неприемлемого роста или падения напряжения в сети.

Основы

Трансформатор локальной сети регулируемый Группа переключателей регулируемого трансформатора локальной сети

Работа сети с неравномерным спросом и генерацией и различными потоками нагрузки в транспортной сети вызывают колебания напряжения.Чтобы компенсировать колебания, более крупные силовые трансформаторы, которые питают уровень среднего напряжения, работающий с напряжением 10-20 кВ, от уровня распределительной сети 110 кВ на подчиненных подстанциях, обычно оснащаются переключателями ответвлений под нагрузкой. Таким образом, даже при колебаниях напряжения в высоковольтной сети на соединения конечных пользователей может подаваться приблизительно постоянное напряжение.

Допустимые колебания напряжения

При строительстве существующих распределительных сетей предполагалось, что энергия будет вырабатываться почти исключительно на центральных электростанциях.Децентрализованная подача электроэнергии в слаботочные сети практически не играла роли. С растущим распространением возобновляемых источников энергии в рамках энергетического перехода все больше и больше электроэнергии подается непосредственно в сеть низкого напряжения, например, из фотоэлектрических или биогазовых систем. Если не принять меры противодействия, это может привести к недопустимо высоким линейным напряжениям у потребителя, так как мгновенные значения напряжения должны быть выше получаемых от электросети на ввод.

Стандарт DIN EN 50160 допускает колебания напряжения на стороне нагрузки в пределах ± 10 % от номинального напряжения. При однофазных подключениях в домохозяйствах допустимый диапазон напряжения составляет 207-253 В, а при трехфазном переменном токе 360-440 В.

от сети среднего напряжения к сети низкого напряжения часть максимально допустимого диапазона колебаний должна быть «зарезервирована» в пределах допустимого диапазона, т.е.грамм. Б. для подачи электрической энергии в сеть среднего напряжения. Согласно действующему правилу применения FNN «Системы генерации в сети низкого напряжения» (VDE-AR-N 4105), на практике напряжение может увеличиваться не более чем на 3% из-за питания низкого напряжения. И наоборот, падение напряжения, возникающее в сети низкого напряжения, может составлять не более 5 %, даже при большом спросе на электроэнергию, так как часть допустимых 10 % должна сохраняться и для сети среднего напряжения. , Например.Всегда следует исходить из наихудшего случая — поэтому предполагается, что падение напряжения не компенсируется подачей среднего или низкого напряжения и наоборот.

При превышении указанных диапазонов колебаний, например, при подаче большого количества электроэнергии от фотогальванических систем, операторы обычных распределительных сетей ранее были вынуждены принимать дорогостоящие меры по расширению сети.

Принцип действия

Управляемый трансформатор локальной сети отделяет напряжение в сети низкого напряжения от напряжения в сети среднего напряжения посредством коэффициента трансформации, который можно изменять во время работы.На стороне низкого напряжения он всегда обеспечивает постоянное напряжение, независимо от колебаний в сети среднего напряжения. При предполагаемом гистерезисе 4 % и максимально допустимом падении напряжения в сети низкого напряжения, неизменном на уровне 5 %, мощность, подаваемая на стороне низкого напряжения, может вызвать повышение напряжения до 11 % (от номинального напряжения). 230/400 В), так как теперь можно использовать весь диапазон колебаний 20% (± 10%). Во многих случаях это означает, что можно обойтись без дорогостоящей новой прокладки слаботочных линий.

технический состав

Управляемый трансформатор локальной сети состоит из собственно трансформатора, устройства для измерения напряжения в сети среднего и низкого напряжения и устройства РПН. Таким образом, по своим основным функциям он подобен обычному силовому трансформатору, который можно найти на каждой подстанции. Однако из-за значительно более низкого напряжения размеры значительно меньше, так что RONT обычно можно встроить в существующие трансформаторные подстанции.Устройства РПН устанавливаются на стороне среднего напряжения и в основном выполняются как вакуумные выключатели. По сравнению с масляными выключателями вакуумные выключатели имеют то преимущество, что требуют меньше обслуживания. Измерительные точки для измерения напряжения могут быть установлены не только непосредственно на RONT, но и в особо ответственных точках в пределах поставляемой низковольтной сети.

источники

Commercial Engineering Co. Сетевой трансформатор (в правительственном здании рядом с Висконсин-авеню, темп №8) — пленка промежуточная рулонная

Библиотека Конгресса не владеет правами на материалы в своих коллекциях. Поэтому он не лицензирует и не взимает плату за разрешение на использование такого материала и не может предоставлять или отказывать в разрешении на публикацию или иное распространение материала.

В конечном счете, исследователь обязан оценить авторские права или другие ограничения на использование и получить разрешение от третьих лиц, когда это необходимо, прежде чем публиковать или иным образом распространять материалы, найденные в коллекциях Библиотеки.

Информацию о воспроизведении, публикации и цитировании материалов из этой коллекции, а также о доступе к оригинальным материалам см. в: Коллекция Теодора Горыдчака – Информация о правах и ограничениях

  • Консультант по правам : Публикация может быть ограничена. Для получения информации см.: «Коллекция Теодора Горыдчака» https://hdl.loc.gov/loc.pnp/res.100.hory.
  • Репродукционный номер : LC-H814-T-2567-001 (промежуточный)
  • Номер телефона : LC-H814- ​​2567-001 [P&P]
  • Информация о доступе : —

Получение копий

Если отображается изображение, вы можете загрузить его самостоятельно.(Некоторые изображения отображаются только в виде эскизов за пределами Библиотеке Конгресса из соображений прав, но у вас есть доступ к изображениям большего размера на сайт.)

Кроме того, вы можете приобрести копии различных типов через Услуги тиражирования Библиотеки Конгресса.

  1. Если отображается цифровое изображение: Качество цифрового изображения частично зависит от того, был ли он сделан из оригинала или промежуточного звена, такого как копия негатива или прозрачность.Если поле «Репродукционный номер» выше включает репродукционный номер, начинающийся с LC-DIG…, то есть цифровое изображение, которое было сделано непосредственно с оригинала и имеет достаточное разрешение для большинства целей публикации.
  2. Если есть информация, указанная в поле «Репродукционный номер» выше: Вы можете использовать репродукционный номер для покупки копии в Duplication Services. Это будет сделано из источника, указанного в скобках после номера.

    Если в списке указаны только черно-белые («ч/б») источники и вам нужна копия, показывающая цвета или оттенка (при условии, что они есть у оригинала), обычно можно приобрести качественную копию оригинал в цвете, указав номер телефона, указанный выше, включая каталог запись («Об этом элементе») с вашим запросом.

  3. Если в поле Номер репродукции выше нет информации: Как правило, вы можете приобрести качественную копию через Duplication Services.Назовите номер телефона перечисленных выше, и включите запись каталога («Об этом элементе») в свой запрос.

Прайс-листы, контактная информация и формы заказа доступны на Веб-сайт службы дублирования.

Доступ к оригиналам

Пожалуйста, выполните следующие шаги, чтобы определить, нужно ли вам заполнять квитанцию ​​о звонке в разделе «Распечатки». и читальный зал фотографий, чтобы просмотреть исходные предметы. В некоторых случаях используется суррогатное изображение (замещающее изображение). доступны, часто в виде цифрового изображения, копии или микрофильма.

  1. Элемент оцифрован? (Эскиз (маленькое) изображение будет видно слева.)

    • Да, товар оцифрован. Пожалуйста, используйте цифровое изображение вместо того, чтобы запрашивать оригинал. Все изображения могут быть просматривать в большом размере, когда вы находитесь в любом читальном зале Библиотеки Конгресса. В некоторых случаях доступны только эскизы (маленьких) изображений, когда вы находитесь вне Библиотеки Конгресс, потому что права на предмет ограничены или не были оценены на предмет прав ограничения.
      В качестве меры по сохранению мы, как правило, не обслуживаем оригинальный товар, когда цифровое изображение доступен. Если у вас есть веская причина посмотреть оригинал, проконсультируйтесь со ссылкой библиотекарь. (Иногда оригинал просто слишком хрупок, чтобы служить. Например, стекло и пленочные фотонегативы особенно подвержены повреждениям. Их также легче увидеть онлайн, где они представлены в виде положительных изображений.)
    • Нет, элемент не оцифрован. Перейдите к #2.
  2. Указывают ли вышеприведенные поля Access Advisory или Call Number, что существует нецифровой суррогат, например, микрофильмы или копии?

    • Да, другой суррогат существует. Справочный персонал может направить вас к этому суррогат.
    • Нет, другого суррогата не существует. Перейдите к #3.
  3. Если вы не видите уменьшенное изображение или ссылку на другой суррогат, пожалуйста, заполните бланк вызова в читальный зал эстампов и фотографий. Во многих случаях оригиналы могут быть доставлены в течение нескольких минут. Другие материалы требуют назначения на более позднее время в тот же день или в будущем. Справочный персонал может проконсультировать вас как по заполнению бланка заказа, так и по срокам подачи товара.

Чтобы связаться со справочным персоналом в читальном зале эстампов и фотографий, воспользуйтесь нашим Спросите библиотекаря или позвоните в читальный зал между 8:30 и 5:00 по номеру 202-707-6394 и нажмите 3.

Произошла ошибка при настройке пользовательского файла cookie

Этот сайт использует файлы cookie для повышения производительности. Если ваш браузер не принимает файлы cookie, вы не можете просматривать этот сайт.


Настройка браузера для приема файлов cookie

Существует множество причин, по которым файл cookie не может быть установлен правильно.Ниже приведены наиболее распространенные причины:

  • В вашем браузере отключены файлы cookie. Вам необходимо сбросить настройки браузера, чтобы принять файлы cookie, или спросить вас, хотите ли вы принимать файлы cookie.
  • Ваш браузер спрашивает, хотите ли вы принимать файлы cookie, и вы отказались. Чтобы принять файлы cookie с этого сайта, нажмите кнопку «Назад» и примите файл cookie.
  • Ваш браузер не поддерживает файлы cookie. Попробуйте другой браузер, если вы подозреваете это.
  • Дата на вашем компьютере в прошлом.Если часы вашего компьютера показывают дату до 1 января 1970 г., браузер автоматически забудет файл cookie. Чтобы это исправить, установите правильное время и дату на своем компьютере.
  • Вы установили приложение, которое отслеживает или блокирует установку файлов cookie. Вы должны отключить приложение при входе в систему или проконсультироваться с системным администратором.

Почему этому сайту требуются файлы cookie?

Этот сайт использует файлы cookie для повышения производительности, запоминая, что вы вошли в систему, когда переходите со страницы на страницу.Предоставить доступ без файлов cookie потребует от сайта создания нового сеанса для каждой посещаемой вами страницы, что замедляет работу системы до неприемлемого уровня.


Что сохраняется в файле cookie?

Этот сайт не хранит ничего, кроме автоматически сгенерированного идентификатора сеанса в файле cookie; никакая другая информация не фиксируется.

Как правило, в файле cookie может храниться только та информация, которую вы предоставляете, или выбор, который вы делаете при посещении веб-сайта.Например, сайт не может определить ваше имя электронной почты, если вы не решите ввести его. Разрешение веб-сайту создавать файлы cookie не дает этому или любому другому сайту доступ к остальной части вашего компьютера, и только сайт, создавший файл cookie, может его прочитать.

Трансформеры — это Графовые Нейронные Сети

Мои друзья-инженеры часто спрашивают меня: глубокое обучение на графах — это здорово, но есть ли реальные приложения?

В то время как графовые нейронные сети используются в системах рекомендаций в Pinterest, Alibaba и Twitter, более тонкая история успеха — это архитектура Transformer , которая штурмом покорила мир НЛП.В этом посте я хочу установить связь между графовыми нейронными сетями (GNN) и трансформерами. Я расскажу об интуиции, лежащей в основе архитектур моделей в сообществах NLP и GNN, установим связи с помощью уравнений и рисунков и обсужу, как мы можем работать вместе, чтобы добиться будущего прогресса. Начнем с разговора о назначении архитектур моделей — представлении, обучении .


Обучение представлению для НЛП

На высоком уровне все архитектуры нейронных сетей создают представления входных данных в виде векторов/вложений, которые кодируют полезную статистическую и семантическую информацию о данных.Затем эти скрытых или скрытых представлений можно использовать для чего-то полезного, например, для классификации изображения или перевода предложения. Нейронная сеть обучает строить все более и более лучшие представления, получая обратную связь, обычно через функции ошибок/потери.

Для обработки естественного языка (NLP), условно, Рекуррентные нейронные сети (RNN) последовательно строят представления каждого слова в предложении, i.е. , по одному слову . Интуитивно мы можем представить слой RNN как конвейерную ленту, на которой слова обрабатываются авторегрессивно слева направо. В конце концов, мы получаем скрытую функцию для каждого слова в предложении, которую мы передаем на следующий уровень RNN или используем для наших задач НЛП по выбору.

Я очень рекомендую легендарный блог Криса Олаха, где можно найти обзоры RNN и обучения репрезентациям для НЛП.

Первоначально представленные для машинного перевода, Преобразователи постепенно заменили RNN в основном НЛП.Архитектура использует новый подход к обучению репрезентации: полностью отказываясь от повторения, трансформеры создают характеристики каждого слова, используя механизм внимания, чтобы выяснить, насколько важны все остальные слова в предложении. к упомянутому слову. Зная это, обновленные характеристики слова представляют собой просто сумму линейных преобразований характеристик всех слов, взвешенных по их важности.

Еще в 2017 году эта идея звучала очень радикально, потому что сообщество НЛП привыкло к последовательному стилю обработки текста по одному слову с помощью RNN.{\ell}$ — обучаемые линейные веса (обозначающие Q uery, K ey и V alue для вычисления внимания, соответственно).{\ell}$ по слоям.

Множественные головки позволяют механизму внимания по существу «подстраховывать свои ставки», просматривая различные преобразования или аспекты скрытых функций из предыдущего уровня. Мы поговорим об этом позже.


Проблемы масштабирования

Ключевая проблема, определяющая окончательную архитектуру Transformer, заключается в том, что функции для слов после механизма внимания могут иметь различных масштабов или величин . Это может быть связано с тем, что некоторые слова имеют очень резкие или очень распределенные веса внимания $w_{ij}$ при суммировании признаков других слов.{\ell+1}$ с широким диапазоном значений.
Следуя общепринятому мнению машинного обучения, кажется разумным добавить в конвейер уровень нормализации.

Преобразователи

преодолевают проблему (2) с помощью LayerNorm , который нормализует и изучает аффинное преобразование на уровне функций. Кроме того, масштабирование скалярного произведения внимания на квадратный корень из измерения функции помогает противодействовать проблеме (1).

Наконец, авторы предлагают еще один «трюк» для решения проблемы масштаба: позиционный двухслойный MLP со специальной структурой.{\ell+1} \right) \right) \right)
$$

Честно говоря, я не уверен, какова точная интуиция, стоящая за чрезмерно параметризованным подуровнем прямой связи. Я предполагаю, что LayerNorm и масштабированные скалярные произведения не полностью решили выделенные проблемы, поэтому большой MLP — это своего рода хак для повторного масштабирования векторов признаков независимо друг от друга. По словам Яннеса Мюнхмайера, подуровень прямой связи гарантирует, что Преобразователь является универсальным аппроксиматором. Таким образом, проецирование в пространство очень высокой размерности, применение нелинейности и повторное проецирование в исходное измерение позволяет модели представлять больше функций, чем сохранение одного и того же измерения в скрытом слое.


Окончательное изображение слоя Transformer выглядит так:

Архитектура Transformer также очень хорошо подходит для очень глубоких сетей, позволяя сообществу НЛП масштабировать до с точки зрения как параметров модели, так и, соответственно, данных.
Остаточные соединения между входами и выходами каждого подуровня внимания с несколькими головками и подуровня прямой связи являются ключевыми для наложения слоев преобразователя (но не показаны на схеме для ясности).


GNN строят представления графов

Давайте на мгновение отвлечемся от НЛП.

Нейронные сети графов (GNN) или сверточные сети графов (GCN) создают представления узлов и ребер в данных графа. Они делают это с помощью агрегации соседей (или передачи сообщений), где каждый узел собирает признаки от своих соседей, чтобы обновить свое представление локальной структуры графа вокруг него. Объединение нескольких слоев GNN позволяет модели распространять характеристики каждого узла по всему графу — от его соседей к соседям соседей и так далее.{\ell}$ — обучаемые весовые матрицы слоя GNN, а $\sigma$ — нелинейная функция, такая как ReLU. В примере $\mathcal{N}$(😆) $=$ { 😘, 😎, 😜, 🤩}.

Суммирование по узлам окрестности $j \in \mathcal{N}(i)$ может быть заменено другими входными функциями агрегирования, не зависящими от размера, такими как простое среднее/макс. или что-то более мощное, например, взвешенная сумма через механизм внимания .

Звучит знакомо? Может пайплайн поможет сделать подключение:

Если бы мы выполнили несколько параллельных головок агрегации соседей и заменили бы суммирование по соседям $j$ механизмом внимания, т.е.е., взвешенная сумма, мы получим Graph Attention Network (GAT) . Добавьте нормализацию и MLP с прямой связью, и вуаля, у нас есть Graph Transformer !


Предложения представляют собой полносвязные графы слов

Чтобы сделать связь более явной, рассмотрим предложение как полносвязный граф, где каждое слово связано с каждым другим словом. Теперь мы можем использовать GNN для построения функций для каждого узла (слова) в графе (предложении), с которыми мы затем можем выполнять задачи НЛП.

В общих чертах это то, чем занимаются Трансформеры: они представляют собой GNN с многоголовым вниманием в качестве функции агрегации соседства. В то время как стандартные GNN агрегируют признаки из своих узлов локального соседства $j \in \mathcal{N}(i)$, преобразователи для НЛП рассматривают все предложение $\mathcal{S}$ как локальное соседство, агрегируя признаки из каждого слова $j \in \mathcal{S}$ на каждом слое.

Важно отметить, что различные хитрости для конкретных задач, такие как кодирование позиций, причинно-следственная/маскированная агрегация, графики скорости обучения и расширенное предварительное обучение, необходимы для успеха Transformers, но редко появляются в сообществе GNN.В то же время взгляд на Transformers с точки зрения GNN может вдохновить нас на то, чтобы избавиться от множества наворотов в архитектуре.


Являются ли предложения полносвязными графами?

Теперь, когда мы установили связь между Трансформерами и GNN, позвольте мне высказать несколько идей. Во-первых, являются ли полносвязные графы лучшим форматом ввода для НЛП?

До статистического НЛП и МО такие лингвисты, как Ноам Хомский, сосредоточились на разработке формальных теорий лингвистической структуры, таких как синтаксических деревьев/графов .Древовидные LSTM уже пробовали это, но, может быть, Transformers/GNN являются лучшими архитектурами для объединения двух миров лингвистической теории и статистического НЛП? Например, совсем недавняя работа MILA и Стэнфорда посвящена дополнению предварительно обученных преобразователей, таких как BERT, синтаксическими деревьями [Sachan et al., 2020].

Источник: Википедия

Долгосрочные зависимости

Еще одна проблема с полносвязными графами заключается в том, что они затрудняют изучение очень долговременных зависимостей между словами .2$ пар слов. Ситуация выходит из-под контроля из-за очень больших $n$.

Точка зрения сообщества НЛП на проблему длинных последовательностей и зависимостей интересна: сделать механизм внимания разреженным или адаптивным с точки зрения размера входных данных, добавить повторение или сжатие в каждый слой и использовать хеширование с учетом местоположения для эффективного внимания — все это многообещающие новые идеи для лучше трансформеры. См. отличный обзор Мэддисона Мэя о долгосрочном контексте в «Трансформерах» для получения более подробной информации.

Было бы интересно увидеть идеи от сообщества GNN, добавленные в смесь, e.грамм. , Двоичное разбиение для предложения Разрежение графа кажется еще одним захватывающим подходом. BP-преобразователи рекурсивно делят предложения на два, пока не смогут построить иерархическое двоичное дерево из токенов предложений. Это структурное индуктивное смещение помогает модели обрабатывать более длинные текстовые последовательности с эффективным использованием памяти.

Источник: Ye et al., 2019

Изучают ли трансформеры

нейронный синтаксис ?

Сообщество НЛП опубликовало несколько интересных статей о том, чему могут научиться трансформеры.Основная предпосылка заключается в том, что сосредоточение внимания на всех парах слов в предложении — с целью определения наиболее интересных пар — позволяет трансформерам выучить что-то вроде синтаксиса для конкретной задачи . Различные головы в многоголовом внимании также могут «смотреть» на разные синтаксические свойства.

С точки зрения графа, используя GNN на полных графах, можем ли мы восстановить наиболее важные ребра — и что они могут повлечь за собой — из того, как GNN выполняет агрегацию соседей на каждом уровне? Я еще не настолько убежден в этой точке зрения.

Источник: Clark et al., 2019

Зачем привлекать внимание одновременно? Почему внимание?

Я больше симпатизирую взгляду на оптимизацию механизма с несколькими головками — наличие нескольких головок внимания улучшает обучение и преодолевает плохих случайных инициализаций . Например, эти документы показали, что головки Transformer можно «обрезать» или удалить после обучения без существенного влияния на производительность.

Механизмы агрегации соседства с несколькими головками также доказали свою эффективность в GNN, e.грамм. , GAT использует то же внимание с несколькими головками, а MoNet использует несколько ядер Gaussian для агрегирования признаков. Хотя трюк с несколькими головами был изобретен для стабилизации механизмов внимания, может ли он стать стандартом для выжимания дополнительной производительности модели?

И наоборот, GNN с более простыми функциями агрегирования, такими как сумма или максимум, не требуют нескольких головок агрегирования для стабильного обучения. Разве не было бы лучше для Трансформеров, если бы нам не приходилось вычислять попарную совместимость между каждой парой слов в предложении?

Могут ли Трансформеры полностью отказаться от внимания? Недавняя работа Янна Дофина и его сотрудников предлагает альтернативную архитектуру ConvNet .Трансформеры тоже могут в конечном итоге делать что-то похожее на ConvNets!

Источник: Ву и др., 2019 г.

Чтение новых документов Transformer заставляет меня чувствовать, что для обучения этих моделей требуется что-то вроде черной магии при определении наилучшего графика скорости обучения , стратегии прогрева и настроек затухания . Это может быть просто потому, что модели такие огромные, а изучаемые задачи НЛП такие сложные.

Но недавние результаты показывают, что это также может быть связано со специфической перестановкой нормализации и остаточных соединений в архитектуре.

Мне понравилось читать новую статью @DeepMind Transformer, но почему обучение этих моделей представляет собой черную магию? «Для словесного LM мы использовали 16 000 шагов разогрева с 500 000 шагов затухания и пожертвовали 9 000 коз». 2020

Я знаю, что разглагольствую, но это вызывает у меня скептицизм: действительно ли нам нужны несколько глав дорогостоящего парного внимания, чрезмерно параметризованные подуровни MLP и сложные графики обучения? Действительно ли нам нужны массивные модели с огромным углеродным следом? Разве архитектуры с хорошим индуктивным смещением для поставленной задачи не должны быть легче обучаемыми?


Дополнительная литература

Чтобы глубже погрузиться в архитектуру Transformer с точки зрения NLP, ознакомьтесь с этими замечательными сообщениями в блогах: The Illustrated Transformer и The Annotated Transformer.

Кроме того, этот блог не первый, кто связывает GNN и Transformers. Вот отличный доклад Артура Шлама об истории и связи между сетями внимания/памяти, GNN и трансформерами. Точно так же звездный позиционный документ DeepMind представляет структуру Graph Networks , объединяющую все эти идеи. Для ознакомления с кодом у команды DGL есть хороший учебник по seq2seq как проблеме с графом и построению Transformers как GNN.


Заключительные замечания

Сообщение первоначально появилось на веб-сайте лаборатории глубокого обучения NTU Graph и на Medium, а также было переведено на китайский и русский языки.Присоединяйтесь к обсуждению в Twitter, Reddit или HackerNews!

Трансформаторы являются частным случаем графовых нейронных сетей. Для некоторых это может быть очевидно, но следующая запись в блоге хорошо объясняет эти важные концепции. https://t.co/H8LT2F7LqC

— Oriol Vinyals (@OriolVinyalsML) 29 февраля 2020 г.

Биография автора

Чайтанья К. Джоши — инженер-исследователь в A*STAR, Сингапур, работает над Graph Neural Сети и их приложения для ускорения научных открытий.Он получил степень бакалавра технических наук в NTU, Сингапур, в 2019 году и ранее был научным сотрудником у доктора Ксавье Брессона. Его работа была представлена ​​на ведущих площадках по машинному обучению, включая NeurIPS, ICLR и INFORMS.

Цитирование
Для указания авторства в академических контекстах или книгах, пожалуйста, указывайте эту работу как

Чайтанья К. Джоши, «Трансформеры — графовые нейронные сети», The Gradient, 2020.

Цитата BibTeX:

@article{joshi2020transformers,
автор = {Джоши, Чайтанья},
title = {Трансформеры — это графовые нейронные сети},
журнал = {Градиент},
year = {2020},
howpublished = {\url{https: //градиент.pub/transformers-are-gaph-neural-networks/ } },
}


Если вам понравилась эта статья и вы хотите услышать больше, подпишитесь на Gradient и следите за нами в Twitter.

Языковые модели глубокой нейронной сети на основе трансформеров для оценки риска болезни Альцгеймера по целевой речи | BMC Medical Informatics and Decision Making

В этом исследовании наиболее сложной проблемой при разработке методов распознавания пациентов с болезнью Альцгеймера по расшифровке речи является отсутствие большого набора данных.В настоящее время самым большим доступным набором данных является корпус Питта из набора данных DementiaBank, который содержит 500 интервью с описанием изображений из AD и контрольных групп. По указанной причине большая часть более ранних работ была основана на функциях, разработанных экспертами, поскольку было невозможно использовать модели, способные самостоятельно обучаться информативным функциям. В этом исследовании мы используем идею использования предварительно обученной языковой модели для решения этой проблемы. Кроме того, методы увеличения данных также используются для решения проблемы небольшого набора данных.Наша реализация этих идей описана далее.

Рис. 1

Процедура общей классификации. Процедура классификации состоит из этапов увеличения, разделения, встраивания, классификации и голосования, где увеличение используется только на этапе обучения. Также при передаче всей стенограммы на слой встраивания отключаются слои разделения и голосования. Подчеркнутые модели здесь являются обучаемыми, а остальные фиксированными3

Средняя 10-кратная точность классификации при перекрестной проверке, частота истинно положительных и истинно отрицательных результатов

Общая структура классификации

Общий процесс классификации обобщен на рис. 1. Процесс состоит из пяти уровней. Каждый слой использует выходные данные предыдущего слоя в качестве входных данных. Слой дополнений обогащает набор данных методами, которые будут представлены в разд. «Пополнение набора данных». Обратите внимание, что этот слой будет отключен на этапе тестирования. Разделительный слой является необязательным и выбирает, хотим ли мы обрабатывать весь текст сразу или разбить его на предложения (и указать окончательный результат, агрегируя результаты по предложениям).Его можно отключить, установив функцию идентификации, когда мы собираемся работать со всей расшифровкой. Уровень внедрения встраивает каждый входной элемент (т. е. всю расшифровку или предложение) в многомерный вектор представления, а слой классификатора предсказывает метку каждого встроенного ввода. Фактически, слой классификатора узнает, какие (и в какой степени) функции, которые предлагает BERT (или другие встроенные программы), подходят для прогнозирования болезни Альцгеймера. Наконец, если слой классификатора выводит несколько меток (что может случиться при работе с предложениями), голосующий принимает окончательное решение, используя механизм голосования по большинству.Многоуровневая архитектура значительно упрощает объединение различных настроек и понимание конечной модели.

В нашей реализации слои аугментера и встраивания обучаются вне рамок классификации и используются только там. Поэтому при наличии предварительно обученного слоя встраивания обучение и вывод будут выполняться очень быстро. Подробности о том, как обучать эти слои, объясняются в следующих разделах.

В этом исследовании, в зависимости от использования разделительного слоя, реализованы два различных подхода к классификации транскриптов.При первом подходе вся расшифровка передается модулю для внедрения, а затем встроенная расшифровка классифицируется напрямую. В этом подходе (далее мы будем называть его подходом текстового уровня) слои разделителя и избирателя отключены. При втором подходе стенограмма сначала разбивается на предложения, а затем эти предложения встраиваются и впоследствии классифицируются. Наконец, метка всей стенограммы определяется большинством голосов по меткам всех предложений в стенограмме.Второй подход (с этого момента мы будем называть его подходом на уровне предложений) более совместим с предварительно обученными модулями встраивания, поскольку они в основном предварительно обучены на входных данных из одного или двух предложений.

Предварительно обученная модель глубокого языка

Модель, определяющая распределение вероятности по последовательности слов, называется языковой моделью. Если вычислительная модель хочет реализовать языковую модель, необходимо хорошо понимать синтаксическую и семантическую структуры этого языка.Следовательно, использование модели, которая уже изучила вероятностное распределение, которое коррелирует с этими структурами для классификации, снижает потребность в больших наборах данных для конкретных целей. Перенос знаний с одной модели на другую с аналогичной целью называется трансферным обучением. Мы используем языковые модели на основе трансформеров, которые в последние годы сделали прорыв во многих задачах понимания языка [32]. Общий процесс использования предварительно обученной языковой модели для классификации состоит из трех этапов:

  1. . 1

    Неконтролируемое обучение общей языковой модели на большом наборе данных (таком как Викитекст).

  2. 2

    Неконтролируемая точная настройка предварительно обученной языковой модели в целевом наборе данных (например, расшифровки описания изображения Cookie-Theft).

  3. 3

    Использование (с контролируемой тонкой настройкой или без нее) предварительно обученной языковой модели для задачи классификации.

Для решения проблем, с которыми сталкиваются рекуррентные модели, таких как проблема кратковременной памяти и проблемы, связанные с распараллеливанием обучения, Vaswani et al. [33] представили преобразователи, которые состоят из экстремального использования механизма внимания, лежащего в основе многих моделей НЛП. В статье утверждается, что механизм внимания позволяет модели сосредотачиваться на определенных частях текста для принятия решения. Эта функциональность делает механизм внимания полезным для моделирования биомаркеров, связанных с AD.

Аль-Рфу и др. [34] впервые использовали преобразователи в качестве основных элементов модели языка на уровне символов. После этого Дай и др. [35] расширили модель, используя относительное позиционное кодирование и повторение на уровне сегментов. В качестве поворотного момента в языковых моделях на основе преобразователей мы можем обратиться к модели двунаправленных представлений кодировщика из преобразователей (BERT), предложенной Devlin et al. [36] в Google. На этапе обучения входное предложение маскируется, что означает, что 15% токенов заменяются токеном [MASK], и модель пытается изучить такое представление или встраивание для контекста, который учитывает как синтаксис, так и семантику, чтобы предсказать замаскированный токен. используя контекст.С другой стороны, на этапе тестирования модель принимает необработанное предложение с одного или нескольких языков и возвращает 768- или 1024-мерное векторное представление входного текста, которое будет использоваться в качестве входных данных для других классификаторов, таких как LR, MLP, и т. д. Расширенная версия BERT для задач понимания многоязычного языка была представлена ​​Conneau et al. [37], называемой межъязыковой языковой моделью (XLM), которая выигрывает от использования модели переведенного языка (TLM), а также модели маскированного языка (MLM).В отличие от BERT, XLM берет два связанных замаскированных предложения из двух разных языков и пытается предсказать замаскированные токены, используя входные предложения того же и другого языка. Это позволяет XLM лучше понимать многоязычные тексты. Кроме того, BERT страдает от несоответствия фаз обучения и тестирования и независимого прогнозирования замаскированных токенов. Чтобы исправить это, Yang et al. [38] представили модель расширенной большой сети (XLNet), основанную на языковой модели под названием Permutation Language Model.

Использование многоязычных моделей предлагает практическое решение проблемы отсутствия большого набора данных на многих языках.Поскольку существует ограниченный набор текстовых данных от пациентов с болезнью Альцгеймера на многих языках, обучение многоязычной модели на исходном языке (на котором доступны такие большие наборы данных) и применение ее для получения выводов на целевом языке может предложить ценное решение. С другой стороны, ряд языковых особенностей, которые вводят специалисты, либо специфичны для конкретного языка, либо их реализация может различаться в разных языках. Использование многоязычных моделей также может снизить потребность в такой передаче экспертных функций между различными языками.

В текущем исследовании мы используем предварительно обученные BERT, XLNet и XLM в качестве глубоких сетей для встраивания текста, которые преобразуют необработанные стенограммы/предложения участников в 768- или 1024-мерные векторы. Точнее, чтобы использовать эти языковые модели для уровня внедрения, описанного в разд. «Общая структура классификации», вся расшифровка (в подходе на уровне текста) или предложение (в подходе на уровне предложения) передаются в модель, а затем последний уровень встраивания токена [CLS] рассматривается как вложение всего ввода.Модели внедрения (которые используются в этом исследовании в качестве уровня внедрения) проходят только через этапы 1 и 3 процесса, описанного ранее в этом разделе. Причина этого в том, что используемого набора данных недостаточно для неконтролируемой точной настройки (языковых моделей в целевом наборе данных) даже при использовании обширных методов дополнения. На практике использование тонкой настройки без учителя, скорее всего, окажет минимальное влияние на общую производительность модели, используемой в текущем исследовании (влияние этой функции на результаты реализованной модели с наилучшей производительностью представлено в разд.«Результаты оценки»). На первом этапе все модели встраивания предварительно обучаются на упомянутом в основной статье корпусе, а их реализация берется из библиотеки трансформеров HuggingFace [39].

Расширение набора данных

Другим подходом к преодолению отсутствия доступа к большому количеству входных данных для обучения является расширение набора данных, что означает увеличение количества помеченных выборок набора данных с использованием некоторых вероятностных или даже эвристических алгоритмов. Например, слово «красивый» в таком предложении, как «Какая красивая машина!» можно заменить словом «милый» без существенного изменения смысла предложения.Аугментация в НЛП может выполняться на разных уровнях лингвистических единиц, и в этом исследовании для обогащения набора данных используются аугментации на уровне слов и предложений. Наиболее важной проблемой дополнения в задаче классификации текста является сохранение класса текста во время дополнения. Например, вероятностная модель может заменить «красивый» на «грязный» в упомянутом предложении, что грамматически и семантически правильно, но изменяет категорию предложения.В этом исследовании использовались два общих подхода к аугментации, которые описаны ниже.

Увеличение замещения похожих слов

В этом подходе сначала необходимо определить меру сходства. Наиболее очевидным определением подобия слов является отношение синонимов, которое впервые было использовано в области глубокого обучения Zhang et al. [40] с использованием базы данных WordNet [41]. Другой распространенной мерой сходства является обратная величина евклидова расстояния или косинусного сходства между вложениями слов, которая впервые была использована Wang et al.[42]. В упомянутых методах нет гарантии правильности грамматики в выходном предложении. Также возможно, что категория выходного предложения изменится путем увеличения. Например, одним из маркеров болезни Альцгеймера является сокращение словарного запаса, используемого в разговоре, поэтому замена простого слова, такого как «Вкусный» , его сложным синонимом, таким как «Вкусный» , может изменить категорию предложения с пациента на здоровым и ввести в заблуждение классификатор.Другой метод, который учитывает грамматическую правильность вместе с контекстом предложения, был введен Кобаяши [43] и называется контекстуальным дополнением. В методе контекстной аугментации существует языковая модель, которая принимает как контекст слова (то есть предложение, содержащее слово), так и категорию всего предложения и возвращает вероятностное распределение по всему словарному запасу. Увеличение выполняется путем выборки из возвращенного распределения вероятностей. Кобаяши [43] обучил двунаправленную языковую модель LSTM с помощью этого подхода, а Wu et al.[44] усовершенствовали подход, используя BERT в качестве базовой модели.

В данном исследовании оценивались все упомянутые методы, а реализация выполнялась с использованием библиотеки NLPAug [45], за исключением контекстной аугментации, для которой использовался выпущенный код авторов [43].

Расширение удаления предложения

Еще один специальный подход, который не меняет категорию предложения, а также сохраняет грамматическую правильность, — это удаление предложения. При таком подходе из расшифровки удаляется одно предложение, и ожидается, что на выходе останется действительная расшифровка в той же категории.Хотя можно утверждать, что метка может быть изменена за счет уменьшения длины текста, учитывая результаты использования или неиспользования этой идеи, целесообразно использовать ее в моделях, обрабатывающих весь текст сразу (а не предложение за предложением). ).

Базовые модели

В этом исследовании, в дополнение к моделям на основе преобразователя, в качестве базовых моделей также оценивались двунаправленные LSTM и сверточные нейронные сети поверх встраивания слов GloVe, чтобы проиллюстрировать преимущества предварительно обученного глубокого языка на основе преобразователя. модели по сравнению с обычными глубокими моделями.В этих моделях в качестве входных данных используется весь стенограмма. Причина такого решения в том, что, в отличие от предварительно обученных моделей, на текстах из одного предложения (максимум двух предложений) предварительное обучение не проводится, и, следовательно, их обучение необходимо проводить с самого начала. Поэтому разбиение стенограммы на предложения не улучшит производительность этих моделей. В модели CNN каждый транскрипт (усеченный или дополненный до T слов) преобразуется в последовательность встроенных слов. Затем последовательность передается в ряд сложенных слоев свертки и максимального объединения, за которыми следуют полностью связанные слои и, наконец, сигмовидный выходной слой, который дает P ( AD | расшифровка ).Кроме того, в двунаправленной модели LSTM встроенная последовательность слов передается в ряд расположенных друг над другом прямых и обратных ячеек LSTM, за которыми следуют полносвязные слои и сигмовидный выходной слой аналогичным образом. Структурно, если мы продвигаемся вперед в слоях CNN, модель пытается вывести больше семантических признаков, используя пространственно близкие признаки в предыдущем слое. Но в модели LSTM, учитывающей дальнодействующие зависимости, делается попытка изучить новые составные признаки из признаков всех предыдущих шагов (или из признаков всей последовательности в двунаправленном LSTM).Основная слабость этой модели — игнорирование отдаленных признаков (пространственно) для создания новых составных признаков. В обеих этих моделях отсутствует механизм внимания.

Экспериментальная установка

В этом разделе мы описываем наши реализованные методы и их соответствующие настройки на этапах обучения и оценки.

Реализованные методы

Для каждого слоя общей структуры было несколько вариантов, из которых были реализованы следующие.Для слоя расширения были реализованы подстановка синонимов и контекстное дополнение, а также специальное увеличение удаления предложений. Как реализовано Кобаяши и соавт. [43], соответствующая языковая модель, используемая в контекстной аугментации, представляла собой одноуровневый двунаправленный LSTM. Для слоя разделителя в дополнение к функции идентификации был реализован разделитель предложений для подхода на уровне предложений. Для предварительно обученного слоя внедрения были исследованы BERT (базовый и большой), XLNet (базовый и большой), XLM и последовательность встраивания слов GloVe (50-мерная версия).Для слоя классификатора были исследованы логистическая регрессия, нейронная сеть с одним скрытым слоем, однослойный двунаправленный LSTM и трехслойный CNN. Наконец, для уровня избирателя, в дополнение к функции идентификации, было реализовано голосование большинством и одноуровневый двунаправленный LSTM для подхода на уровне предложений. Хотя были реализованы различные комбинации уровней, в разд. «Результаты оценки».

Настройки обучения

Для контекстной аугментации, реализованной Kobayashi et al.[43] использовалась функция кросс-энтропийных потерь и оптимизатор Адама.

alexxlab

Добавить комментарий

Ваш адрес email не будет опубликован.