Transformerとは、2017年に発表された"Attention Is All You Need"という自然言語処理に関する論文の中で初めて登場した深層学習モデルです。それまで主流だったCNN、RNNを用いたエンコーダ・デコーダモデルとは違い、エンコーダとデコーダをAttentionというモデルのみで結んだネットワークアーキテクチャです。
それによって、機械翻訳タスクにおいて
Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,Łukasz Kaiser,Illia Polosukhin 2017 Attention Is All You Need 3 より画像の引用
上図では、左半分がエンコーダ、右半分がデコーダを表しており、例えば、英語の文章を日本語の文章に翻訳させたい場合、エンコーダに英語の1文(I like apples)を入力します。
論文(Conformer: Convolution-augmented Transformer for Speech Recognition)から引用
◆T5(Text-to-Text Transfer Transformer)
T5は、2020年にGoogleが発表した、Transformerのモデル構造やパラメータなどを見直し、より活用しやすく、精度を高めたテキスト生成モデルです。大きな特徴として、どんな入力に対しても回答をテキスト形式で返す点があげられます。
◆PaLM
PaLMは2022年4月にGoogleの研究者らが発表したモデルです。標準的なTransformerモデルを元に、有効性があるとされている改善がいくつかなされています。論理推論問題では、答えへの道筋を言語化してアウトプットとして出すChain of thoughtsという手法を使い性能向上に成功しています。他にも幅広い言語タスクで性能向上に成功しています。
PaLMはPathways language Modelの略であり、Pathwaysとは複数のTPU Podにまたがった計算を効率的に実行するシステムです。パイプライン並列化に頼ることなく大量のデバイス間で非同期にデータを送受信・更新することで効率化に成功しています。
論文(PaLM: Scaling Language Modeling with Pathways)から引用
自然言語処理にはMasked word completion with BERTやName Entity Recognition、コンピュータービジョンにはImage classification with ViTやObject Detection with DETRといった豊富な種類のモデルを利用することができます。
論文(Deep Transformer Models for Time Series Forecasting:The Influenza Prevalence Case)では、週単位の地域別インフルエンザ様疾患(Influenza-like Illnesses:ILI)比率を予測するため、Transformerが活用されています。基本的な構成はTransformerと同様です。
論文(Deep Transformer Models for Time Series Forecasting:The Influenza Prevalence Case)から引用。
論文(MUSIC TRANSFORMER: GENERATING MUSIC WITH LONG-TERM STRUCTURE)では、時系列の音データを入力に、Transformerによって音楽を創造するチャレンジも行われています。処理パフォーマンスの面で課題はありますが、将来的に音楽生成ツールとしてTransformerが活躍することが期待されます。
[物体検出]
論文(End-to-End Object Detection with Transformers)では、CNNで画像を処理したあとにTransformer構造に渡すことで、物体検出をより簡単に学習する手法が紹介されています。小さい物体に対しての検出力はまだ高くないようですが、自然言語処理以外でもTransformerは多くの分野で活躍する可能性のあるモデルだといえるでしょう。
◆Reformer(軽量化されたTransformer)の事例
論文(REFORMER: THE EFFICIENT TRANSFORMER)では、100万語のテキストを16GBで処理することができると紹介されています。
また、Google Colaboratoryに英語の自動生成のための環境が揃っており、また、日本語の文章を学習させると日本語文の自動生成が可能です。
◆Comformer(CNNとTransformerを組み合わせたもの)の事例
Conformerが発表されたこちらの論文(Conformer: Convolution-augmented Transformer for Speech Recognition)では「LibriSpeech」という自動音声認識用コーパスでのベンチマークが、それ以前のTransformerとCNNを用いた最新のモデルよりも高い精度を出したということが紹介されています。
また、論文(Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition)ではConformerとラベル付きのデータを用いたことで音声認識タスクの精度が向上したということが示されています。半教師あり学習を行う目的としては、大量のデータに対してラベルをつけて教師あり学習を行うのはかなりの労力を必要とするので、ラベルのついてない大量のデータセットを使用することで、教師ありのタスクの性能向上を支援するところにあります。論文の中では、半教師付き学習のためのデータとしてパブリックドメインのオーディオ書籍のデータベースを用いて、音声認識タスクのLibriSpeechでSoTA(その時点での最高精度のモデル)となっています。
◆GPT-2とGPT-3の事例
論文(Language Models are Few-Shot Learners)ではGPT-3についての概要が説明されています。
2015年に、イーロン・マスクを筆頭とした、起業家、実業家などから援助をうけて立ち上がった、AIを利用する、アメリカの非営利団体のOpenAIが2019年に公表したのが、GPT-2というものです。とても便利な一方、悪用されるのではないだろうかという観点から最初はすべてを一般公開とはいたらなかったのですが、約9ヶ月語には一般公開にいたりました。GPT-2及びGPT-3はTransformerがベースなっています。2020年にはGPT-3が登場しています。GPT-3は事前学習済みで、文章生成を行うものであります。GPTは自然な文章をつくることを目的としています。例えば人間がかいた文章に肉付きを加えることが可能となっています。人間が書いた文章から感情を読み取ることも可能であり、モデルのサイズが大きくなるほど性能がよくなっています
画像はこちらの論文(Language Models are Few-Shot Learners)より引用しています。