Vision Transformer(ViT)の基礎とコンピュータビジョンおよびVision and Languageへの応用 ~デモ付~ <オンラインセミナー>

~ Transformerの基礎からVision Transformer(ViT)の実装まで、ViTのコンピュータビジョンおよび自然言語と画像理解への応用 ~

・近年、人工知能で最も注目を集めるViTについて基礎から応用まで修得し、実践的に活用するための講座

・ViTのコンピュータビジョンやテキストからの画像生成などへの応用方法について実装デモを通して修得し、実務における課題解決に活かそう!

・ViTの最新カンファレンス情報について解説しますので、世界的な研究動向が学べます

オンラインセミナーの詳細はこちら:

・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。

講師の言葉

(第1部)

 画像処理分野においては、長らくCNNモデルが主流とされてきました。自然言語処理分野でTransformerの優位性が確立されたことで、Transformerを画像処理分野に応用しようとする動きが活発になり、Vision Transformer(ViT)が誕生しました。

 Vision Transformerは画像処理分野でTransformerを応用する上で課題とされていたことを解消し、画像処理分野においても自然言語処理分野同様にTransformerモデルを利用できることを示しました。現在ではViTをベースとして、多くのTransformerを利用したモデルが提案されるようになっています。一方で、Transformerを画像処理分野に応用する上での課題もより明確化しており、CNNモデルが見直されるようにもなっています。

 基礎的な知識の取得から実装を行うことで、Vision Transformerの将来性や課題を認識し、より実践的な利用を可能にすることを目指します。

(第2部)

 近年、人工知能の研究が発展し、サービス業、業務現場、物流、オンラインショッピングなど様々な生活・産業現場で人工知能が導入されるようになってきた。実際に普段の業務で人工知能が応用できることはますます重要になってきている。

 本講義は近年人工知能で最も使われている手法Vision Transformerの紹介から、人工知能分野で扱われている課題(コンピュータビジョン、Vision and Language)を基礎から、応用例まで説明していく。また、Vision Transformerを用いた最新の研究も紹介し、人工知能の最新研究動向を掴みやすくする。最後に、Vision Transformerの詳細的な構造と応用する際の基本プロセスを2つのプログラミング実装例を用いて、実際にVision Transformerを使う際に必要な知識を説明していく。

セミナー詳細

開催日時
  • 2023年06月13日(火) 10:30 ~ 17:30
開催場所 オンラインセミナー
カテゴリー オンラインセミナーソフト・データ・画像・デザイン
受講対象者 ・コンピュータビジョン/画像認識/自然言語処理などの技術について
  -これから業務で活用されたい方
  -最新動向を把握したい技術者や研究者の方
・画像処理タスク(画像分類、物体検出等)においてViTへの利用を検討されている方
・人工知能分野でどのような研究が展開されているかを知りたい方
・ViTが業務で活用できそうかどうかを確認したい方
予備知識 ・基礎から解説しますので予備知識を特に必要としませんが、以下の知識があるとより深く理解できる
  -Pythonによるプログラミングの知識
  -基本的なディープラーニングの知識
  -画像処理の基礎知識
  -自然言語処理の基礎知識
修得知識 ・Vision Transformer の基本的な知識及び基礎的な実装手法
・「Vision Transformerとは何か」を応用という切口から理解できます
・人工知能の重要な分野:コンピュータビジョン及びVision and Languageの基礎及び具体的な応用課題
・デモを通して、Vision Transformerの実装の知識が得られます
・人工知能やVision Transformerの最新動向
プログラム

(第1部)Vision Transformerの基礎及び実装

1.Transformerの基礎

  (1).自然言語処理におけるTransformerの登場

    a.Transformerの出現

    b.Transformerの革新性

    c.Transformerの発展

    d.Vision and Languageへの拡張

  (2).コンピュータビジョンにおける Transformer

    a.DETR による物体検出

    b.Vision Transformer

    c.実タスクへの応用と課題

    d.最新の研究動向

 

2.Vision Transformerの基礎

  (1).Vision Transformerの全体像

  (2).Vision Transformer詳細

    a.Input Layer

    b.Self-Attention

    c.Encoder

 

3.Vision Transformerの実装

  (1).基本的な実装

    a.実装の全体像

    b.実装についての詳細説明

    c.実装

  (2).実験

    a.実験の概要

    b.実験についての詳細説明

    c.実験

 

(第2部)Vision Transformerの応用、実装例および最新動向

1.Vision Transformerのコンピュータビジョンへの応用

  (1).コンピュータビジョン

    a.コンピュータビジョンの紹介

    b.コンピュータビジョンで扱われている課題

  (2).画像認識、検出

    a.画像認識、検出の紹介

    b.Vision Transformerをベースとした手法

  (3).動画認識

    a.動画認識の紹介

    b.Vision Transformerをベースとした手法

  (4).3次元認識

    a.3次元認識の紹介

    b.Vision Transformerをベースとした手法

 

2.Vision TransformerのVision and Languageへの応用

  (1).Vision and Language

    a.Vision and Languageとは

    b.Vision and Languageで扱われている課題

  (2).Visual Question Answering(視覚質問応答)

    a.視覚質問応答の紹介

    b.Vision Transformerをベースとした手法

  (3).Image Captioning(画像説明文生成)

    a.画像説明文生成の紹介

    b.Vision Transformerをベースとした手法

  (4).Text-to-Image Generation(テキストから画像生成)

    a.テキストから画像生成の紹介

    b.Vision Transformerをベースとした手法

 

3.Vision Transformerのデモ実装

  (1).デモ1:動画認識におけるVision Transformer実装例

    a.デモするタスクとデータセットの紹介

    b.コード紹介とデモ

  (2).デモ2:Vision and LanguageのタスクにおけるVision Transformer実装例

    a.デモするタスクとデータセットの紹介

    b.コード紹介とデモ

 

4.Vision Transformerの最新動向

  (1).コンピュータトップコンファレンスCVPR2023論文ピックアップ

  (2).コンピュータトップコンファレンスECCV2022論文ピックアップ

 

5.質疑応答

キーワード Vision Transformer ViT 自然言語処理 Vision and Language コンピュータビジョン 実装 画像処理 画像認識 物体検出 画像分類 Python ディープラーニング 深層学習 動画認識 3次元認識 Visual Question Answering 視覚質問応答 Image Captioning 画像説明文生成 Text-to-Image Generation テキストから画像生成 人工知能
タグ AI・機械学習自動運転・運転支援技術・ADASデータ解析モバイルコンピューティング音声処理画像処理画像認識生体工学データ分析
受講料 一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
会場
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
こちらのセミナーは受付を終了しました。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日