Vision Transformer（ViT）の基礎とコンピュータビジョンおよびVision and Languageへの応用　～デモ付～　＜オンラインセミナー＞

～ Transformerの基礎からVision Transformer（ViT）の実装まで、ViTのコンピュータビジョンおよび自然言語と画像理解への応用～

・近年、人工知能で最も注目を集めるViTについて基礎から応用まで修得し、実践的に活用するための講座

・ViTのコンピュータビジョンやテキストからの画像生成などへの応用方法について実装デモを通して修得し、実務における課題解決に活かそう！

・ViTの最新カンファレンス情報について解説しますので、世界的な研究動向が学べます

・ＷＥＢ会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。

講師の言葉

　画像処理分野においては、長らくCNNモデルが主流とされてきました。自然言語処理分野でTransformerの優位性が確立されたことで、Transformerを画像処理分野に応用しようとする動きが活発になり、Vision Transformer（ViT）が誕生しました。

　Vision Transformerは画像処理分野でTransformerを応用する上で課題とされていたことを解消し、画像処理分野においても自然言語処理分野同様にTransformerモデルを利用できることを示しました。現在ではViTをベースとして、多くのTransformerを利用したモデルが提案されるようになっています。一方で、Transformerを画像処理分野に応用する上での課題もより明確化しており、CNNモデルが見直されるようにもなっています。

　基礎的な知識の取得から実装を行うことで、Vision Transformerの将来性や課題を認識し、より実践的な利用を可能にすることを目指します。

　近年、人工知能の研究が発展し、サービス業、業務現場、物流、オンラインショッピングなど様々な生活・産業現場で人工知能が導入されるようになってきた。実際に普段の業務で人工知能が応用できることはますます重要になってきている。

　本講義は近年人工知能で最も使われている手法Vision Transformerの紹介から、人工知能分野で扱われている課題（コンピュータビジョン、Vision and Language）を基礎から、応用例まで説明していく。また、Vision Transformerを用いた最新の研究も紹介し、人工知能の最新研究動向を掴みやすくする。最後に、Vision Transformerの詳細的な構造と応用する際の基本プロセスを2つのプログラミング実装例を用いて、実際にVision Transformerを使う際に必要な知識を説明していく。

セミナー詳細

開催日時	2023年06月13日(火) 10:30 ~ 17:30
開催場所	オンラインセミナー
カテゴリー	オンラインセミナー、ソフト・データ・画像・デザイン
受講対象者	・コンピュータビジョン／画像認識／自然言語処理などの技術について　　－これから業務で活用されたい方　　－最新動向を把握したい技術者や研究者の方・画像処理タスク（画像分類、物体検出等）においてViTへの利用を検討されている方・人工知能分野でどのような研究が展開されているかを知りたい方・ViTが業務で活用できそうかどうかを確認したい方
予備知識	・基礎から解説しますので予備知識を特に必要としませんが、以下の知識があるとより深く理解できる　　－Pythonによるプログラミングの知識　　－基本的なディープラーニングの知識　　－画像処理の基礎知識　　－自然言語処理の基礎知識
修得知識	・Vision Transformer の基本的な知識及び基礎的な実装手法・「Vision Transformerとは何か」を応用という切口から理解できます・人工知能の重要な分野：コンピュータビジョン及びVision and Languageの基礎及び具体的な応用課題・デモを通して、Vision Transformerの実装の知識が得られます・人工知能やVision Transformerの最新動向
プログラム	（第１部）Vision Transformerの基礎及び実装１．Transformerの基礎　　（１）．自然言語処理におけるTransformerの登場　　　　a．Transformerの出現　　　　ｂ．Transformerの革新性　　　　ｃ．Transformerの発展　　　　ｄ．Vision and Languageへの拡張　　（２）．コンピュータビジョンにおける Transformer 　　　　a．DETR による物体検出　　　　ｂ．Vision Transformer 　　　　ｃ．実タスクへの応用と課題　　　　ｄ．最新の研究動向２．Vision Transformerの基礎　　（１）．Vision Transformerの全体像　　（２）．Vision Transformer詳細　　　　a．Input Layer 　　　　b．Self－Attention 　　　　ｃ．Encoder ３．Vision Transformerの実装　　（１）．基本的な実装　　　　a．実装の全体像　　　　ｂ．実装についての詳細説明　　　　ｃ．実装　　（２）．実験　　　　a．実験の概要　　　　ｂ．実験についての詳細説明　　　　ｃ．実験（第２部）Vision Transformerの応用、実装例および最新動向１．Vision Transformerのコンピュータビジョンへの応用　　（１）．コンピュータビジョン　　　　ａ．コンピュータビジョンの紹介　　　　b．コンピュータビジョンで扱われている課題　　（２）．画像認識、検出　　　　ａ．画像認識、検出の紹介　　　　b．Vision Transformerをベースとした手法　　（３）．動画認識　　　　ａ．動画認識の紹介　　　　b．Vision Transformerをベースとした手法　　（４）．３次元認識　　　　ａ．３次元認識の紹介　　　　b．Vision Transformerをベースとした手法２．Vision TransformerのVision and Languageへの応用　　（１）．Vision and Language 　　　　ａ．Vision and Languageとは　　　　b．Vision and Languageで扱われている課題　　（２）．Visual Question Answering（視覚質問応答）　　　　ａ．視覚質問応答の紹介　　　　b．Vision Transformerをベースとした手法　　（３）．Image Captioning（画像説明文生成）　　　　ａ．画像説明文生成の紹介　　　　b．Vision Transformerをベースとした手法　　（４）．Text－to－Image Generation（テキストから画像生成）　　　　ａ．テキストから画像生成の紹介　　　　b．Vision Transformerをベースとした手法３．Vision Transformerのデモ実装　　（１）．デモ１：動画認識におけるVision Transformer実装例　　　　ａ．デモするタスクとデータセットの紹介　　　　ｂ．コード紹介とデモ　　（２）．デモ２：Vision and LanguageのタスクにおけるVision Transformer実装例　　　　ａ．デモするタスクとデータセットの紹介　　　　ｂ．コード紹介とデモ４．Vision Transformerの最新動向　　（１）．コンピュータトップコンファレンスCVPR２０２３論文ピックアップ　　（２）．コンピュータトップコンファレンスECCV２０２２論文ピックアップ５．質疑応答
キーワード	Vision Transformer　ViT　自然言語処理　Vision and Language　コンピュータビジョン　実装　画像処理　画像認識　物体検出　画像分類　Python　ディープラーニング　深層学習　動画認識　３次元認識　Visual Question Answering　視覚質問応答　Image Captioning　画像説明文生成　Text-to-Image Generation　テキストから画像生成　人工知能
タグ	AI・機械学習、自動運転・運転支援技術・ADAS、データ解析、モバイルコンピューティング、音声処理、画像処理、画像認識、生体工学、データ分析
受講料	一般 (1名)：49,500円(税込) 同時複数申込の場合(1名)：44,000円(税込)
会場	オンラインセミナー本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。

Vision Transformer（ViT）の基礎とコンピュータビジョンおよびVision and Languageへの応用 ～デモ付～ ＜オンラインセミナー＞

講師の言葉

セミナー詳細

オンラインセミナー

こちらのセミナーは受付を終了しました。