Transformer on Baam's Techlog

Transformer on Baam's Techloghttps://baampark.github.io/tags/transformer/Recent content in Transformer on Baam's TechlogHugo -- 0.128.0en-usMon, 27 Jan 2025 13:49:47 -0500How Transformers Handle Variable-length Sequnceshttps://baampark.github.io/posts/2025-01-28_variable_sequence/Mon, 27 Jan 2025 13:49:47 -0500https://baampark.github.io/posts/2025-01-28_variable_sequence/“Transformer models don’t require a fixed sequence length.” Since most of my projects revolve around computer vision, this was very confusing to me. In computer vision models, images are always preprocessed to a fixed size before being fed into deep learning models. Otherwise, you will encounter matrix multiplication error. In this post, we will learn how transofrmer handles variable-length sequnces. Self-attention - Q, K, V Linear Projection into Embedding Space Let’s see basic CNN code example.