
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
TransSkip : Leveraging Transformer based Attention Mechanisms for Multi-Scale Feature Fusion
Khan Rabeea Fatma 경기대학교 대학원 2024 국내석사
의료 영상 분할 분야의 효과적이고 정확한 해결책을 찾기 위해 다양한 연구가 진행되어 왔다. 전통적인 영상처리 방법에서 복잡한 합성곱 신경망(CNN)까지 다양한 방법이 제안되었다. 최근, Transformer의 셀프어텐션 메커니즘 및 Transformer와 CNN의 조합에서 비롯된 혼합 네트워크가 주된 방법으로 떠올랐다. 일반적으로 해당 모델은 계층적 인코더-디코더 아키텍처로 구성되어 있다. 이런 구조들은 간단한 잔차 연결을 사용하여 인코더에서 디코더로 중요한 공간 정보를 전송한다. 본 논문에서는 어떤 계층적 인코더 디코더 네트워크에서도 간단한 잔차 연결을 대체할 수 있는 TransSkip이라는 새로운 트랜스포머 기반 잔차 연결 아키텍처를 제안한다. 이는 교차 어텐션과 다중 해상도 상관 관계를 활용하여 전역 종속성 및 다양한 해상도에서의 정보를 효과적으로 포착한다. 간단한 잔차 연결을 제안된 향상된 스킵 연결로 대체함으로써 안정적인 네트워크를 구축하여 고도로 다양한 의료 데이터를 처리할 수 있다. 또한 TransSkip을 통해 최신 기술의 네트워크를 강화할 때 성능이 명확하게 향상되는 것을 방대한 실험 결과를 통해 확인할 수 있다. Significant research has been conducted to create efficient and accurate solutions to the very in demand problem of medical image segmentation. From handcrafted solutions to complex convolutional neural networks (CNNs), a variety of approaches have been looked into. One of these is the self-attention mechanism of the Transformer and the resulting hybrid networks of a combination of CNNs and the Transformer. Among these, the hierarchical encoder-decoder architecture has remained the state of the art. Generally, these models have simple skip connections transferring vital spatial information from the encoder to the decoder. In this thesis, a novel transformer-based skip connection architecture called TransSkip is proposed that can replace simple skip connections in any hierarchical encoder decoder network. This is carried out by utilizing cross attention and multi-scale correlations to efficiently capture global dependencies and information from different resolutions. Replacing simple skip connections with proposed enhanced skip connections can help construct robust networks that can deal with the highly varying medical data. This is also confirmed through extensive experimental results that show a clear boost in performance when state of the art networks are enhanced through TransSkip.
LCD back light 구동을 위한 inverter transformer의 자기장 감소에 관한 연구
남정모 성균관대학교 일반대학원 2010 국내석사
본 논문은 LCD(Liquid crystal display)모니터의 저주파 자기장 저감을 위하여 LCD panel의 Inverter 회로를 분석하고 Transformer의 자기장 방사를 Modeling하여 효과적인 자기장 감소 방안을 제시한다. TFT-LCD는 비자발광 소자로써 화면을 display하기 위해서는 반드시 광원이 필요하며 LCD 모니터의 경우 대부분 냉음극관램프(Cold cathod fluorescent lamp, CCFL)를 광원으로 사용한다. 이 CCFL을 구동시키기 위해서는 Set에서 입력된 직류전압을 높은 교류전압으로 전환시킬 Inverter가 필요한데 Inverter는 직류를 교류로 변환시키는 공진회로와 전압을 상승시켜줄 변압기(Electric Transformer)로 구성된다. Transformer의 core에 감겨있는 1차 coil에 시간에 따라 변화되는 전류가 흐르면 core에는 마찬가지로 시간에 따라 변화되는 자기장이 발생되고, 2차 coil에는 전자기유도에 의한 유도기전력이 발생하여 권선비에 의한 전압상승이 이루어진다. 이 과정에서 core에는 강력한 자기장이 발생하게 되는데 본 논문에서는 이러한 자기장 발생 mechanism을 분석하고, 자기장의 방사 원리를 파악하여 Transformer의 극성변경에 의한 자기장 감소 방안을 제시한다. The low frequency magnetic fields from LCD panel can be serious problem for emission certification. Inverter transformer for LCD back light is a main factor of magnetic fields emission. Therefore we analyze transformer circuits in inverter and verify driving function. This paper describes a simulation results of magnetic fields path from transformer and suggests an effective design of transformer coils for reduction of magnetic fields.
Accelerating Transformer Model Inference through Software Optimization and Processing-in-Memory
The transformer model has become a crucial deep learning model as it provides accuracy superior to that of conventional models in various domains, such as image processing, genomics, and natural language processing. The transformer model has two primary layers: the attention layer, which is an operation between the Key-Value (KV) matrices and the embedding vector, and the fully connected (FC) layer, which is a multiplication between the weight matrix and the embedding vector. Inference of the transformer model consists of the summarization stage and the generation stage. The summarization stage utilized in all of the inference tasks analyses input sentences and outputs a single result. The generation stage utilized in generative tasks in transformer inference outputs multiple results sequentially. Recently, as the size of the transformer models and the length of input sequences have increased significantly, several challenges have emerged in conventional systems (e.g., GPUs). For the summarization stage, the softmax layer requires strong dependencies between data, which makes parallelization difficult and causes a lot of data movements to and from off-chip memory. For the generation stage, the attention layer, which has unique KV matrices for each request and a low operation-per-byte ratio, increases the memory capacity requirement of the system, increases latency, and reduces resource utilization in conventional systems. In this dissertation, we propose accelerating the softmax layer through a recomposition strategy. By decomposing the softmax layer into multiple sub-layers, we change its data access pattern. Then, we fuse the decomposed softmax sub-layers with the subsequent and preceding operations. Softmax recomposition achieves up to 1.25×, 1.12×, 1.57×, and 1.65× speedups in inferring BERT, GPT-Neo, BigBird, and Longformer on a modern GPU by significantly reducing the off-chip memory traffic. Then we propose AttAcc, a processing-in-memory (PIM) architecture for efficient execution of the attention layer, and a heterogeneous system with optimizations for end-to-end acceleration of the generation stage. The heterogeneous system strategically uses xPU and AttAcc together. It leverages the high memory bandwidth of AttAcc for the attention layer and the powerful computing capability of the conventional system for the FC layer. We demonstrate that our heterogeneous system outperforms the conventional system with the same memory capacity, improving performance and energy efficiency of running GPT3-175B inference by up to 2.81× and 2.67×, respectively. 트랜스포머 모델은 이미지 처리, 유전체학, 자연어 처리 등 다양한 영역에서 기존 모델보다 뛰어난 정확도를 제공하면서 중요한 딥러닝 모델로 자리 잡았다. 트랜스포머 모델은 Key-Value (KV) 행렬과 임베딩 벡터 간 연산인 어텐션 레이어와 가중치 행렬과 임베딩 벡터 간 곱연산인 완전 연결(FC) 레이어를 핵심 연산으로 갖는다. 트랜스포머의 추론은 다수의 토큰으로 구성된 문장을 입력으로 받아 동작하며, 요약 단계와 출력 단계로 구성된다. 요약 단계는 입력 문장을 받아 하나의 결과를 출력하며, 생성 단계는 요약 단계 이후의 결과들을 순차적으로 출력한다. 최근 트랜스포머 모델의 파라미터 수와 입력 문장의 길이가 크게 증가함에 따라 기존 컴퓨팅 시스템(예: GPU)에서 트랜스포머 추론 시 여러 문제가 발생하고 있다. 요약 단계의 경우, 긴 입력 문장에서 중요성이 커진 소프트맥스 레이어가 데이터 간의 강한 의존성을 요구하기 때문에 기존 컴퓨팅 시스템에서 병렬화 연산을 어렵게 할 뿐만 아니라 많은 양의 데이터를 오프칩 메모리에서 읽고 쓰게 하는 문제를 야기한다. 한편, 생성 단계의 경우 각 요청 별로 고유한 KV 행렬을 갖기 때문에 바이트당 연산 비율이 낮은 어텐션 레이어가 시스템의 메모리 용량 요구량을 크게 증가시키고 지연시간을 높일 뿐만 아니라 기존 시스템에서 연산 활용도를 크게 떨어뜨린다. 본 논문에서는 요약 단계 가속을 위해 재구성 전략을 통해 소프트맥스 레이어를 가속화하는 방법을 제안한다. 소프트맥스 재구성은 소프트맥스 레이어를 여러 개의 하위 레이어로 분해하여 데이터 접근 패턴을 바꾸고, 분해된 소프트맥스 하위 레이어를 후속 및 선행 작업과 융합한다. 소프트맥스 재구성은 오프칩 메모리 트래픽을 크게 줄임으로써 최신 GPU에서 BERT, GPT-Neo, BigBird, Longformer 모델 추론에서 최대 1.25배, 1.12배, 1.57배, 1.65배의 속도 향상을 달성한다. 또한, 생성 단계 내 어텐션의 효과적인 처리를 위한 processing-in-memory (PIM) 아키텍처인 AttAcc과 생성 단계의 종단 간 가속화를 위한 이기종 시스템 구조를 제안한다. 이기종 시스템은 AttAcc과 xPU(예: GPU)가 결합되어 있으며, 어텐션 레이어를 위해 AttAcc의 높은 메모리 대역폭을 활용하고 그 외 연산(예: FC 레이어)을 위해 xPU의 강력한 컴퓨팅 성능을 활용한다. 제안하는 이기종 시스템은 GPT3-175B의 추론 연산 시 동일한 메모리 용량의 기존 시스템보다 성능과 에너지 효율이 각각 최대 2.81배, 2.67배 개선된 결과를 보여준다.
This dissertation presents novel Transformer-based methods for Video Object Segmentation (VOS) with enhanced Object Queries. VOS is crucial for understanding spatial-temporal dynamics in videos and is valuable in numerous industrial applications, including Semi-supervised Video Object Segmentation (SSVOS) and Video Instance Segmentation (VIS). In recent developments, the Transformer architecture has been effectively adapted for vision-based tasks. The DEtection TRansformer (DETR) introduced Object Queries, which are learnable embeddings representing potential objects within an image. DETR induces the properties of non-maximum suppression (NMS) and region proposal through bipartite matching functions. The flexibility of Object Queries in DETR allows them to induce desired properties by designing specific objective functions. This dissertation leverages this flexibility to enhance performance across different VOS sub-tasks, removing the need for auxiliary association processes. First, I propose an object-centric VOS (OCVOS) method for SSVOS using query-based Transformer decoder blocks to extract object-wise information. This method introduces target-specific queries that segment specified objects directly, eliminating the need for auxiliary association processes for tracking. Building on this, I extend the task to VIS and introduce VideoMaskDINO, an extension of MaskDINO. This method uses the Denoising (DN) task from DN-DETR for video tracking, sharing principles with OCVOS. To enhance tracking reliability, I modify the training schemes to simulate tracking scenarios more accurately and initialize the DN parts’ anchors with Kalman filter predictions. This approach demonstrates consistent tracking ability with frame-level learning alone. Finally, I propose a novel offline VIS approach by integrating upsampling layers into the Transformer decoder. Existing methods face challenges with query capacity and ID-switching. By introducing upsampling of video queries along the temporal axis, I facilitate association properties and refine predictions. This method handles video queries with arbitrary temporal dimensions and shows notable performance, particularly in long and challenging videos. Overall, this dissertation demonstrates the adaptability and robustness of the Transformer architecture with enhanced Object Queries across various VOS tasks, providing comprehensive solutions for improving video segmentation performance and eliminating the auxiliary association processes. 이 논문은 향상된 오브젝트 쿼리를 활용한 Transformer 기반의 새로운 비디오 객체 분할(Video Object Segmentation, VOS) 방법을 제시한다. VOS는 비디오의 시공간 동역학을 이해하는 데 중요하며, 반자동 비디오 객체 분할(Semi-supervised Video Object Segmentation, SSVOS) 및 비디오 인스턴스 분할(Video Instance Segmentation, VIS) 등 다양한 산업 응용 분야에서 가치를 지닌다. 최근 자연어 처리 분야에서 큰 성과를 거둔 Transformer 구조는 비전 기반 작업에 효과적으로 적용되었다. 특히 DEtection TRansformer(DETR)는 이미지 내의 잠재적 객체를 나타내는 학습 가능한 임베딩인 오브젝트 쿼리(object query)를 도입했다. DETR은 오브젝트 쿼리에 이분 매칭(bipartite matching)을 통해 비-최대 억제(Non-Maximum Suppression, NMS)와 영역 제안(region proposal)의 특성을 유도되는 것을 확인하였으며, 특정 목표 함수를 설계하여 원하는 특성을 유도할 수 있는 유연성을 지니고 있다는 걸 보였다. 본 논문에서는 이 유연성을 활용하여 다양한 VOS 하위 작업에서 성능을 향상시키고 추가적인 연관(Association) 과정의 필요성을 제거하는 방법을 제안한다. 먼저, 본 논문은 SSVOS를 위한 오브젝트 중심 VOS(OCVOS) 방법을 제안한다. 이 방법은 쿼리 기반 Transformer 디코더 블록을 사용하여 객체 단위의 정보를 추출한다. 또한 이 방법은 특정 객체를 직접 분할하는 타겟-특정 쿼리를 도입하여 추적을 위한 연관(association) 과정의 필요성을 제거한다. 이를 바탕으로, 온라인 VIS 작업으로 확장하고 MaskDINO의 확장판인 VideoMaskDINO를 제안한다. 이 방법은 OCVOS와 원리를 공유하는 DN-DETR의 디노이징(Denoising, DN) 작업을 비디오 추적에 사용한다. 추적 신뢰성을 향상시키기 위해, 추적 시나리오를 보다 정확하게 시뮬레이션하도록 학습 방식을 수정하고, 칼만 필터 예측으로 DN 부분의 앵커를 초기화한다. 이 접근 방식은 프레임 단위 학습만으로도 일관된 추적 능력을 보여준다. 마지막으로, Transformer 디코더에 업샘플링 레이어를 통합하여 오프라인 VIS를 위한 새로운 접근 방식을 제안한다. 기존 방법은 작은 쿼리 용량으로 인한 ID 스위칭 문제에 직면해 있다. 비디오 쿼리를 시간 축을 따라 업샘플링하여 연관 속성을 촉진하고 더욱 정제된 결과를 내도록 한다. 이 방법은 임의의 시간적 차원을 가진 비디오 쿼리를 처리할 수 있으며, 특히 길고 도전적인 비디오에서 눈에 띄는 성능을 보여준다. 결론적으로, 이 논문은 다양한 VOS 작업에서 향상된 오브젝트 쿼리를 사용한 Transformer 아키텍처의 적응성과 견고성을 입증하며, 추가적인 연관 과정을 제거 하여 비디오 분할 성능을 개선하기 위한 포괄적인 솔루션을 제공한다.
트랜스포머 기반 동적 하이브리드 필터링과 위치 추정을 통한 UWB 측위 개선
김현우 서강대학교 메타버스전문대학원 2025 국내석사
본 논문은 UWB(Ultra-Wideband) 기반 실내 위치 추정(Indoor Positioning System, IPS)에서 발생하는 NLOS(Non-Line of Sight) 문제와 다양한 노이즈 조건을 효과적으로 극복하기 위한 새로운 엔드투엔드 접근법을 제안한다. 기존 UWB 기반 IPS에서는 반사, 굴절 등으로 인한 신호 왜곡이 누적되어 오차가 증가하며, 특히 NLOS 환경에서 정확한 위치 추정이 어렵다는 한계가 존재한다. 이를 해결하기 위해 본 연구는 두 가지 핵심 요소를 결합한다: (1) 다양한 필터(KF, EKF, UKF, AKF, PF 등)를 하나의 풀(Pool)로 관리하고, 환경 변화에 따라 최적 필터를 실시간으로 선택하는 동적 하이브리드 필터링 프레임워크, (2) Transformer 기반 위치 추정 모델을 통한 복잡한 시계열 패턴 분석 및 안정적 위치 추정 수행이다. 전통적으로 실내 위치 추정에서는 특정 필터를 고정적으로 적용하거나 휴리스틱한 규칙에 따라 필터를 결정하는 방식이 주류를 이루었다. 그러나 이러한 접근법은 모든 상황에 대응하기 어렵고, NLOS 환경이나 다중 경로 반사 문제가 두드러지는 상황에서 성능 저하가 불가피하다. 반면 본 연구에서는 Transformer 아키텍처의 뛰어난 시계열 패턴 분석 능력을 활용하여 필터 선택을 데이터 기반 분류 문제로 재정의한다. 즉, Dynamic Hybrid Filtering Transformer를 통해 이전 시점의 추정 오차, TDOA(Time Difference of Arrival) 측정값 특성, IMU(가속도) 데이터 등을 분석하여, 현재 시점에 가장 적합한 필터를 선택함으로써 오차를 최소화한다. 이와 함께 시계열 데이터 처리에 특화된 Transformer 기반 위치 추정 모델을 적용하여, 단순히 순간값에 의존하지 않고 장기 의존성(Long-range dependency)을 학습한다. 이를 통해 NLOS 환경에서도 안정적으로 낮은 오차를 유지하며, Positional Encoding과 Time Series Adapter 모듈을 통해 시계열 특성을 강화함으로써 예측 정확도를 더욱 향상시킨다. 이런 방식은 각 시점의 노이즈 패턴, 다중 경로 반사 특성 등을 깊이 있게 파악하고, 필터를 동적으로 교체하여 최적의 결과를 도출할 수 있게 한다. 본 논문은 UTIL, Pfeiffer 공개 데이터셋을 활용하여 제안된 방법론의 성능을 검증하였으며, Baseline 대비 Basic Transformer 적용만으로도 유의미한 오차 감소가 확인되었다. 또한 개별 필터를 적용한 경우와 비교했을 때, 동적 하이브리드 필터링 전략을 도입하면 상황별 최적 필터를 선택함으로써 RMSE, MAE 등 위치 추정 오차 지표를 상당 폭 줄일 수 있음을 입증하였다. 나아가 Pfeiffer 데이터셋에서 일반화 성능을 검증함으로써 본 모델이 특정 환경에 과적합되지 않고 다양한 실내 환경 변화에도 유연하게 대응할 수 있는 가능성을 확인하였다. 본 연구의 기여점은 다음과 같다. 첫째, 필터 선택 문제를 Transformer 기반 데이터 주도적 접근으로 재정의하여, 정적인 필터 적용 방식의 한계를 극복했다. 둘째, Transformer 아키텍처를 통해 NLOS 환경에서의 비선형적 신호 패턴을 모델링함으로써, 뛰어난 강건성과 정확도를 확보했다. 셋째, 다양한 데이터셋을 통한 검증을 바탕으로 제안 프레임워크가 센티미터 단위 정확도가 요구되는 실내 위치 추적 문제에서 실용적인 솔루션이 될 수 있음을 제시했다. 향후 연구에서는 데이터셋 다양화, 모델 경량화, 온라인 학습 및 도메인 적응 기법 도입, 멀티센서 융합 등을 통해 제안된 프레임워크의 활용 범위를 넓히고 실시간성 및 설명 가능성을 강화할 수 있다. 이를 통해 스마트팩토리, 물류, 의료 시설, 로봇 공장 자동화 등 다양한 응용 분야에서 높은 정확도와 안정성을 갖춘 실내 위치 추정 서비스를 제공하는 핵심 기술로 발전시킬 수 있을 것으로 기대한다. This paper proposes a novel end-to-end approach to effectively address the Non-Line of Sight(NLOS) and noise-related challenges that arise in Ultra-Wideband(UWB) based Indoor Positioning Systems(IPS). While UWB theoretically offers centimeter-level precision, the presence of reflections, refractions, and complex indoor environments often leads to substantial inaccuracies, especially under NLOS conditions. To overcome these limitations, we combine two core strategies: (1) a dynamic hybrid filtering framework that manages a pool of diverse filters(KF, EKF, UKF, AKF, PF, etc.) and selects the most suitable filter in real-time according to environmental changes, and (2) a Transformer-based positioning model that exploits time-series pattern analysis for stable, accurate location estimation. Traditional IPS approaches often rely on a fixed filter or heuristic rules for filter selection, resulting in performance degradation under certain conditions. For instance, while Kalman-based filters may perform well in line-of-sight scenarios, they can falter in complex NLOS environments that demand more robust or nonlinear filtering strategies. In contrast, our research reframes filter selection as a data-driven classification problem solvable by a Dynamic Hybrid Filtering Transformer. This Transformer learns from previous estimation errors, TDOA (Time Difference of Arrival) characteristics, IMU data, and other environmental cues to predict, at each time step, which filter will minimize the current positioning error. Simultaneously, we employ a Transformer-based positioning model that takes advantage of multi-head attention, positional encoding, and a Time Series Adapter module to thoroughly capture long-range dependencies and complex temporal patterns in UWB signals. By integrating both these elements, we achieve robust performance even in environments plagued by NLOS effects and multipath reflections. Our approach reduces not only average errors but also improves system stability, ensuring that the model adapts rapidly to different patterns of noise and signal distortion. This paper verified the performance of the proposed methodology using the UTIL and Pfeiffer open datasets, and a significant error reduction was confirmed by applying the Basic Transformer alone compared to the Baseline. In addition, when compared to the case of applying individual filters, it was demonstrated that the introduction of a dynamic hybrid filtering strategy can significantly reduce RMSE, MAE, and other location estimation error indicators by selecting the optimal filter for each situation. Furthermore, by verifying the generalization performance on the Pfeiffer dataset, we confirmed the possibility that this model can flexibly respond to various indoor environment changes without overfitting to a specific environment. The key contributions of this study are as follows. First, we introduce a data-driven, Transformer-based method for optimal filter selection, surpassing the limitations of static or rule-based approaches. Second, we demonstrate that the Transformer’s time-series modeling capacity enables consistent accuracy and robustness, even under NLOS-induced nonlinearities and fluctuations. Third, we confirm these improvements through extensive validation on multiple datasets, reinforcing that the proposed framework is a versatile and practical solution for indoor localization tasks demanding high precision. In terms of future work, several avenues remain open. We can enhance generalization and adaptability by incorporating additional datasets and environments, explore model compression and optimization techniques for real-time or low-power devices, and consider online learning or domain adaptation strategies for continuous improvement. Furthermore, we may integrate other sensors (e.g., LiDAR, Wi-Fi, BLE) to enrich the data fusion capability of the model, thereby expanding its applicability to various industrial, logistics, healthcare, and navigation scenarios. Through these refinements, we aim to develop a robust, efficient, and widely applicable IPS solution that meets the stringent accuracy and reliability requirements of next-generation indoor positioning services.
본 논문은 컴퓨터 비전분야의 주류 기술이 합성곱신경망(CNN)에서 트랜스포머(Transformer) 로 전환되는 기술적 변곡점에서, 자율주행 및 무인 감시와 같은 동적 환경을 보다 정교하게 이해하기 위한 트랜스포머 기반의 환경 인식 기술을 제안한다. 연구는 트랜스포머의 구조적 최적화에서 시작하여, 3차원 기하 정보 및 의미론적 맥락 이해로 특징(Feature)의 활용 범위를 확장하는 단계적인 진화 과정을 다룬다. 먼저, 무인 감시 환경에서 CNN과 트랜스포머 기반 모델의 성능을 정량적으로 비교 분석하여, 시공간 정보 추출에 있어 트랜스포머의 잠재력과 초기 모델이 갖는 데이터 효율성 및 구조적 한계를 규명하였다. 이를 극복하기 위해 태그 라벨(Tag Label)을 도입하여 일반화 성능을 높이고, Random Swin Transformer와 Perceiver IO구조를적용하여연산효율성과입력 유연성을 확보하는 구조적 최적화 기법을 제안하였다. 또한, CNN의 지역적 특징 추출 능력과 트랜스포머의 전역적 문맥 이해 능력을 결합하기 위해 계층적 토큰 융합(Token Fusion) 전략을 체계화하였다. 초기, 후기, 계층 별 융합을 통해 두 아키텍처의 상호 보완적인 특징을 통합함으로써 단일 모델 대비 우수한 이미지 분류 성능을 달성하는 하이브리드 아키텍처를 설계하였다. 나아가 최적화된 모델의 심층 특징을 고차원적인 환경 이해로 확장하였다. 3D Gaussian Splatting (3DGS) 기술을접목하고 유사정답(Pseudo-GT) 생성 파이프 라인을 구축하여, 대규모 데이터 없이도 단일 모델이 3차원 기하 정보를 추론하고 재구성하는 방법론을 제시하였다. 마지막으로 Vision Language Model (VLM)에 보조 캡션 손실(Auxiliary Caption Loss)을 도입 하여, 시각 정보와 언어적 의미를 결합한 인스턴스 분할 기술을 제안함으로써 모델이 주행 환경의 맥락까지 파악할 수 있도록 고도화하였다. 본 연구는 트랜스포머 아키텍처를 단순한 특징 추출기를 넘어, 3차원 공간 정보와 의미론적 맥락을 통합적으로 처리하는 환경 인식 시스템의 핵심 기제로 진화시켰다는 점에서 학술적 의의를 갖는다.
시계열 데이터란 일정한 시간 동안 수집된 일련의 순차적으로 정해진 데이터 셋의 집합을 의미하며 예측, 분류, 이상치 탐지 등에 활용되고 있다. 기존의 시계열 분야의 인공지능 모델에는 RNN(Recurrent Neural Network)을 주로 활용하여 분석을 진행했지만, 최근 Transformer 모델의 개발로 인하여 연구 추세가 변화하고 있다. Transformer 모델은 시계열 데이터 예측에는 좋은 성능을 보이지만, 분류 쪽에서는 상대적으로 부족한 성능을 보인다. 본 논문에서는 시계열 분류를 위한 Transformer 모델에 CLS 토큰을 추가하여 성능 향상에 초점을 맞추었다. 본 논문에서 제안하는 방식은 1) 입력 데이터의 임베딩 방법, 2) 사전 학습 방법이다. 1) 입력 데이터의 임베딩 방법은 총 2가지 방법을 이용한다. 첫 번째는 입력 데이터를 standard scaler를 활용하여 각기 다른 진폭을 가지는 시계열 데이터들을 정규화하여 진폭을 균일하게 만들고 time window 방식으로 데이터의 차원을 변경한 뒤 GRU(Gated Recurrent Unit)를 통하여 Transformer에 입력 토큰으로 활용한다. 두 번째는 GASF(Gramian Angular Summation Field)를 활용하여 입력 데이터를 이미지로 만든 뒤 사전 학습된 컴퓨터 비전 모델을 활용하여 얻어낸 벡터를 Transformer의 CLS 토큰 입력으로 활용한다. 사전 학습 방식은 자연어 분야에서 사용하는 MLM(Masked Language Modeling)과 유사한 방식을 활용한다. 시계열 데이터는 자연어와 다르게 연속 변수로 이루어져 있어서 목적함수 계산 시 MSE(Mean Squared Error)를 활용한다. 입력 토큰의 마스킹 작업 시에 CLS 토큰은 제외하고 나머지 입력 토큰 중 30%를 마스킹하고 마스킹 된 값을 출력단에서 맞추는 형식으로 학습된다. 본 논문에서는 UCR 데이터 셋을 활용하여 총 12개의 서로 다른 모델들과 제안하는 모델의 성능을 비교한다. 제안하는 모델은 85개의 데이터에 대한 평균 정확도 평가에서 최소 1.4% 최대 21.1%까지 성능 향상을 보였다. Time series data refer to a sequentially determined data set collected for a certain period of time and is used for prediction, classification, and outlier detection. Although the existing artificial intelligence models in the field of time series are mainly based on the RNN (Recurrent Neural Network), recently research trends are changing to Transformer-based models. Although these Transformer-based models show good performance for time series data prediction problem, they show relatively insufficient performance for classification tasks. To address this problem, we propose a novel Transformer-based model to enhance the classification performance by adding CLS token to Transformer model and applying a pre-training method. The main contributions of this paper are summarized as follows : 1) an embedding method of input data, 2) a pre-training method for time series data. The embedding method of input data consists of two steps. First, the standard scaler is used to normalize time series data with different amplitudes. Then, we change the dimension of the data by using a time window method and use it as an input token for Transformer through GRU(Gated Recurrent Units). Second, we transform input data into an image using the GASF(Gramian Angular Summation Field). In addition, this transformed image is vectorized using a pre-trained model of ResNet. This vector is used as an input of a CLS token. Our pre-training method for time series data is basically based on the MLM (Masked Language Modeling) used in the natural language processing. Compared to the original MLM method, we use MSE(Mean Squared Error) for the evaluation of the objective function because time series data are composed of continuous variables unlike natural language processing. To show the efficacy of our method, we conduct extensive experiments with 12 different models using the UCR dataset. The experimental results show that our proposed model improves the average accuracy of 85 datasets from 1.4% to up to 21.1%.
Transformer 기반 예측적 프로세스 자원 할당 알고리즘
많은 기업들은 프로세스 기반 정보 시스템을 통해 업무 프로세스를 실행하고 관리한다. 프로세스 기반 정보 시스템은 실행된 프로세스 인스턴스의 이력을 프로세스 이벤트 로그 형태로 기록하고, 이러한 로그를 분석하여 효과적인 비즈니스 프로세스 운영을 지원한다. 프로세스 기반 정보 시스템을 사용하는 기업들은 프로세스 모니터링을 통해 커다란 경쟁 시장에서 우위를 선점하기 위해 업무 프로세스를 개선하고자 한다. 이에 따라 프로세스를 분석하고 개선하는 여러 연구들이 개발 되었으며, 특히 기업의 금전적인 손익과 직접적으로 연관이 되는 자원 할당에 대한 연구가 주목받고 있다. 이러한 연구는 실시간 프로세스 업무에 대하여 즉각적으로 자원을 할당하는 것에 대한 좋은 지표가 될 뿐만 아니라, 미래의 자원 할당 계획 수립에 도움이 된다. 프로세스 자원 할당 연구로는 규칙기반의 수학적 알고리즘과 자원의 적합성 및 관계파악, 자원 활용 모니터링이 가능한 프로세스 마이닝 등이 있다. 하지만 이들은 실시간으로 들어오는 데이터에 대해 예기치 못한 변수로 낮은 자원 활용률을 초래하거나, 업무 수행 흐름을 반영하지 못하여 비효율적인 자원 할당 계획을 수립할 수 있고, 자원의 상호 실행가능성을 고려하지 않아 프로세스 오작동을 초래할 수 있다. 본 논문에서는 미래 자원 할당 계획 수립을 위해 수행 흐름을 고려할 수 있는 예측적 프로세스 모니터링 기법으로 자원의 상호 실행가능성을 고려한 자원 할당 알고리즘을 제안한다. 예측적 프로세스 모니터링은 과거 프로세스 인스턴스의 실행이력을 분석하여 실행중인 프로세스 인스턴스의 미래 상태를 예측하는 기법으로, 업무 수행 흐름을 알 수 있는 다음 업무 및 런타임 예측이 가능하다. 최근 예측적 프로세스 모니터링에는 지능형 데이터 예측 기법인 딥러닝 기반 연구가 진행되었으며, 특히 순차적으로 기록되는 프로세스 이벤트 로그의 시계열적인 특성을 고려할 수 있는 시계열 딥러닝 모델인 LSTM을 사용한 연구가 가장 많이 이뤄졌다. 하지만 이는 프로세스 인스턴스의 길이가 길어질수록 성능이 낮아진다는 한계점이 있으며, 이에 따라 성능 향상을 위한 새로운 모델 기반의 연구가 필요했고, 이를 해결한 Transformer 기반의 연구가 이뤄졌다. Transformer는 기계 번역에서 SOTA 모델을 이룬 시계열 딥러닝 모델로, 출력을 예측하는 매 시점마다 전체 입력을 다시 참고함으로써 해당 출력과 연관성이 있는 입력에 대해 더 집중하는 Attention Mechanism을 사용한다. 프로세스 인스턴스는 업무의 흐름인 제어흐름을 가지며, 프로세스 인스턴스를 예측하는 데 있어 업무 간의 상관관계는 중요한 지표이다. Transformer는 Attention Mechanism을 통해 이러한 프로세스 업무 간의 상관관계를 고려한 예측이 가능하며, 이에 따라 Transformer를 사용한 예측적 프로세스 모니터링 연구인 ProcessTransformer가 등장하였다. ProcessTransformer는 다음 액티비티 예측에 있어 LSTM 기반 연구보다 훨씬 좋은 성능을 보였지만, 예측 모델의 입력으로 프로세스 액티비티 흐름만을 고려하였다. 프로세스 자원 할당 계획 수립을 위해서는 할당되었던 자원들에 대한 정보도 중요한 요소로 작용되며, 따라서 본 논문에서는 ProcessTransformer를 기반으로 자원의 정보도 고려하여 예측적 프로세스 모니터링 모델을 설계해 런타임 및 다음 업무를 예측하고, 자원의 상호 실행가능성을 고려하여 자원할당을 진행한다. 제안한 연구를 검증하고자 4TU.Centre for Research Data에서 제공하는 실제 프로세스 이벤트 로그인 Helpdesk, BPIC2012, BPIC2013, Review_Example_Large 데이터세트를 사용하여 실험한다. 예측적 프로세스 모니터링 성능 확인을 위해 기존 연구들과 비교한 결과, Helpdesk, BPIC2012, Review_Example_Large 데이터세트에서 가장 높은 성능을 보였다. 그리고 학습된 예측적 프로세스 모니터링 모델의 예측 결과를 통해 자원 할당을 하여 자원의 상호 실행가능성을 고려한 예측적 프로세스 인스턴스를 생성하였다. Many enterprises execute and manage business processes through Process-Aware Information System (PAIS). PAIS records the histories of executed process instances in the form of process event logs, and supports effective business process operation by analyzing these logs. Process-Aware enterprises seek to improve business processes to gain an advantage in a highly competitive market through process monitoring. Accordingly, several studies have been developed to analyze and improve the process, and in particular, research on resource allocation, which is directly related to financial profit-and-loss, is getting attention. These studies not only serves a good indicator of immediate resource allocation for current process tasks, but also helps to plan future resource allocation. Process resource allocation studies include rule-based mathematical algorithms and process mining, which can identify suitability and relationship of resources and monitor resource utilization. However, it can result in low resource utilization due to unexpected variables of data in real-time, and establish an inefficient resource allocation plan due to failing to reflect the workflow, and may cause malfunctions due to not consideting the interoperability of resources. For future resource allocation planning, this study proposes resource allocation algorithm considering interoperability of resources by performing Predictive Process Monitoring(PPM) that can consider the execution flow. PPM is a technique that predicts the future state of process instance, which is being executed, by analyzing the histories of past process instance and it is possible to predict th next task and runtime to figure out workflow. Recently, research based on deep learning, an intelligent data prediction technique, has been conducted for PPM, and in particular, LSTM, which can consider the time-series characteristics of sequentially recorded process event logs, was the most used. However, it has a limitation that the longer length of the process instance, the lower performance. Accordingly, a new model-based research was needed to improve performance, and Transformer-based research was conducted to solve this problem. Transformer is a time-series deep learning model that is state-of-the-art in machine translation, and uses Attention Mechanism that focuses more on inputs that are related to the output by referring back to the entire input at every point in predicting output. Process instance has a control flow, which is a workflow, and the correlation between tasks is an important indicator in predicting a process instance. Transformer can predict considering the correlation between process tasks through Attention Mechanism, and accordingly, ProcessTransformer, a PPM study using Transformer, appeared. ProcessTransformer performed significantly better than LSTM-based studies in predicting the next activity, but only considered the process activity flow as an input to predictive model. In order to establish a process resource allocation plan, information on allocated resources is also an important factor, therefore, this study is based on ProcessTransformer and design PPM model by considering resource factor to predict runtime and next task, and then proceed with resource allocation. To verify the proposed study, this paper experiments using the actual process event log datasets provided by 4TU.Centre for Research Data, Helpdesk, BPIC2012, BPIC2013, Review_Example_Large. As a result of comparison with previous studies to confirm PPM, proposed study showed high performance in Helpdesk, BPIC2012, and Review_Example_Large. Then, resource allocation was performed through the prediction result of the learned PPM model, and a predictive process instance was created considering interoperability of resources.
IGNACIO MARVIN JOHN 세종대학교 대학원 2025 국내박사
Transformer-based models have become the foundation of modern artificial intel- ligence systems due to their expressive power and versatility in language, vision, and multimodal tasks. However, their widespread adoption remains limited by the high com- putational cost associated with training and deployment. This dissertation addresses the growing need for efficient model architectures by exploring a novel method to reduce the computational complexity of Transformer models through a U-Net-based embed- ding mechanism. We propose the U-Net Encapsulated Transformer (UET), an architectural framework that embeds Transformer modules within a hierarchical U-Net structure. By downsam- pling the token embeddings prior to self-attention, UET reduces the dimensionality of input representations, thereby minimizing the number of parameters and operations re- quired. This design enables efficient training from scratch, distinguishing it from most existing optimization methods that rely on post-hoc compression or pre-trained teacher models. UET is evaluated across three domains to demonstrate its cross-task generalizabil- ity. First, in multimodal sentiment analysis of internet memes, UET processes GPT- generated keyphrases and visual features to interpret nuanced emotional content with fewer resources. Second, in the sequential recommendation, UET constructs tempo- ral patterns in user behavior using a reinforcement learning framework, outperforming baselines on multiple datasets while preserving computational efficiency. Finally, UET is applied to language modeling, where it supports next-token prediction under reduced embedding dimensionality, offering a viable alternative to full-scale Transformers in low-resource environments. In addition to presenting this architectural solution, the dissertation integrates foun- dational concepts from the U-Net family of models. It reflects on the increasing im- portance of computational efficiency in user-facing applications. As multimodal and in- teractive AI systems become more prevalent, the demand for responsive and accessible models grows. UET responds to this demand by enabling practical, scalable deployment of Transformer-based systems without compromising depth or performance. This work contributes a general-purpose, resource-aware architecture for reducing the training and inference burden of Transformer models. Through theoretical motiva- tion and empirical validation, it offers a pathway toward more inclusive and sustainable AI development.