RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
        • 수여기관
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 기계학습과 딥러닝을 활용한 임신 합병증의 환경 취약 시기 발견 및 예측 모델 개발

        채린 이화여자대학교 대학원 2026 국내석사

        RANK : 249695

        Background: Preterm birth is a leading cause of neonatal morbidity and mortality worldwide and is a multifactorial condition involving biological, environmental, and social factors. While machine learning techniques have been increasingly applied to medical prediction model development, studies integrating clinical and environmental data for preterm birth prediction remain limited. Although growing evidence suggests air pollution exposure influences preterm birth risk, systematic analyses of mediation pathways through which air pollution leads to preterm birth and gestational week-specific critical windows of vulnerability are lacking. Previous studies have primarily focused on direct effects, overlooking indirect pathways through pregnancy complications, and have considered only pregnancy-average exposure, failing to identify period-specific impacts. Objective: This study aimed to develop machine learning and deep learning-based preterm birth prediction models integrating clinical and air pollution exposure data, (1) quantify pathways through which PM2.5 leads to preterm birth via pregnancy complications, (2) discover complication-specific critical windows using attention mechanisms, and (3) analyze predictive factors using explainable artificial intelligence (XAI) techniques to provide scientific evidence for high-risk screening and period-specific preventive interventions. Methods: A retrospective cohort study was conducted on 6,799 mothers who gave birth at 14 medical institutions in Korea between 2022 and 2024. Clinical data extracted from electronic medical records included maternal demographics, obstetric history, anthropometric measurements, laboratory tests, ultrasound findings, and pregnancy complications by trimester. Air pollution exposure data (PM2.5, PM10, O3, NO2, SO2, CO) from national monitoring stations were calculated weekly (weeks 1-42) based on maternal residence to reflect time-series structure. Preterm birth was defined as delivery before 37 weeks of gestation. For mediation analysis, CatBoost-based models were constructed with pathways from PM2.5 exposure through four pregnancy complications (Intrauterine Growth Retardation, preeclampsia, Gestational Diabetes, Pregnancy-Induced Hypertension), quantifying mediation effects as AUC improvements. To discover critical windows, LSTM models integrated with attention mechanisms were developed to calculate week-specific importance weights for each complication. Prediction models were systematically evaluated using a 4-Tier comparison framework (Tier 1: Clinical+ML, Tier 2: Clinical+DL, Tier 3: Clinical+Environmental+ML, Tier 4: Clinical+Environmental+DL). Machine learning algorithms included CatBoost, XGBoost, and Random Forest, while deep learning algorithms comprised Attention-LSTM and 1D CNN. SMOTE was used to address class imbalance. A hybrid ensemble model combining CatBoost and Attention-LSTM prediction probabilities via weighted averaging was constructed. Optimal weights were explored through grid search, and model performance was evaluated using 5-fold cross-validation. SHAP (SHapley Additive exPlanations) analysis was performed to assess feature importance, prediction directionality, and interaction effects, with dual validation against attention weights to ensure reliability of identified critical windows. Results: Among all participants, 1,133 (16.7%) had preterm births. Mean PM2.5 concentration was 23.4±8.7 μg/m³, substantially exceeding WHO guidelines (15 μg/m³). Mediation analysis revealed that PM2.5 effects on preterm birth primarily operate through indirect pathways via pregnancy complications, with all pathways showing positive mediation effects: Intrauterine Growth Retardation pathway (+0.0300 AUC), preeclampsia pathway (+0.0288 AUC), Gestational Diabetes pathway (+0.0204 AUC), and Pregnancy-Induced Hypertension pathway (+0.0136 AUC). Attention mechanism analysis discovered distinct complication-specific critical windows: Gestational diabetes showed concentrated attention weights at weeks 22-27 (peak insulin resistance period), Intrauterine Growth Retardation at weeks 1-4 and 13-16 (implantation and placental development periods), and preeclampsia at weeks 7-11 (spiral artery remodeling period). SHAP analysis identified maximum importance at week 27 for Gestational diabetes, week 13 for Intrauterine Growth Retardation, and week 15 for preeclampsia, demonstrating high concordance with attention analysis. In 4-Tier prediction model comparison, Gestational diabetes prediction achieved highest performance with Tier 3 (Clinical+Environmental+ML) at AUC 0.6862, with environmental variables contributing +1.04%p improvement. Intrauterine Growth Retardation prediction showed best performance with Tier 1 (Clinical+ML) at AUC 0.9175, attributed to the overwhelming predictive power of third-trimester fetal growth indicators. Preeclampsia prediction achieved AUC 0.8918 with hybrid ensemble, exceeding standalone ML (0.8885), demonstrating the value of combining ML and DL approaches. Grid search consistently identified optimal 75:25 ratio (CatBoost:Attention-LSTM) across all complications. For Gestational diabetes prediction, ensemble achieved AUC 0.6846, sensitivity 0.618, specificity 0.651, and F1 0.330. For Intrauterine Growth Retardation prediction, ensemble achieved AUC 0.9149, sensitivity 0.840, specificity 0.856, and F1 0.503. For preeclampsia prediction, ensemble achieved AUC 0.8918, sensitivity 0.795, specificity 0.837, and F1 0.426. SHAP analysis identified third-trimester fetal growth indicators (fetal weight percentile, abdominal circumference, estimated fetal weight) as the strongest predictors, while direct contribution of environmental variables was limited, suggesting that third-trimester clinical indicators already mediate cumulative environmental exposure effects. Deep learning models showed lower prediction performance than traditional machine learning (average 3-5%p AUC difference), attributable to the structural characteristics of tabular clinical data, but the value of deep learning lies in critical window discovery through attention mechanisms and time-series pattern learning. Conclusion: This study demonstrated that machine learning-based preterm birth prediction models integrating clinical and environmental data can achieve high accuracy for each complication (Gestational diabetes AUC 0.686, Intrauterine Growth Retardation AUC 0.915, preeclampsia AUC 0.892). Key findings include: First, mediation analysis quantified that PM2.5 effects on preterm birth primarily operate through indirect pathways via pregnancy complications. Second, dual validation through attention mechanisms and SHAP discovered distinct complication-specific critical windows (Gestational diabetes weeks 22-27, Intrauterine Growth Retardation weeks 1-4 and 13-16, preeclampsia weeks 7-11), showing high concordance with pathophysiological mechanisms. Third, hybrid ensemble models demonstrated simultaneous achievement of traditional machine learning's prediction stability and deep learning's interpretability. Environmental variables are measurable from early pregnancy, modifiable through policy interventions, and play essential roles in mediation pathway analysis and critical window discovery, making them targets for period-specific preventive interventions. Deep learning's value lies more in clinical interpretation tools than prediction performance, with attention mechanisms serving as innovative methodology for data-driven critical window discovery. The developed models and discovered critical windows can be utilized as risk stratification and period-specific intensive care tools in prenatal management, with potential for development into clinical decision support systems. Future prospective multicenter studies, environmental intervention studies, and real-time monitoring system development are needed to validate the effectiveness of critical window-based prevention strategies and contribute to integrated maternal and child health policies for preterm birth prevention. 연구배경: 조산은 전 세계적으로 신생아 이환율과 사망률의 주요 원인이며, 다요인성 질환으로 생물학적, 환경적, 사회적 요인이 복합적으로 작용한다. 최근 머신러닝 기법이 의료 예측 모델 개발에 활발히 적용되고 있으나, 임상 데이터와 환경 데이터를 통합하여 조산을 예측하는 연구는 제한적이다. 특히 대기오염 노출이 조산 위험에 미치는 영향에 대한 관심이 증가하고 있으나, 대기오염이 조산에 이르는 매개 경로와 임신 주차별 취약 시기에 대한 체계적 분석이 부족하다. 또한 기존 연구들은 주로 직접 효과에만 초점을 맞추어 임신 합병증을 통한 간접 경로를 간과하였으며, 임신 전체 기간의 평균 노출만을 고려하여 특정 시기의 영향력을 규명하지 못하는 한계가 있었다. 연구목적: 본 연구는 임상 데이터와 대기오염 노출 데이터를 통합하여 머신러닝 및 딥러닝 기반의 조산 예측 모델을 개발하고, (1) PM2.5가 임신 합병증을 매개로 조산에 이르는 경로를 정량화하며, (2) Attention mechanism을 활용하여 합병증별 취약 시기를 발견하고, (3) 설명가능 인공지능(XAI) 기법으로 예측 요인을 분석함으로써, 조산 고위험군 선별 및 시기별 예방적 개입을 위한 과학적 근거를 제공하는 것을 목적으로 한다. 연구방법: 2022년부터 2024년까지 국내 14개 의료기관에서 출산한 산모 7,052명을 대상으로 후향적 코호트 연구를 수행하였다. 임상 데이터는 전자의무기록에서 추출하였으며, 임신 분기별 산모의 인구학적 특성, 산과력, 신체계측, 혈액검사, 초음파 검사 결과, 임신 합병증 등을 포함하였다. 대기오염 노출 데이터는 국가 대기질 측정망의 PM2.5, PM10, O3, NO2, SO2, CO 농도를 산모의 거주지 행정구역 기준으로 임신 주차별(1-42주)로 산출하여 시계열 구조를 반영하였다. 조산은 재태연령 37주 미만 분만으로 정의하였다. 매개분석을 위해 PM2.5 노출과 4가지 임신 합병증(IUGR, 자간전증, GDM, PIH)을 경로로 하는 CatBoost 기반 모델을 구축하여 매개효과를 AUC 향상도로 정량화하였다. 취약 시기 발견을 위해 Attention mechanism이 통합된 LSTM 모델을 개발하여 합병증별로 주차별 중요도 가중치를 산출하였다. 예측 모델은 4-Tier 비교 프레임워크(Tier 1: 임상+ML, Tier 2: 임상+DL, Tier 3: 임상+환경+ML, Tier 4: 임상+환경+DL)를 적용하여 체계적으로 평가하였다. 머신러닝 알고리즘으로는 CatBoost, XGBoost, Random Forest를 사용하였으며, 딥러닝 알고리즘으로는 Attention-LSTM과 1D CNN을 구현하였다. 클래스 불균형 문제 해결을 위해 SMOTE 기법을 사용하였으며, CatBoost와 Attention-LSTM의 예측 확률을 가중 평균으로 결합한 하이브리드 앙상블 모델을 구축하였다. Grid search를 통해 최적 가중치를 탐색하였으며, 5겹 교차검증을 통해 모델 성능을 평가하였다. SHAP(SHapley Additive exPlanations) 분석을 통해 변수 중요도, 예측 방향성, 상호작용 효과를 분석하고, Attention weight와의 이중 검증으로 취약 시기의 신뢰성을 확보하였다. 연구결과: 전체 대상자 중 1,133명(16.7%)이 조산으로 분만하였다. 조산으로 분만한 임산부에게 임신기간 동안 노출된 PM2.5 농도는 평균 23.4±8.7 μg/m³로 WHO 권고 기준(15 μg/m³)을 크게 초과하였다. PM2.5는 조산이나 임신성 당뇨 등 임신 합병증을 일으키는 매개변수로 작용하였으며, 자궁 내 성장 지연 경로(+0.0300 AUC), 자간전증 경로(+0.0288 AUC), 임신성 당뇨 경로(+0.0204 AUC), 임신성 고혈압 경로(+0.0136 AUC) 모두 양의 매개효과를 나타냈다. Attention mechanism 분석을 통해 합병증별 고유한 취약 시기가 발견되었다: 임신성 당뇨는 22-27주(인슐린 저항성 최고조 시기), 자궁 내 성장 지연은 1-4주 및 13-16주(착상 및 태반 발달 시기), 자간전증은 7-11주(나선동맥 재형성 시기)에 집중된 attention weight를 보였다. SHAP 분석 결과 임신성 당뇨는 27주, 자궁 내 성장 지연은 13주, 자간전증은 15주에 최고 중요도를 나타내어 Attention 분석과 높은 일치도를 보였다. 4-Tier 예측 모델 비교에서, 임신성 당뇨 예측은 Tier 3(임상+환경+ML)에서 AUC 0.6862로 최고 성능을 보여 환경 변수가 +1.04%p 기여하였다. 자궁 내 성장 지연 예측은 Tier 1(임상+ML)에서 AUC 0.9175로 최고 성능을 보였으며, 이는 3분기 태아 발육 지표의 압도적 예측력에 기인하였다. 자간전증 예측은 하이브리드 앙상블에서 AUC 0.8918로 단독 ML(0.8885)을 상회하여 ML과 DL 결합의 가치를 입증하였다. 하이브리드 앙상블 모델은 Grid search 결과 모든 합병증에서 일관되게 75:25(CatBoost:Attention-LSTM) 비율이 최적으로 나타났다. 임신성 당뇨 예측에서 앙상블은 AUC 0.6846, 민감도 0.618, 특이도 0.651, F1 0.330을 달성하였다. 자궁 내 성장 지연 예측에서는 AUC 0.9149, 민감도 0.840, 특이도 0.856, F1 0.503을 기록하였다. 자간전증 예측에서는 AUC 0.8918, 민감도 0.795, 특이도 0.837, F1 0.426을 달성하였다. SHAP 분석 결과, 3분기 태아 발육 지표(태아 체중 백분위수, 복부둘레, 추정 체중)가 가장 강력한 예측 변수였으며, 환경 변수의 직접 기여는 제한적이었으나 이는 3분기 임상 지표가 이미 누적된 환경 노출 효과를 매개하고 있음을 시사한다. 딥러닝 모델은 전통적 머신러닝 대비 예측 성능은 낮았으나(평균 AUC 3-5%p 차이), 이는 표 형태 임상 데이터의 구조적 특성에 기인하며, 딥러닝의 가치는 Attention mechanism을 통한 취약 시기 발견과 시계열 패턴 학습에 있음이 확인되었다. 결론: 본 연구는 임상 데이터와 환경 데이터를 통합한 머신러닝 기반 조산 예측 모델이 합병증별로 높은 정확도(임신성 당뇨 AUC 0.686, 자궁 내 성장 지연 AUC 0.915, 자간전증 AUC 0.892)를 달성할 수 있음을 입증하였다. 핵심 발견으로는 첫째, PM2.5가 조산에 미치는 영향은 임신 합병증을 통한 간접 경로가 주요 기전임을 매개분석으로 정량화하였다. 둘째, Attention mechanism과 SHAP의 이중 검증을 통해 합병증별 고유한 취약 시기(임신성 당뇨 22-27주, 자궁 내 성장 지연 1-4·13-16주, 자간전증 7-11주)를 발견하였으며, 이는 병태생리학적 기전과 높은 일치도를 보였다. 셋째, 하이브리드 앙상블 모델이 전통적 머신러닝의 예측 안정성과 딥러닝의 해석 가능성을 동시에 달성할 수 있음을 확인하였다. 환경 변수는 임신 초기부터 측정 가능하고 정책적으로 수정 가능하며, 매개 경로 분석과 취약 시기 발견에 필수적인 역할을 하여 시기별 예방적 개입의 표적이 될 수 있다. 딥러닝은 예측 성능보다는 임상적 해석 도구로서의 가치가 크며, 특히 Attention mechanism은 데이터 기반 취약 시기 발견의 혁신적 방법론으로 활용될 수 있다. 개발된 모델과 발견된 취약 시기는 산전 관리의 위험 계층화 및 시기별 집중 관리 도구로 활용될 수 있으며, 임상 의사결정 지원 시스템으로 발전할 잠재력을 지닌다. 향후 다기관 전향적 연구, 환경 개입 연구, 실시간 모니터링 시스템 구축을 통해 취약 시기 기반 예방 전략의 효과를 검증하고, 조산 예방을 위한 통합적 모자보건 정책 수립에 기여할 수 있을 것이다.

      • Towards Seamless Edge Intelligence : Overcoming Edge Localization and Security Challenges

        유예원 이화여자대학교 대학원 2024 국내석사

        RANK : 249679

        많은 수의 단말기 (Edge Device)가 사용되면서, 단말에서 수집 및 발생하는 데이터 (Data)를 다른 기기로 보내지 않고 해당 단말기 상에서 처리하여 지식을 추출하고 지능을 형성하여 응용하는 기기 상의 지능 (On-device Intelligence)이 활발하게 연구되고 있다. 기기 상의 지능은 네트워크 사용량을 줄이고 및 사용자 정보 보호 수준을 향상시킨다. 또한, 기기 상에서 즉시 결정이 이루어지기 때문에, 사용자에게 빠른 지능 서비스를 제공할 수 있다는 장점이 있다. 최근 사용되고 있는 단말기 중에는 모바일 단말기 (Mobile Edge Device)의 수가 많은데, 이 단말기를 이용하여 기기 상의 지능을 구현하기 위해서는 새로운 문제들을 해결해야 한다. 모바일 단말기는 사용자와 함께 새로운 장소로 이동함에 따라 지속적으로 새로운 장소를 파악하고 그에 적응한 지능 서비스를 끊김 없이 제공할 수 있어야 한다. 본 논문에서는 1) 장소 기반 서비스 (Location-based Service) 제공을 위한 기기 위치 파악, 2) 안전한 연합 학습 (Federated Learning)을 위한 주변 기기 신뢰도 측정 및 선택의 두 가지 문제로 이를 구체화하였다. 첫 번째 문제 해결을 위해서는 실내 측위를 위해 요구되는 핑거프린트 맵 (Fingerprint Map)을 새로운 장소에서 직접 신호 세기를 수집하지 않고 파악한 장소에 대한 정보인 AP (Access Point)의 위치와 대략적인 장애물 정보, AC- 75 GAN과 DNN을 이용하여 생성하고, 즉시 새로운 장소에서의 측위를 가능하게 하는 프레임워크 (Framework)인 CollageMap을 제안하였다. 다양한 신호(Radio) 종류와 실내 장소에서의 데이터를 이용한 검증 과정을 통해 CollageMap이 전혀 새로운 데이터를 수집하지 않고도 실내 장소에서 직접 수집한 데이터를 사용하는 것과 14.6 %의 성능 차이만을 보이며 정확한 측위 성능을 보였다. 이를 통해 보다 정확하고 즉각적인 실내 측위가 가능하며, 신호의 특성을 학습하는 인공지능 모델 (Artificial Intelligent Model) 통해 노동 집약적인 실내 측위 과정을 간소화했다는 데에 그 의의가 있다. 두번째로, 최근 여러 기기들이 가지고 있는 학습 데이터를 공유하지 않고 연합학습을 하는 온 디바이스 러닝 (On-device Learning)을 새로운 장소에서 새로 만난 기기와 함께 안전하게 진행하기 위한 프레임워크인 Breakwater 를 제안하였다. B reakwater 는 여러 기기와 함께 모델 가중치 (Model Weight) 공유를 통하여 하나의 글로벌 모델 (Global Model)을 학습시킬 때에, 글로벌 모델을 정상적으로 작동하지 못하게 하려는 의도를 가진 공격 기기를 전송받은 가중치를 이용하여 판별하고, 글로벌 모델의 학습 상황에 따라 학습에 해당 기기로부터의 가중치를 학습에 반영할지 혹은 차단할지를 결정하는 프레임워크이다. 다양한 실험상황에서 Breakwater 는 악의적인 기기를 성공적으로 판별하여 악의적인 가중치를 제거하였고, 악의적인 기기를 완벽히 제거할 때와 유사한 성능의 글로벌 모델을 학습시킬 수 있음을 확인하였다. 이는 각각의 기기가 최선형 (Best-effort) 방어를 통해 악의적인 기기를 최대한 차단함과 동시에 각각의 기기가 가진 데이터를 최대한 활용하는 연합학습 (Federated Learning)을 할 수 있게 하는 데에 기여하였다. 본 논문은 지능형 모바일 단말기가 이동하며 끊김 없는 지능형 서비스를 제공하기 위해 해결해야 하는 두 가지 문제를 구체적으로 정의하였다. 이를 통해 상호 연결된 기기들이 존재하는 현실의 환경에 기반하여 향후 더욱 안전하고 신뢰 가능하며 유용한 엣지 인텔리전스 (Edge Intelligence)를 현실화할 수 있는 토대를 마련하였다. The growth in number of edge devices utilized by the users emphasizes the significance of edge intelligence including on-device data analysis, computation, and real-time decision- making proximal to data sources, mitigating latency and preserving user privacy. This trend also empowers devices to maintain functionality despite disruptions in central server connectivity while optimizing bandwidth utilization by minimizing data transmission across networks. In the rapidly evolving landscape of edge intelligence, the proliferation of diverse mobile devices has underscored the need for agile decision-making capabilities adapting to the surrounding environment. This thesis delves into the challenges and complexities faced by mobile edge nodes, particularly in two interrelated domains. Initially, the focus is on precise indoor localization, pivotal for real-time navigation and personalized services in indoor settings where the Global Positioning System (GPS) lacks accuracy. Fingerprint-based localization, leveraging the unique signal strengths of Wi-Fi or Bluetooth, is explored. However, constructing robust radio maps used as fingerprints remains challenging due to the dynamic nature of edge device environments. To address this, CollageMap, a two-stage radio fingerprint map generative model, is proposed to facilitate efficient localization across diverse settings on the fly. The second domain concerns the security of federated learning, a method aggregating models from various edge nodes, vulnerable to security threats like model poisoning attacks. To counteract this, Breakwater, a novel defense framework, is introduced. It employs on-device malicious weight discrimination to identify and filter out poisonous weights, safeguarding the ix integrity of global models in multi-hop federated learning environments. This thesis contributes to the understanding and implementation of edge intelligence, offering comprehensive solutions to challenges encountered by mobile edge nodes. The proposed methodologies, CollageMap and Breakwater, offer innovative approaches to indoor localization and mitigate security threats in federated learning systems. Through the work presented in this thesis, a basis is laid for future exploration and progress, imagining a forthcoming era where edge intelligence smoothly becomes a part of our interconnected globe, delivering increased reliability, security, and adaptability in diverse environments.

      • Modality-Agnostic Knowledge Construction via Modality Translation in Federated Learning

        김수경 이화여자대학교 대학원 2026 국내석사

        RANK : 249663

        OpenAI의 GPT, Google의 Gemini, Anthropic의 Claude 등과 같은 파운데이션 모델 패러다임은 인간의 지능 작용 방식과 유사하게 다양한 모달리티를 활용한 인공지능 학습을 제시함으로써 과학 및 기술 동향을 변화시키고 있다. 동시에, 엣지 디바이스의 활용이 빠르게 증가하여 센서와 여러 형식으로 구성된 다중 모달리티 데이터 또한 증가하고 있다. 그러나 전에 없이 풍부한 데이터와 인공지능의 발전 잠재성에도 불구하고, 현재 대부분의 인공지능 연구는 엣지 디바이스가 창출하는 다중 모달리티 데이터 활용을 위한 기반 기술 설계에 미흡한 성과를 보이고 있다. 이 연구는 다중 모달 연구의 핵심 아이디어(타 모달리티로부터 추가적 지식을 얻는 것)와 분산 학습의 특성(단일 모달리티만 다루는 디바이스)을 연결하여, 다중 모달 연구와 실질적 환경(데이터 및 디바이스) 간 존재하는 간격을 해소하는 것을 목표로 한다. 이를 위해, MTFL이라는 다중 번역 연합 학습 구조를 제안한다. 제시하는 구조는 모달리티에 특화된 지식을 일반 모달리티에 구애받지 않는 융합적 지식 공간으로 투영하는 방식으로 지식 공간을 확장한다. 서버는 VAE 인코더-디코더로 구성된 글로벌 모델을 가지며, 모달리티에 구애받지 않는 번역을 수행하기 위해 통합된 지식을 개별 클라이언트에 맞춘 모달리티 특화 지식으로 재번역한다. 이 과정은 분산 환경 내에서 단일 디바이스가 맞춤형 지식을 받아 학습하는 데 효율적이며 다양한 후속 태스크를 수용하기에 용이하다. 실험 결과는 CUB-200-2011, AwA2, Food-101, MS-COCO 데이터셋을 사용하여 여러 알고리즘과 비교하여 그 효과를 검증하였다. 특히, CUB-200-2011에서 본 연구는 이미지 및 텍스트 분류 태스크에서 각각 84.14%와 44.12%의 성과를 보였으며, FL 환경에서는 82.42%와 42.77%로 비교 알고리즘들에 비해 뛰어난 성능을 입증하였다. The paradigm of foundation models has shifted the technology trends through guiding a well-established model towards intelligence across a variety of modalities similar to human intelligence. At the same time, the growth of utilizing edge devices grows rapidly, acquiring multi-modal data at the client sides. However, despite this abundance of data and the unparalleled potential of development in artificial intelligence, the majority of current research has not taken into account effective multi-modal knowledge construction in the distributed resource-scarce device environments. This work aims to bridge the gap between the core ideas of multi-modal research (for yielding general knowledge from additional modalities) and the characteristics of distributed-settings (under limited devices with single modality). We propose a multi-translation federated learning architecture called MTFL, by making the server infuse modality-specific knowledge into a general modality-agnostic knowledge space via one-to-all translation as a bridge and reservoir, expanding the knowledge space across modalities. A single device is able to learn uncovered knowledge derived from a unified knowledge space at the server, while the server with a global model consisting of VAE encoder-decoders, performs modality-agnostic translation. Further, after constructing general modality-agnostic knowledge, MTFL translates the unified model back into modality-specific knowledge tailored to individual clients, facilitating the accommodation of various downstream tasks. The experimental results validate its effectiveness across multiple baselines using the CUB-200-2011, AwA2, Food-101, and MS-COCO datasets. Notably, on the CUB-200-2011, our MTFL performs 84.14% and 44.12% for image and text classification tasks, respectively; in the FL settings, with 82.42% and 42.77%.

      • 호흡측정용 IR-UWB 레이더 센서 데이터 기반 LSTM 학습모델 설계 및 구현

        백지원 이화여자대학교 대학원 2021 국내석사

        RANK : 249663

        본 논문에서는 질병의 전염 등의 부담스러운 접촉식 호흡측정방식을 지양하고 비접촉식으로 호흡을 측정할 수 있는 Xethru사에서 개발한 IR-UWB 방식을 사용한 비접촉식 호흡센서를 이용하여 사람의 호흡을 측정하고 데이터를 수집하였다. IR-UWB는 단거리레이더로 사람이 호흡할 때 폐의 팽창과 수축작용에 의해 움직이는 폐의 미세한 상하운동을 mm단위로 감지하여 데이터를 수집하고 이것으로 호흡패턴을 분석할 수 있다. 생체신호를 활용하는 인공지능 분야는 신체적 질병을 미리 예측할 수 있는 시계열 심화 학습모델을 중심으로 활발한 연구가 진행중이다. 호흡 또한 호흡패턴에 담겨있는 있는 의미를 심화학습 모델인 LSTM으로 학습하고 예측하면 각종 폐질환 발견과 예측에 적용할 수 있다. LSTM 학습모델의 적용에 따른 하이퍼파라미터의 최적 선택은 생체신호를 활용한 질병발생 예측 모델의 유용성을 높일 수 있다. 본 논문에서는 IR-UWB로 레이더 센서를 통한 비접촉식으로 수집한 호흡데이터를 인공지능 모델 중 시간에 관련된 순차 데이터를 모델링 하기 적합하고 정확도가 높은 LSTM 학습모델을 활용하여 학습시켜 보고 반복적인 실험을 통해 호흡데이터의 진폭과 파장에 적합한 최적의 하이퍼파라미터에 대해 실험적 분석과 검증을 다루었다. 실험결과를 통해 IR-UWB 비접촉식 호흡센서로 호흡정보를 수집하고 수집된 호흡 데이터로부터 학습된 LSTM 모델의 유용함을 확인하였고 하이퍼파라미터의 최적화 과정을 통해 실제 적용 가능함을 제시하였다. This thesis deals with LSTM learning model to treat data set gathering from IR-UWB radar sensor. Various vital signal measurements are used as various indicators such as disease prediction and real-time monitoring of patients. In the case of respiratory data, the cycle and amplitude can be analyzed to find a variety of information about the patient's health status such as aging and disease. After collecting breathing data, we can find a lot of information about the current human body. It is currently a burdensome measurement method that requires wearing a sensor or band on the chest or connecting a hose or instrument to get the respiratory tract of the human body. In experimental process, the IR-UWB sensor module developed by Xethru was used to measure the signal of human breathing and collect the corresponding data using a non-contact mode. IR-UWB is a short-range radar that collects data by detecting minute vertical movements of the lungs that move by the expansion and contraction of the lungs when a person breathes, and can be used to categorize the breathing pattern. The combination of captured biological signals and predicted signals makes it possible to predict the possibility of human diseases in advance. From respiration data set, we can also predict various lung diseases in advance by analyzing breathing patterns using LSTM deep learning model. LSTM learning model is optimized by selecting proper hyperparameter to get highly adapted model for predicting the good estimation. Firstly, breathing data collected in a non-contact manner through a radar sensor equipped with IR-UWB are trained using the LSTM learning model and analyzed experimental hyperparameter suitable for adjusting the real breathing signals. Finally various experimental results are verified to calculate optimal hyperparameters and are tested to modify LSTM learning model configuration. Further research will be done with more experimental approach and other deep learning models.

      • 법률 문서 검색의 향상 : 딥러닝 언어 모델의 임베딩 적용 가능성 탐구

        이수빈 이화여자대학교 대학원 2025 국내석사

        RANK : 249663

        본 연구는 문서 검색에 인공지능 기반 임베딩 벡터를 활용하여 더 정확하고 빠른 검색 서비스를 구현하고자 한다. 기존의 키워드 기반 검색은 단어 일치 여부에만 의존하여 문맥과 의미를 충분히 반영하지 못하는 한계가 있으며, 특히 법률 문서와 같이 복잡한 문맥 해석이 필요한 분야에서는 사용자가 원하는 정보를 효과적으로 찾기 어려운 문제가 있다. 이를 해결하기 위해 본 연구는 BERT[1], Sentence-BERT[2], Longformer[3]와 같은 딥러닝 기반 언어모델을 사용하여 문서와 질의의 의미를 벡터로 표현하고, 코사인 유사도를 통해 문서 간 연관성을 평가하였다. 이러한 접근을 통해 단순한 키워드 매칭을 넘어 문맥과 의미 기반의 정교한 검색을 가능하게 하여, 법률 문서와 같은 전문 분야에서도 검색 효율성과 정확성을 크게 향상시킨다. 본 연구는 인공지능 기술을 활용한 검색 시스템의 발전 가능성을 탐구하고, 기존 검색 방식의 한계를 넘어선 새로운 패러다임을 제시하고자 한다. This study aims to implement a more accurate and faster document retrieval service using AI-based embedding vectors. Traditional keyword-based search methods rely solely on word matching, failing to fully capture the context and meaning of the content. This limitation is particularly problematic in fields such as legal document analysis, where interpreting complex contexts is essential for retrieving relevant information effectively. To address this issue, this research employs deep learning-based language models, such as BERT, Sentence-BERT, and Longformer, to represent the semantic meaning of documents and queries as vectors. The cosine similarity metric is used to evaluate the relationships between documents. This approach moves beyond simple keyword matching, enabling precise and context-aware searches, significantly improving efficiency and accuracy in specialized fields like legal documentation. This study explores the potential of AI-driven search systems and proposes a new paradigm that surpasses the limitations of traditional search methods.

      • eXplainable Edge Intelligence for Indoor Localization and Multi-Modal Learning

        정홍경 이화여자대학교 대학원 2025 국내석사

        RANK : 249647

        The rapid increase in the use of edge devices has driven advancements in their intelligence and capabilities. These devices, which range from mobile phones and IoT sensors to edge computing nodes, are now capable of performing complex tasks locally, providing various possibilities for real-time services even in resource-constrained environments. However, as these edge devices take on more responsibilities, significant challenges remain in maintaining model transparency, interpretability, and optimal performance under limited computational resources. This thesis proposes a framework that enhances the explainability of indoor localization by incorporating explainable AI techniques used in computer vision and improves performance through multi-modal federated learning. First, we address the issue of indoor localization, a key application for location-based services on edge devices. Deep learning-based indoor localization models are challenging to interpret, functioning like a black box, which makes it difficult for users to trust and utilize them effectively. To overcome this, we introduce eXLoc, a novel framework incorporating Class Activation Mapping [21] to increase model transparency in indoor localization. Our approach introduces a new metric, Impact Score, which identifies and quantifies the influence of individual Access Points on model predictions. This allows us to assess the significance of each AP and provides clear insights into factors impacting localization accuracy. Second, we address the challenge of Visual Question Answering tasks across clients with heterogeneous data distributions by leveraging federated learning on edge devices. Federated Learning offers a privacy-preserving approach that enables model training on decentralized devices without directly sharing sensitive data. Moreover, we make the benefits of FL interpretable and easy to understand by visualizing and quantifying the results in both FL and non-FL environments. Additionally, our framework highlights which modality (e.g., visual or textual features) should be prioritized on resource-constrained edge devices, thereby improving both interpretability and efficiency in the federated learning process. In summary, this study presents a practical solution that enhances the performance of indoor localization and multi-modal Visual Question Answering by integrating edge intelligence techniques. We improve the transparency of deep learning models used for indoor localization by incorporating explainable AI techniques, clearly visualizing the key factors that influence model predictions, thereby increasing user trust. Additionally, we leverage federated learning for multi-modal VQA tasks to preserve data privacy while optimizing model training efficiency. By prioritizing modalities on resource-constrained edge devices, we enhance both interpretability and efficiency. This approach enables edge devices to operate more effectively, securely, and practically in a variety of real-world scenarios, making AI applications more feasible and reliable. 엣지(Edge) 기기의 사용이 점차 증가함에 따라, 엣지 기기를 활용한 딥러닝 기술이 빠르게 발전하고 있다. 이러한 기술을 통해 엣지 기기는 점점 더 지능화되어 다양한 사용자 맞춤형 서비스를 제공할 수 있게 되었다. 하지만 이러한 엣지 지능화 기술이 발전함할수록 모델의 설명 가능성(explainability) 부족이 큰 문제로 대두되고 있다. 사용자들이 모델의 예측 결과를 이해하고 신뢰하기 위해서는 모델의 의사결정 과정을 설명할 수 있어야 하지만, 딥러닝 기반 엣지 기기는 높은 복잡도로 인해 해석이 어려운 경우가 많다. 이에 본 연구는 엣지 지능에서 모델의 성능과 설명 가능성을 동시에 향상시키는 것을 목표로 하며, 두 가지 주요 응용 분야를 중심으로 연구를 진행하였다. 1) 딥러닝 기반 실내 위치 추적 2) 연합 학습을 활용한 멀티모달 시각 질문 응답(VQA) 첫 번째 연구에서는 실내 위치 추적 기술의 해석 가능성을 높이는 것을 목표로 한다. 실내 위치 추적은 GPS 신호가 약하거나 차단된 환경에서 Wi-Fi, Bluetooth, 기타 센서 데이터를 기반으로 사용자의 위치를 추정하는 기술이다. 하지만 기존의 딥러닝 기반 위치 추적 모델은 모델의 예측 결과를 사용자에게 설명하기 어렵다는 한계가 있다. 이를 해결하기 위해, 본 연구에서는 'eXLoc' 프레임워크를 제안하였다. 이 프레임워크는 Class Activation Mapping (CAM)을 활용하여 액세스 포인트(AP)의 중요도를 평가하는 임팩트 스코어(Impact Score)를 도입하였다. 실제 RSSI 데이터셋을 통해 eXLoc이 임팩트 스코어와 위치 추적 성능 간의 상관관계를 잘 설명하는 것을 검증하였으며, 잘못된 예측에 대한 원인을 분석하여 정확도 개선에 기여할 수 있는 방법을 제시하였다. 두 번째 연구에서는 연합 학습(Federated Learning)을 활용하여 멀티모달 VQA(Visual Question Answering) 모델의 성능을 개선하고, 설명 가능성을 제공하는 방법을 연구하였다. 연합 학습은 여러 기기가 데이터를 공유하지 않고도 협력하여 모델을 학습할 수 있는 방법으로, 데이터가 각 기기에서 로컬로 유지되어 데이터 프라이버시를 보장할 수 있는 장점이 있다. 본 연구에서는 다양한 도메인을 가진 클라이언트들 간에 연합 학습을 적용함으로써 멀티모달 VQA 모델의 성능이 향상됨을 확인하였으며, Explainable AI (XAI) 기법을 통해 각 모달리티(예: 시각 및 텍스트 정보)가 연합 학습을 통해 어떻게 개선되는지를 시각화하여 사용자에게 직관적으로 이해할 수 있는 설명을 제공하였다. 이를 통해 특정 모달리티가 모델 성능에 미치는 영향을 시각적 결과로 직관적으로 이해할 수 있도록 하였으며, 수치적 분석을 통해 설명력을 더욱 강화하였다. 본 연구의 의의는 엣지 지능 기술에서 설명 가능성을 강화하여 모델의 예측 결과에 대한 신뢰성과 투명성을 높이는 데 있다. 엣지 기기와 같은 제한된 환경에서도 사용자가 모델의 예측을 쉽게 이해하고 활용할 수 있도록 지원함으로써, 스마트 홈, 헬스케어, 교통 등 다양한 분야에서 엣지 기기가 보다 효과적이고 안전하게 활용될 수 있도록 기여할 것으로 기대된다.

      • 졸음 운전자의 효과적인 각성을 위한 피드백 설계 및 평가

        김경옥 이화여자대학교 대학원 2025 국내석사

        RANK : 249647

        본 연구는 운전자의 졸음 각성을 효과적으로 유도하고 긍정적인 사용자 경험을 제공할 수 있도록, 인공지능이 운전자 졸음 감지 후 제공하는 상황의 피드백을 설계하고, 그 효과를 실증적으로 비교 분석하는 것을 목적으로 한다. 기존의 운전자 모니터링 시스템(Driver Monitoring Systems, DMS)은 주로 생체 신호 및 행동 지표를 통해 운전자의 졸음 상태를 감지하는 기술적 정밀도를 높이는 데 집중해왔으나, 감지 이후 운전자의 각성을 효과적으로 유도하기 위한 피드백 인터랙션(Feedback Interaction)에 대한 연구는 상대적으로 미흡하며, 대부분 단순 청각 경고음에 의존하여 실효성이 제한적이라는 한계를 지닌다.이를 위해 본 연구에서는 운전자의 개입 수준에 따라 피드백 유형을 1) 수동적-청각형, 2) 능동적-인지형, 3) 능동적-행동유도형으로 체계적으로 분류하고 설계하였다. 12명의 운전자를 대상으로 통제된 시뮬레이션 환경에서 각 피드백을 체험하게 하였으며, 7점 척도를 이용한 정량적 평가와 심층 인터뷰를 병행하는 혼합 연구 방법을 적용했다. 수집된 데이터는 프리드먼 검정(Friedman Test) 및 윌콕슨 부호 순위 검정(Wilcoxon Signed Rank Test)을 통해 분석하였다. 연구 결과, 운전자의 인지적·행동적 참여를 요구하는 능동적 피드백 유형이 수동적 피드백에 비해 졸음 각성 효과(χ2 =6.05, p<0.05)와 집중 유지 효과(χ2 =10.59, p<0.01) 모두에서 통계적으로 유의미하게 우수했다. 특히 사후 분석 결과, 이러한 차이는 중간에서 아주 큰 수준의 효과 크기(r = 0.58 ~ 0.80)를 가지는 것으로 나타나, 실질적 효과성을 입증했다. 그중에서도 퀴즈 기반의 ‘능동적-인지형 피드백'은 집중 유지 항목에서 ‘아주 큰 효과(r=0.80)’를 보이며 가장 뛰어난 성능을 보였고, 종합 선호도 조사에서도 가장 선호되는 방식으로 확인되었다. 주목할 점은, 이러한 결과가 참여자들이 평소에 사용하는 졸음 대처 방식과 달랐다는 것으로, 이는 '새로움 효과(Novelty Effect)'와 함께 상호작용의 인지적 깊이가 시스템 수용도에 중요한 변수임을 시사한다. 결론적으로, 본 연구는 단순 감각 자극을 넘어 운전자의 인지적 참여를 유도하는 능동적 피드백의 우수성을 실험적으로 입증하였으며, 이는 향후 DMS가 단순 경고 시스템을 탈피하여 사용자와 능동적으로 상호작용하는 지능형 주행 파트너로 발전하기 위한 실증적 토대와 사용자 중심의 설계 방향성을 제시한다. This study aims to design and empirically evaluate the effectiveness of different feedback types provided by an artificial intelligence system after detecting driver drowsiness, with the goal of effectively inducing arousal and ensuring a positive user experience. Conventional Driver Monitoring Systems (DMS) have predominantly focused on the technical precision of detecting drowsiness through biometric signals and behavioral indicators. However, research into feedback interactions for effective post-detection arousal remains underdeveloped. Most systems rely on simple auditory warnings, which limits their practical effectiveness. To address this, the study classifies and designs three feedback types based on the driver's level of engagement: 1) Passive-Auditory, 2) Active-Cognitive, and 3) Active-Behavioral. We conducted a study with 12 drivers who experienced each feedback type in a controlled simulation environment. A mixed-methods approach was used, combining quantitative evaluation on a 7-point scale with qualitative evaluation through in-depth interviews. The collected data were analyzed using the Friedman and Wilcoxon signed-rank tests. The results showed that active feedback types, which require the driver's cognitive and behavioral engagement, were statistically significantly superior to passive feedback in both arousal effect (χ2 = 6.05, p < 0.05) and attention maintenance (χ2 = 10.59, p < 0.01). Post-hoc analysis confirmed the practical significance of this difference, revealing medium to very large effect sizes (r = 0.58–0.80). Notably, the quiz-based‘Active-Cognitive’feedback demonstrated the most outstanding performance, particularly in attention maintenance with a‘very large effect’(r = 0.80), and was also the most preferred method in the overall survey. Interestingly, this outcome contrasted with participants' self-reported, real-world coping mechanisms for drowsiness, suggesting that the cognitive depth of the interaction and a potential ‘Novelty Effect’ serve as critical variables for system acceptance. In conclusion, this study experimentally demonstrates the superiority of active feedback that induces cognitive participation over simple sensory stimuli. This provides an empirical foundation and a user-centered design direction for evolving future DMS from simple alert systems into intelligent driving partners that actively interact with the user.

      • Large Vision Model Pre-training via Corruption-Reconstruction based Approach

        최혜송 이화여자대학교 대학원 2025 국내박사

        RANK : 249647

        As recent advancements in industry-scale foundation models—such as OpenAI’ s ChatGPT and Google’ s Gemini—continue to set new performance milestones, the role of academic research in the era of large-scale AI has become increasingly ambiguous. These models, built on massive computational infrastructures and immense datasets, have significantly narrowed the margin for improvement in terms of raw capability. Confronted with the reality that most academic institutions cannot compete on the same computational scale, we begin this dissertation with a fundamental question: What, then, is the most meaningful contribution academia can make in this new AI landscape? Motivated by this inquiry, we argue that academic research must lead the effort in developing efficient learning methodologies that allow large-scale models to be trained with fewer computational resources, less time, and minimal human supervision. This work thus focuses on the central question of how to make the training of large-scale models more scalable, affordable, and accessible, but without sacrificing performance. To this end, we investigate self-supervised representation learning (SSL), which has emerged as a key paradigm for extracting meaningful features from unlabeled data across a wide array of domains, including computer vision and reinforcement learning. Building upon the SSL foundation, this dissertation systematically examines the critical bottlenecks in existing pre-training pipelines, such as the inefficiencies of prolonged training, the limitations of random masking in semantic token selection, the failure to capture fine-grained details, and the lack of global semantic alignment. In response, we propose a series of novel strategies, including masked token optimization, saliency-based adaptive masking, and uncertainty-guided diffusion-based learning, that improve the efficiency and effectiveness of representation learning. Notably, all of these methods are unified under a single corruption-reconstruction based framework, which serves as the conceptual backbone of this dissertation. Through extensive experiments across multiple downstream tasks, including image classification, semantic segmentation, object detection, instance segmentation, and fine-grained visual categorization, we demonstrate that the proposed framework not only reduces training cost but also enhances robustness and transferability, pointing to a viable academic pathway for shaping the future of foundation models. 최근 OpenAI의 ChatGPT, Google의 Gemini 등 산업 주도의 파운데이션 모델이 눈부신 성능 향상을 지속적으로 달성함에 따라, 대규모 인공지능 시대에서 학계의 역할은 점점 더 모호해지고 있다. 이들 모델은 방대한 연산 자원과 초대규모 데이터셋을 기반으로 구축되어, 모델 성능 향상을 위한 여지를 점점 좁혀가고 있으며, 이러한 현실은 학계가 산업계와 동일한 연산 규모로 경쟁하기 어렵다는 한계를 분명히 드러낸다. 본 학위논문은 이러한 상황에서 출발하여, 현시점에서 학계가 인공지능 분야에 실질적으로 기여할 수 있는 가장 의미 있는 방향은 무엇인가라는 근본적인 질문을 제기한다. 이 질문에 대한 고민을 바탕으로, 본 논문은 학계가 산업계와의 차별화된 역할로서 효율적인 학습 방법론 개발을 주도해야 함을 주장한다. 즉, 대규모 모델을 성능 저하 없이, 보다 적은 연산 자원과 시간, 그리고 최소한의 감독 신호만으로도 학습할 수 있도록 하는 전략적 접근이 학계의 핵심 과제가 되어야 한다. 이러한 관점에서, 본 연구는 최근 다양한 분야에서 비지도 데이터로부터 유의미한 표현을 효과적으로 학습하는 핵심 패러다임으로 부상한 자가지도 표현 학습(Self-Supervised Learning, SSL)에 주목한다. SSL을 기반으로, 본 논문은 기존 대규모 모델 사전학습(pre-training) 과정의 핵심 병목 지점들을 체계적으로 분석하였다. 구체적으로는, 과도하게 긴 학습 시간으로 인한 비효율성, 무작위 마스킹이 갖는 비의미적 토큰 선택 문제, 세밀한 시각 정보의 표현 부족, 그리고 전역 의미 정렬(global semantic alignment)의 부재 등의 한계를 지적한다. 이를 해결하기 위해, 본 논문은 마스킹 토큰 최적화(masked token optimization), 시각적 중요도 기반 적응형 마스킹(saliency-based adaptive masking), 불확실성 기반 디퓨전 학습(uncertainty-guided diffusion-based learning) 등의 새로운 전략들을 제안한다. 특히 주목할 점은, 이러한 모든 기법들이 하나의 손상-복원 (corruption-reconstruction) 기반 프레임워크로 통합되어 있다는 점이며, 이는 본 논문의 개념적 핵심 축을 형성한다. 제안된 프레임워크는 이미지 분류, 의미 분할, 객체 탐지, 인스턴스 분할, 정밀 시각 분류 등 다양한 다운스트림 태스크에서 실험적으로 검증되었으며, 학습 비용을 절감하면서도 표현의 견고성과 전이 성능을 동시에 향상시킬 수 있음을 입증하였다. 본 연구는 이러한 결과를 바탕으로, 학계가 대규모 모델의 미래를 설계함에 있어 실질적이고 지속 가능한 기여를 할 수 있는 방향성을 제시한다.

      • AI-Supported Art Criticism : Enhancing Experience, Completeness, and Immersion through Feldman’s Framework

        Yang, Jiseon 이화여자대학교 대학원 2026 국내석사

        RANK : 249647

        Art appreciation has long been an integral part of human culture, and interest in museums has grown significantly. However, many visitors, especially non-experts, continue to struggle with engaging meaningfully with artworks. Traditional explanatory formats, such as wall texts and audio guides, provide valuable contextual information but remain one-directional and offer limited support for reflective thinking. Recent advances in AI have enabled the generation of detailed factual descriptions and interaction to some extent, yet the ways in which AI supports viewers' thinking and immersion during the art appreciation process have not been sufficiently explored. This study addresses the gap by combining Feldman’ s four-stage art critique framework(description, analysis, interpretation, and judgement) with an AI-driven interactive system designed to guide non-expert viewers through a structured critique process. By integrating a large language model with Feldman’ s art critique , the system offers reflective, stage-specific guidance to help viewers articulate observations, deepen interpretive thinking, and enhance immersive engagement. This study aims to investigate whether AI can help viewers organize their thoughts and enhance their immersion while appreciating artworks. A user study with twelve adults who had prior museum experience was conducted, and the findings empirically demonstrate that AI, when combined with Feldman$'$s structured art critique, can foster deeper cognitive engagement and increase immersion in art appreciation. 예술작품 감상은 오랫동안 인간 문화의 중요한 부분을 차지해왔으며, 미술작품 감상에 대한 관심은 꾸준히 증가하고 있다. 하지만 대다수의 일반 관람자는 미술감상에서 작품과 의미있게 교감하고, 감상하는데 어려움을 겪고 있다. 전통적인 설명 형식인 팜플렛과 오디오 가이드는 유용한 배경 정보를 제공하지만, 일방적인 설명 전달이며, 감상자의 감상 견해를 정리하고 구성하는 데 한계가 있다. 최근 인공지능 기술의 발전으로, 상세한 사실적 설명과 어느 정도 상호작용이 가능한 미술 감상 및 분석 기술이 등장하고 있으나, AI가 감상 과정에서 관람자의 생각과 몰입을 돕는 방식에 대해서는 아직 충분히 탐구되지 않았다. 이에 본 연구에서는 최근 각광받고 있는 대규모언어모델과 Feldman의 4단계 미술비평 (묘사,분석,해석,판단)을 결합한 인공지능 시스템을 제작하여, AI가 관람자가 미술 감상 시 사고를 정리하고, 몰입도를 높여 감상 경험을 유의미하게 향상하는지를 확인하고자 했다. 미술전시 감상 경험이 있는 성인 12명에 대해 유저스터디를 진행하였으며, AI가 미술 감상 시 관람자의 사고를 심화시키고, 감상 몰입도를 향상시킬 수 있음을 실험적으로 입증하였다.

      • A Comparative Study of UiPath, Zapier, and LangChain for AI-based RPA

        Fahimi, Tahera 이화여자대학교 대학원 2024 국내석사

        RANK : 249647

        This study conducts a comparative study of three leading tools UiPath, Zapier, and LangChain within the context of Robotic Process Automation(RPA) and Workflow Automation along with AI usage or AI-based RPA, specifically tailored for small business applications. Our research focuses on evaluating the performance of these tools across three practical automation tasks of document organization, email processing, and text translation which we believe exist in almost any business in some form. The result of each tool’s performance on each task is beneficial for providing small businesses with actionable insights into selecting appropriate automation tools for their own specific operational needs during office automation applications. The results of this study were collected through a series of real-world scenario tests where each tool was applied to specific automation challenges: downloading attachments from emails, translating a list of customer feedback from one language to another, and classifying PDF documents into invoices, contracts, or MOUs with subsequent actions for each category. Each tool is assessed based on its performance across four scenarios per task. Additional fields of comparison provided in this study include the availability of free versions, the current version of each tool, popularity, compatibility, intelligence, user interface, user skill requirement, and easiness of use. Our findings are presented through a performance comparison table and a general comparison table, highlighting that UiPath demonstrates ease of use and a moderate level of intelligence, showcasing strong performance with average run-time(execution time). LangChain, although challenging to use due to coding complexity, offers a high level of intelligence. However, its performance remains somewhat unstable as it is still under development. Zapier excels in usability but falls behind in speed and intelligence compared to UiPath and LangChain. These results and technical data on how each application is developed in our wok can provide a general guidance for small businesses and individuals choose the most suitable automation tool when applying automations. Looking ahead, the research landscape is expected to broaden significantly. Future studies may delve into detailed comparisons of workflow automation tools across specialized sectors such as finance, healthcare, and governance. Furthermore, the security and privacy implications associated with each automation tool and framework in the context of AI-based RPA development will be a crucial topic to address as these technologies advance. 본 연구에서는 RPA(로보틱 프로세스 자동화) 및 워크플로 자동화와 함께 AI 사용 또는 AI 기반 RPA(특히 중소기업 애플리케이션에 맞춤화됨)의 맥락에서 세 가지 주요 도구인 UiPath, Zapier, LangChain에 대한 비교 연구를 수행합니다. 우리의 연구는 어떤 형태로든 거의 모든 비즈니스에 존재한다고 생각되는 문서 구성, 이메일 처리 및 텍스트 번역의 세 가지 실제 자동화 작업에 걸쳐 이러한 도구의 성능을 평가하는 데 중점을 둡니다. 각 작업에 대한 각 도구의 성능 결과는 사무 자동화 애플리케이션 중 특정 운영 요구 사항에 맞는 적절한 자동화 도구를 선택하는 데 실행 가능한 통찰력을 중소기업에 제공하는 데 도움이 됩니다. 이 연구 결과는 이메일에서 첨부 파일 다운로드, 고객 피드백 목록을 한 언어에서 다른 언어로 번역, PDF 문서를 송장으로 분류, 각 카테고리에 대한 후속 조치에 대한 계약 또는 MOU. 각 도구는 작업당 4가지 시나리오의 성능을 기준으로 평가됩니다. 본 연구에서 제공되는 추가 비교 분야에는 무료 버전의 가용성, 각 도구의 현재 버전, 인기도, 호환성, 인텔리전스, 사용자 인터페이스, 사용자 기술 요구 사항 및 사용 용이성이 포함됩니다. 우리가 조사한 내용은 성능 비교표와 일반 비교표를 통해 제시되며 다음 사항을 강조합니다. UiPath는 사용 편의성과 중간 수준의 지능을 보여주며 평균 런타임(실행 시간)에서 강력한 성능을 보여줍니다. LangChain은 코딩 복잡성으로 인해 사용하기 어렵지만 높은 수준의 지능을 제공합니다. 다만, 아직 개발 중이라 성능이 다소 불안정한 편이다. Zapier는 유용성은 뛰어나지만 UiPath 및 LangChain에 비해 속도와 지능이 뒤떨어집니다. 우리 작업장에서 각 애플리케이션이 어떻게 개발되는지에 대한 이러한 결과와 기술 데이터는 중소기업과 개인이 자동화를 적용할 때 가장 적합한 자동화 도구를 선택하는 데 일반적인 지침을 제공할 수 있습니다. 앞으로 연구 환경이 크게 확대될 것으로 예상됩니다. 향후 연구에서는 금융, 의료, 거버넌스 등 전문 분야 전반에 걸쳐 워크플로 자동화 도구를 자세히 비교할 수 있습니다. 또한 AI 기반 RPA 개발의 맥락에서 각 자동화 도구 및 프레임워크와 관련된 보안 및 개인정보 보호에 미치는 영향은 이러한 기술이 발전함에 따라 해결해야 할 중요한 주제가 될 것입니다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼