대형 언어 모델(LLM)을 활용하여 테이블 데이터의 분류, 회귀 및 결측값 보완 작업을 수행하고자 한다. LLM은 자연어 이해에 능숙하지만 구조화된 테이블 데이터 처리에는 한계가 있다. 이를 해결하기 위해 다양한 테이블 데이터로 LLM을 대규모 학습시키고, 이를 통해 테이블 데이터 이해와 자연어 이해의 장점을 결합하여 테이블 데이터 예측 작업을 향상시키고자 한다.
UniTabE는 다양한 테이블 구조에 적용 가능한 범용 사전 학습 프로토콜을 제안하여, 테이블 데이터의 의미 표현을 크게 향상시킴.
데이터 과학자들이 데이터 표준화 작업을 간단하고 효율적으로 수행할 수 있도록 Dataprep.Clean 라이브러리와 LLM 기반 에이전트를 결합한 CleanAgent 프레임워크를 제안합니다.
Truncated SVD 알고리즘을 그래픽 프로세서에서 효율적으로 구현하는 방법에 대한 연구
데이터 과학 분야에서 제약 조건을 고려한 Sinkhorn 유형 알고리즘의 중요성과 효율성
깊은 오토인코더를 효율적으로 압축하여 다변량 시계열 이상 감지 모델의 복잡성을 줄이는 방법을 제안합니다.
시간 순서 분석 및 모델링의 중요성
그래프 신경망 대리 모델을 위한 해석 가능한 파인튜닝 전략 소개
메모리스터 기반 Reservoir Computing은 복잡한 시계열 데이터를 효율적으로 처리하고 예측하는 데 탁월한 성능을 보입니다.
자기지도 학습은 레이블된 데이터에 대한 의존성을 줄이는 것이 주요 장점이며, 시계열 데이터에 대한 최신 SSL 방법을 종합적으로 검토한다.