본 논문에서는 옵션 헤징을 위한 새로운 리스크 감지 강화 학습 접근 방식을 제안하며, 이는 최종 손익의 테일 리스크를 최소화하면서 다양한 옵션 계약에 적용 가능한 통합 전략을 학습합니다.
대규모 언어 모델(LLM) 추론에서 텐서 병렬 처리 시 발생하는 통신 병목 현상을 완화하기 위해 활성화 압축 기술을 활용하면 지연 시간을 최대 2배까지 단축하면서도 모델 성능 저하를 최소화할 수 있다.
대규모 언어 모델은 겉으로 드러나는 것보다 더 많은 정보를 알고 있으며, 때로는 '진실'을 이해하고도 다른 답변을 내놓을 수 있다는 연구 결과가 나왔습니다.
비전 파운데이션 모델은 훈련 데이터와 과학 데이터 간의 차이로 인해 천체물리학 데이터에 직접 적용하기에는 어려움이 있지만, 특정 작업(예: 광학 은하 분류, 전파 은하 탐지)에서는 기존 방법보다 뛰어난 성능을 보여주는 등 신중하게 선택하면 유용하게 활용될 수 있다.
본 논문에서는 자기회귀 전문가 혼합 모델을 활용하여 관측 데이터로부터 제어 정책을 학습하는 새로운 모방 학습 방법을 제안합니다.
이 논문에서는 액션 기반 및 파라미터 기반 탐색 모두에서 작동하는 정책 기반 원시-듀얼 알고리즘을 통해 제약 조건이 있는 연속 제어 문제를 해결하기 위한 새로운 프레임워크를 제안하며, (약) 지배 가정 하에 전역적 마지막 반복 수렴 보장을 제공합니다.
딥러닝, 특히 완벽 예측 접근 방식을 사용하는 합성곱 신경망은 전 지구 기후 예측을 다운스케일링하는 데 유망하지만, 미래 배출 시나리오에서 볼 수 없는 조건과 변화를 외삽하는 능력은 여전히 해결해야 할 과제입니다.
언어 모델의 성능을 향상하기 위해 다양한 데이터 그룹의 최적 혼합 비율을 찾는 것은 중요하며, 본 논문에서는 기존 방법들의 비일관적인 성능을 개선하기 위해 새로운 온라인 데이터 믹싱 방법인 AIOLI를 제안합니다.
딥 강화 학습의 훈련 시간을 단축하기 위해 병렬 및 분산 컴퓨팅 기술을 활용하는 다양한 방법들을 소개하고 분석합니다.
알려진 최적 값의 하한을 활용하는 새로운 대리 모델 및 획득 함수인 SlogGP 및 SlogTEI를 사용하는 경계 인식 베이지안 최적화(BABO)는 기존 베이지안 최적화 기법보다 뛰어난 성능을 보여줍니다.