뉴스기사

AI 기술은 세계 최고 학술대회에서 인정받고 있으며, 샤오미 논문 2편이 ICCV 2025에 선정

영구원(09One) 2025. 7. 8. 23:00

IT Home은 7월 8일 샤오미 테크놀로지가 국제 컴퓨터 비전 콘퍼런스(ICCV 2025) 논문 채택 결과를 발표했다고 보도했습니다. 샤오미 논문 두 편이 혁신적인 연구 성과를 인정받아 선정되었습니다. 대규모 비디오 이해 모델의 핵심 기술인 Q-Frame은 업계 최초의 동적 프레임 선택 및 해상도 적응 프레임워크를 도입하여 플러그 앤 플레이를 구현했습니다. 또한, 연속 학습 프레임워크인 Analytic Subspace Routing(Any-SSR)은 대규모 언어 모델의 연속 학습 분야에서 핵심적인 문제인 "치명적 망각(catastrophic forgetting)" 문제를 성공적으로 해결했습니다.

 

 

 

보도에 따르면, 국제 컴퓨터 비전 학회(ICCV), 국제 컴퓨터 비전 및 패턴 인식 학회(CVPR), 유럽 컴퓨터 비전 학회(ECCV)는 2년마다 개최되는 세계 3대 컴퓨터 분야 학술 대회로 알려져 있습니다. 그중 ICCV는 2025년에 11,239편의 논문을 접수했으며, 채택률은 24%였습니다. 위 두 논문은 샤오미 AI 팀의 기반 대형 모델 분야에서 최신 탐색 결과를 보여줍니다. 그중 비디오 이해 대형 모델 Q-Frame의 핵심 기술은 샤오미 AI 팀에서 완전히 개발했으며 , 대형 모델 연속 학습 프레임워크인 Any-SSR은 샤오미 AI 팀과 남중국이공대학에서 공동으로 개발했습니다.

 

 

자체 개발한 대형 영상 이해 모델의 핵심 기술인 Q-Frame

 

샤오미 AI 팀은 비디오 이해 대형 모델(Video-LLM) 연구에서 자체 개발한 Q-Frame 핵심 기술을 출시하여 시간 단편화 정보 손실, 블라인드 샘플링, 컴퓨팅 파워 낭비 등 기존 "균일 프레임 샘플링" 처리 방식의 문제점을 해결했습니다. 이 성과는 "Q-Frame: 비디오-LLM을 위한 쿼리 인식 프레임 선택 및 다중 해상도 적응" 논문으로 ICCV 2025에 선정되었습니다.

 

비디오 이해 빅 모델의 핵심 기술인 Q-Frame 은 업계 최초의 동적 프레임 선택 및 해상도 적응형 프레임워크입니다. 또한, 학습이 필요 없고 시중에 출시된 모든 종류의 비디오 이해 빅 모델 기반과 플러그 앤 플레이 방식으로 바로 사용 가능한 최초의 알고리즘 프레임워크입니다. Q-Frame은 비디오 콘텐츠와 사용자 질문을 정확하게 이해할 수 있는 업계 최초의 세 가지 혁신 기술을 보유하고 있습니다. 사용자 질문과 가장 관련성이 높은 핵심 비디오 콘텐츠를 정확하게 포착함으로써, 효과적인 정보의 양을 5배 증가시킵니다.

 

 

  • 크로스 모달 쿼리 검색(CQR)
  • 쿼리 인식 프레임 선택(QFS)
  • 다중 해상도 적응(MRA)

MLVU 평가 세트에서 Q-Frame은 Qwen2-VL의 이해 정확도를 55.5%에서 65.4%로 향상했고, LongVideoBench에서는 GPT-4o의 정확도를 53.3%에서 58.6%로 향상했습니다. 또한, 다중 해상도 적응 기능을 통해 콘텐츠의 중요도와 쿼리 요구 사항에 따라 프레임 해상도를 동적으로 조정하여 컴퓨팅 성능 낭비를 방지할 수 있습니다.

 

Q-Frame은 동적 쿼리 인식 프레임 선택 및 다중 해상도 적응을 채택함으로써 "균일 프레임 샘플링" 전략 하에서 시간 단편화로 인한 정보 손실, 문제 인식 없는 블라인드 샘플링, 그리고 모든 해상도에 적용되는 단일 해상도로 인한 컴퓨팅 성능 낭비라는 세 가지 주요 문제를 효과적으로 해결합니다. 기존의 균일 프레임 선택 및 통합 처리 방식과 달리, Q-Frame은 제한된 컴퓨팅 리소스에서도 모델이 비디오를 더욱 효율적이고 정확하게 이해할 수 있도록 지원합니다.

 

또한, Q-Frame 은 플러그 앤 플레이 방식으로, 오픈 소스든 클로즈드 소스든 시중에 출시된 모든 종류의 대규모 영상 이해 모델과 호환되며, 추가 학습이나 모델 미세 조정이 필요하지 않습니다. VILA-V1.5와 Qwen2-VL과 같은 오픈 소스 모델을 예로 들면, Q-Frame을 통합한 후 영상 이해 작업에서 이러한 모델의 성능이 크게 향상되었습니다. 마찬가지로, 클로즈드 소스 GPT-4o 모델에 대해서도 Q-Frame은 우수한 호환성을 보여 폭넓은 적용 가능성을 더욱 입증합니다.

 

 

Q-Frame은 샤오미의 "사람, 자동차, 집을 위한 완전한 생태계" 전략에 따라 다양한 적용 시나리오를 가지고 있으며, 현재 탐색 및 구현 중입니다. 샤오미 YU7 출시 당시 언급된 센티넬 모드에서는 일반적인 방해 행위와 긁힘 및 충돌을 유발할 수 있는 위험한 행동을 구분할 수 있습니다. 스마트 홈에서는 모니터링 화면에서 가장 중요한 이미지를 찾아 사용자의 질문에 답변할 수 있도록 도와줍니다. Xiaoai 비디오 질의응답 시나리오에서는 질문에 답할 수 있는 비디오 클립을 직접 찾아 재생하는 등 다양한 기능을 제공합니다.

 

 

 

Any-SSR: 대규모 모델의 지속적인 학습을 위한 프레임워크

 

대규모 언어 모델(LLM)의 연속 학습(CL) 분야에서는 새로운 과제를 학습할 때 종종 이전 과제의 지식을 잊어버리는 재앙적 망각 문제(Catastropic Forgetting Problem)가 발생합니다. 샤오미 AI 팀과 남중국이공대학교는 이 문제에 대한 연구를 수행했으며, 그 결과 "분석적 부분 공간 라우팅: 대규모 언어 모델의 연속 학습에서 재귀적 최소제곱법의 작동 방식"이 ICCV 2025에 선정되었습니다.

대규모 언어 모델의 연속 학습에 재귀 최소 제곱법(RLS)을 도입한 업계 최초의 기술 프레임워크인 Any -SSR 프레임워크는 분석 라우팅 메커니즘을 통해 학습을 위해 서로 다른 작업을 독립적인 하위 공간에 동적으로 할당하여 작업 간 지식 간섭을 방지하고, 대규모 언어 모델의 연속 학습에서 발생하는 치명적인 망각 문제를 혁신적으로 해결합니다. 동시에 저 순위 적응(LoRA)과 분석 라우팅의 결합을 통해 신규 지식과 기존 지식의 원활한 통합 및 동적 학습을 실현합니다.

 

일련의 기술 혁신을 기반으로 하는 Any-SSR 방식은 새로운 지식을 원활하게 학습하면서도 "거의 완벽에 가까운" 지식 기억(즉, 망각 없음)을 달성합니다. 실험 결과, Any-SSR은 멀티태스크 학습(MTL)을 포함한 TRACE 벤치마크에서 다른 방식보다 월등히 우수한 성능을 보였으며, 전반적인 성능(OP)에서도 탁월한 결과를 달성했을 뿐만 아니라 역방향 지식 전이(BWT)도 전혀 발생하지 않았습니다.

 

IT Home은 샤오미 테크놀로지로부터 지난 5년간 샤오미 그룹이 R&D에 약 1,020억 위안을 투자했다는 사실을 알게 되었습니다. 2025년 R&D 투자액 300억 위안 중 약 4분의 1이 AI 관련 분야에 사용될 예정입니다. 샤오미는 향후 5년(2026~2030년) 동안 핵심 기술에 2,000억 위안을 추가로 투자할 계획입니다.

 

 

출처 : https://t.cj.sina.com.cn/articles/view/1826017320/6cd6d02802001fv0y