RoboTwin 2.0:両腕操作ロボットのためのスケーラブルな合成データ生成とベンチマーク設計 RoboTwin 2.0:両腕操作ロボットのためのスケーラブルな合成デ ... 2025年07月29日 LLM-Paper
GPT-4oレベルの画像生成を民主化する:Janus-4oとShareGPT-4o-Imageの挑戦 GPT-4oレベルの画像生成を民主化する:Janus-4oとShare ... 2025年07月24日 LLM-Paper
Ultra-Sparse Memory Network:Transformerの記憶効率を変える新手法 Ultra-Sparse Memory Network:Transfo ... 2025年06月23日 LLM-Paper
【SOK-Bench】動画における実世界の知識を活用した状況的ビデオ推論ベンチマーク 【SOK-Bench】動画における実世界の知識を活用した状況的ビデオ推 ... 2025年02月28日 Computer Vision
【InsectMamba】スマート農業を支える状態空間モデルを使用した害虫の分類 【InsectMamba】スマート農業を支える状態空間モデルを使用した ... 2024年09月04日 Computer Vision
【OW-VISCap】見たことない物体にも注目 - オープンワールドビデオ理解の新アプローチ 【OW-VISCap】見たことない物体にも注目 - オープンワールドビ ... 2024年08月21日 Computer Vision
【VideoAgent】大規模言語モデルをエージェントとして使用した長編ビデオの理解 【VideoAgent】大規模言語モデルをエージェントとして使用した長 ... 2024年06月21日 Computer Vision
【Segment Anything】ゼロショットセグメンテーションモデル 【Segment Anything】ゼロショットセグメンテーションモデ ... 2024年06月18日 segmentation