Multimedia

<!DOCTYPE html> <html lang="en"> <head> <title>Multimedia </title> <meta name="viewport" content="width=device-width, initial-scale=1"> <link rel="apple-touch-icon" sizes="180x180" href="/static/browse/0.3.4/images/icons/apple-touch-icon.png"> <link rel="icon" type="image/png" sizes="32x32" href="/static/browse/0.3.4/images/icons/favicon-32x32.png"> <link rel="icon" type="image/png" sizes="16x16" href="/static/browse/0.3.4/images/icons/favicon-16x16.png"> <link rel="manifest" href="/static/browse/0.3.4/images/icons/site.webmanifest"> <link rel="mask-icon" href="/static/browse/0.3.4/images/icons/safari-pinned-tab.svg" color="#5bbad5"> <meta name="msapplication-TileColor" content="#da532c"> <meta name="theme-color" content="#ffffff"> <link rel="stylesheet" type="text/css" media="screen" href="/static/browse/0.3.4/css/arXiv.css?v=20241206" /> <link rel="stylesheet" type="text/css" media="print" href="/static/browse/0.3.4/css/arXiv-print.css?v=20200611" /> <link rel="stylesheet" type="text/css" media="screen" href="/static/browse/0.3.4/css/browse_search.css" /> <script language="javascript" src="/static/browse/0.3.4/js/accordion.js" /></script> <script src="/static/browse/0.3.4/js/mathjaxToggle.min.js" type="text/javascript"></script> <script type="text/javascript" language="javascript">mathjaxToggle();</script> </head> <body class="with-cu-identity"> <div class="flex-wrap-footer"> <header> <a href="#content" class="is-sr-only">Skip to main content</a>  <div class="columns is-vcentered is-hidden-mobile" id="cu-identity"> <div class="column" id="cu-logo"> <a href="https://www.cornell.edu/"><img src="/static/browse/0.3.4/images/icons/cu/cornell-reduced-white-SMALL.svg" alt="Cornell University" /></a> </div><div class="column" id="support-ack"> <span id="support-ack-url">We gratefully acknowledge support from the Simons Foundation, <a href="https://info.arxiv.org/about/ourmembers.html">member institutions</a>, and all contributors.</span> <a href="https://info.arxiv.org/about/donate.html" class="btn-header-donate">Donate</a> </div> </div> <div id="header" class="is-hidden-mobile"> <a aria-hidden="true" tabindex="-1" href="/IgnoreMe"></a> <div class="header-breadcrumbs"> <a href="/"><img src="/static/browse/0.3.4/images/arxiv-logo-one-color-white.svg" alt="arxiv logo" style="height:40px;"/></a> <span>></span> <a href="/list/cs.MM/recent">cs.MM</a> </div> <div class="search-block level-right"> <form class="level-item mini-search" method="GET" action="https://arxiv.org/search"> <div class="field has-addons"> <div class="control"> <input class="input is-small" type="text" name="query" placeholder="Search..." aria-label="Search term or terms" /> <p class="help"><a href="https://info.arxiv.org/help">Help</a> | <a href="https://arxiv.org/search/advanced">Advanced Search</a></p> </div> <div class="control"> <div class="select is-small"> <select name="searchtype" aria-label="Field to search"> <option value="all" selected="selected">All fields</option> <option value="title">Title</option> <option value="author">Author</option> <option value="abstract">Abstract</option> <option value="comments">Comments</option> <option value="journal_ref">Journal reference</option> <option value="acm_class">ACM classification</option> <option value="msc_class">MSC classification</option> <option value="report_num">Report number</option> <option value="paper_id">arXiv identifier</option> <option value="doi">DOI</option> <option value="orcid">ORCID</option> <option value="author_id">arXiv author ID</option> <option value="help">Help pages</option> <option value="full_text">Full text</option> </select> </div> </div> <input type="hidden" name="source" value="header"> <button class="button is-small is-cul-darker">Search</button> </div> </form> </div> </div> <div class="mobile-header"> <div class="columns is-mobile"> <div class="column logo-arxiv"><a href="https://arxiv.org/"><img src="/static/browse/0.3.4/images/arxiv-logomark-small-white.svg" alt="arXiv logo" style="height:60px;" /></a></div> <div class="column logo-cornell"><a href="https://www.cornell.edu/"> <picture> <source media="(min-width: 501px)" srcset="/static/browse/0.3.4/images/icons/cu/cornell-reduced-white-SMALL.svg 400w" sizes="400w" /> <source srcset="/static/browse/0.3.4/images/icons/cu/cornell_seal_simple_black.svg 2x" /> <img src="/static/browse/0.3.4/images/icons/cu/cornell-reduced-white-SMALL.svg" alt="Cornell University Logo" /> </picture> </a></div> <div class="column nav" id="toggle-container" role="menubar"> <button class="toggle-control"><svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 512 512" class="icon filter-white"><title>open search</title><path d="M505 442.7L405.3 343c-4.5-4.5-10.6-7-17-7H372c27.6-35.3 44-79.7 44-128C416 93.1 322.9 0 208 0S0 93.1 0 208s93.1 208 208 208c48.3 0 92.7-16.4 128-44v16.3c0 6.4 2.5 12.5 7 17l99.7 99.7c9.4 9.4 24.6 9.4 33.9 0l28.3-28.3c9.4-9.4 9.4-24.6.1-34zM208 336c-70.7 0-128-57.2-128-128 0-70.7 57.2-128 128-128 70.7 0 128 57.2 128 128 0 70.7-57.2 128-128 128z"/></svg></button> <div class="mobile-toggle-block toggle-target"> <form class="mobile-search-form" method="GET" action="https://arxiv.org/search"> <div class="field has-addons"> <input class="input" type="text" name="query" placeholder="Search..." aria-label="Search term or terms" /> <input type="hidden" name="source" value="header"> <input type="hidden" name="searchtype" value="all"> <button class="button">GO</button> </div> </form> </div> <button class="toggle-control"><svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512" class="icon filter-white" role="menu"><title>open navigation menu</title><path d="M16 132h416c8.837 0 16-7.163 16-16V76c0-8.837-7.163-16-16-16H16C7.163 60 0 67.163 0 76v40c0 8.837 7.163 16 16 16zm0 160h416c8.837 0 16-7.163 16-16v-40c0-8.837-7.163-16-16-16H16c-8.837 0-16 7.163-16 16v40c0 8.837 7.163 16 16 16zm0 160h416c8.837 0 16-7.163 16-16v-40c0-8.837-7.163-16-16-16H16c-8.837 0-16 7.163-16 16v40c0 8.837 7.163 16 16 16z"/ ></svg></button> <div class="mobile-toggle-block toggle-target"> <nav class="mobile-menu" aria-labelledby="mobilemenulabel"> <h2 id="mobilemenulabel">quick links</h2> <ul> <li><a href="https://arxiv.org/login">Login</a></li> <li><a href="https://info.arxiv.org/help">Help Pages</a></li> <li><a href="https://info.arxiv.org/about">About</a></li> </ul> </nav> </div> </div> </div> </div> </header> <main> <div id="content"> <div id='content-inner'> <div id='dlpage'> <h1>Multimedia</h1> <h2>Authors and titles for recent submissions</h2> <ul> <li> <a href="/list/cs.MM/recent?skip=0&show=50"> Wed, 19 Mar 2025 </a> </li><li> <a href="/list/cs.MM/recent?skip=6&show=50"> Tue, 18 Mar 2025 </a> </li><li> <a href="/list/cs.MM/recent?skip=15&show=50"> Mon, 17 Mar 2025 </a> </li><li> <a href="/list/cs.MM/recent?skip=23&show=50"> Fri, 14 Mar 2025 </a> </li><li> <a href="/list/cs.MM/recent?skip=32&show=50"> Thu, 13 Mar 2025 </a> </li></ul> <p>See today's <a id="new-cs.MM" aria-labelledby="new-cs.MM" href="/list/cs.MM/new">new</a> changes</p> <div class='paging'>Total of 39 entries </div> <div class='morefewer'>Showing up to 50 entries per page: <a href=/list/cs.MM/recent?skip=0&show=25 rel="nofollow"> fewer</a> | <span style="color: #454545">more</span> | <span style="color: #454545">all</span> </div> <dl id='articles'> <h3>Wed, 19 Mar 2025 (showing 6 of 6 entries )</h3> <dt> <a name='item1'>[1]</a> <a href ="/abs/2503.14421" title="Abstract" id="2503.14421"> arXiv:2503.14421 </a> (cross-list from cs.CV) [<a href="/pdf/2503.14421" title="Download PDF" id="pdf-2503.14421" aria-labelledby="pdf-2503.14421">pdf</a>, <a href="https://arxiv.org/html/2503.14421v1" title="View HTML" id="html-2503.14421" aria-labelledby="html-2503.14421" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.14421" title="Other formats" id="oth-2503.14421" aria-labelledby="oth-2503.14421">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> ExDDV: A New Dataset for Explainable Deepfake Detection in Video </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Hondru,+V">Vlad Hondru</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Hogea,+E">Eduard Hogea</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Onchis,+D">Darian Onchis</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ionescu,+R+T">Radu Tudor Ionescu</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item2'>[2]</a> <a href ="/abs/2503.14271" title="Abstract" id="2503.14271"> arXiv:2503.14271 </a> (cross-list from cs.NI) [<a href="/pdf/2503.14271" title="Download PDF" id="pdf-2503.14271" aria-labelledby="pdf-2503.14271">pdf</a>, <a href="https://arxiv.org/html/2503.14271v1" title="View HTML" id="html-2503.14271" aria-labelledby="html-2503.14271" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.14271" title="Other formats" id="oth-2503.14271" aria-labelledby="oth-2503.14271">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Video Streaming with Kairos: An MPC-Based ABR with Streaming-Aware Throughput Prediction </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Zhong,+Z">Ziyu Zhong</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+M">Mufan Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+L">Le Yang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y">Yifan Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xu,+Y">Yiling Xu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Hwang,+J">Jenq-Neng Hwang</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Networking and Internet Architecture (cs.NI)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item3'>[3]</a> <a href ="/abs/2503.14220" title="Abstract" id="2503.14220"> arXiv:2503.14220 </a> (cross-list from cs.HC) [<a href="/pdf/2503.14220" title="Download PDF" id="pdf-2503.14220" aria-labelledby="pdf-2503.14220">pdf</a>, <a href="https://arxiv.org/html/2503.14220v1" title="View HTML" id="html-2503.14220" aria-labelledby="html-2503.14220" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.14220" title="Other formats" id="oth-2503.14220" aria-labelledby="oth-2503.14220">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> musicolors: Bridging Sound and Visuals For Synesthetic Creative Musical Experience </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Lee,+C">ChungHa Lee</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Hong,+J">Jin-Hyuk Hong</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> 16 pages, 2 figures, 1 table </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Human-Computer Interaction (cs.HC)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item4'>[4]</a> <a href ="/abs/2503.14154" title="Abstract" id="2503.14154"> arXiv:2503.14154 </a> (cross-list from cs.CV) [<a href="/pdf/2503.14154" title="Download PDF" id="pdf-2503.14154" aria-labelledby="pdf-2503.14154">pdf</a>, <a href="https://arxiv.org/html/2503.14154v1" title="View HTML" id="html-2503.14154" aria-labelledby="html-2503.14154" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.14154" title="Other formats" id="oth-2503.14154" aria-labelledby="oth-2503.14154">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> RBFIM: Perceptual Quality Assessment for Compressed Point Clouds Using Radial Basis Function Interpolation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Chen,+Z">Zhang Chen</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wan,+S">Shuai Wan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ren,+S">Siyu Ren</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+F">Fuzheng Yang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yu,+M">Mengting Yu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Hou,+J">Junhui Hou</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM); Image and Video Processing (eess.IV) </div> </div> </dd> <dt> <a name='item5'>[5]</a> <a href ="/abs/2503.13809" title="Abstract" id="2503.13809"> arXiv:2503.13809 </a> (cross-list from cs.ET) [<a href="/pdf/2503.13809" title="Download PDF" id="pdf-2503.13809" aria-labelledby="pdf-2503.13809">pdf</a>, <a href="https://arxiv.org/html/2503.13809v1" title="View HTML" id="html-2503.13809" aria-labelledby="html-2503.13809" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.13809" title="Other formats" id="oth-2503.13809" aria-labelledby="oth-2503.13809">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> The Immersive Archive: Archival Strategies for the Sensorama & Sutherland HMD </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Abes,+Z">Zeynep Abes</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Fairchild,+N">Nathan Fairchild</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lin,+S">Spencer Lin</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wahba,+M">Michael Wahba</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xiao,+K">Katrina Xiao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Fisher,+S+S">Scott S. Fisher</a></div> <div class='list-journal-ref'><span class='descriptor'>Journal-ref:</span> Proc. IEEE Conf. AI & XR, 2025, pp. 307-312 </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Emerging Technologies (cs.ET)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item6'>[6]</a> <a href ="/abs/2503.13805" title="Abstract" id="2503.13805"> arXiv:2503.13805 </a> (cross-list from cs.CV) [<a href="/pdf/2503.13805" title="Download PDF" id="pdf-2503.13805" aria-labelledby="pdf-2503.13805">pdf</a>, <a href="https://arxiv.org/html/2503.13805v1" title="View HTML" id="html-2503.13805" aria-labelledby="html-2503.13805" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.13805" title="Other formats" id="oth-2503.13805" aria-labelledby="oth-2503.13805">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Text-Guided Image Invariant Feature Learning for Robust Image Watermarking </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Ahtesham,+M">Muhammad Ahtesham</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhong,+X">Xin Zhong</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Machine Learning (cs.LG); Multimedia (cs.MM) </div> </div> </dd> </dl> <dl id='articles'> <h3>Tue, 18 Mar 2025 (showing 9 of 9 entries )</h3> <dt> <a name='item7'>[7]</a> <a href ="/abs/2503.13434" title="Abstract" id="2503.13434"> arXiv:2503.13434 </a> (cross-list from cs.CV) [<a href="/pdf/2503.13434" title="Download PDF" id="pdf-2503.13434" aria-labelledby="pdf-2503.13434">pdf</a>, <a href="https://arxiv.org/html/2503.13434v1" title="View HTML" id="html-2503.13434" aria-labelledby="html-2503.13434" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.13434" title="Other formats" id="oth-2503.13434" aria-labelledby="oth-2503.13434">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+Y">Yaowei Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+L">Lingen Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Z">Zhaoyang Zhang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+X">Xiaoyu Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+G">Guangzhi Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+H">Hongxiang Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Cun,+X">Xiaodong Cun</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Shan,+Y">Ying Shan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zou,+Y">Yuexian Zou</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Project Webpage: <a href="https://liyaowei-stu.github.io/project/BlobCtrl/" rel="external noopener nofollow" class="link-external link-https">this https URL</a> </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Artificial Intelligence (cs.AI); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item8'>[8]</a> <a href ="/abs/2503.12852" title="Abstract" id="2503.12852"> arXiv:2503.12852 </a> (cross-list from cs.CV) [<a href="/pdf/2503.12852" title="Download PDF" id="pdf-2503.12852" aria-labelledby="pdf-2503.12852">pdf</a>, <a href="https://arxiv.org/html/2503.12852v1" title="View HTML" id="html-2503.12852" aria-labelledby="html-2503.12852" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12852" title="Other formats" id="oth-2503.12852" aria-labelledby="oth-2503.12852">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> ACT360: An Efficient 360-Degree Action Detection and Summarization Framework for Mission-Critical Training and Debriefing </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Tiwari,+A">Aditi Tiwari</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Nahrstedt,+K">Klara Nahrstedt</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> 9 pages, 8 figures </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item9'>[9]</a> <a href ="/abs/2503.12799" title="Abstract" id="2503.12799"> arXiv:2503.12799 </a> (cross-list from cs.CV) [<a href="/pdf/2503.12799" title="Download PDF" id="pdf-2503.12799" aria-labelledby="pdf-2503.12799">pdf</a>, <a href="https://arxiv.org/html/2503.12799v1" title="View HTML" id="html-2503.12799" aria-labelledby="html-2503.12799" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12799" title="Other formats" id="oth-2503.12799" aria-labelledby="oth-2503.12799">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Grounded Chain-of-Thought for Multimodal Large Language Models </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+Q">Qiong Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+X">Xiangcong Yang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Y">Yiyi Zhou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Fang,+C">Chenxin Fang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Song,+B">Baiyang Song</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sun,+X">Xiaoshuai Sun</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ji,+R">Rongrong Ji</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item10'>[10]</a> <a href ="/abs/2503.12623" title="Abstract" id="2503.12623"> arXiv:2503.12623 </a> (cross-list from cs.LG) [<a href="/pdf/2503.12623" title="Download PDF" id="pdf-2503.12623" aria-labelledby="pdf-2503.12623">pdf</a>, <a href="https://arxiv.org/html/2503.12623v1" title="View HTML" id="html-2503.12623" aria-labelledby="html-2503.12623" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12623" title="Other formats" id="oth-2503.12623" aria-labelledby="oth-2503.12623">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Ahire,+V">Vrushank Ahire</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Shah,+K">Kunal Shah</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Khan,+M+N">Mudasir Nazir Khan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Pakhale,+N">Nikhil Pakhale</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sookha,+L+R">Lownish Rai Sookha</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ganaie,+M+A">M. A. Ganaie</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Dhall,+A">Abhinav Dhall</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Machine Learning (cs.LG)</span>; Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item11'>[11]</a> <a href ="/abs/2503.12559" title="Abstract" id="2503.12559"> arXiv:2503.12559 </a> (cross-list from cs.CV) [<a href="/pdf/2503.12559" title="Download PDF" id="pdf-2503.12559" aria-labelledby="pdf-2503.12559">pdf</a>, <a href="https://arxiv.org/html/2503.12559v1" title="View HTML" id="html-2503.12559" aria-labelledby="html-2503.12559" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12559" title="Other formats" id="oth-2503.12559" aria-labelledby="oth-2503.12559">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+X">Xiao Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Si,+Q">Qingyi Si</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+J">Jianlong Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhu,+S">Shiyu Zhu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Cao,+L">Li Cao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Nie,+L">Liqiang Nie</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Computation and Language (cs.CL); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item12'>[12]</a> <a href ="/abs/2503.12381" title="Abstract" id="2503.12381"> arXiv:2503.12381 </a> (cross-list from cs.CV) [<a href="/pdf/2503.12381" title="Download PDF" id="pdf-2503.12381" aria-labelledby="pdf-2503.12381">pdf</a>, <a href="https://arxiv.org/html/2503.12381v1" title="View HTML" id="html-2503.12381" aria-labelledby="html-2503.12381" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12381" title="Other formats" id="oth-2503.12381" aria-labelledby="oth-2503.12381">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Deepfake Detection with Optimized Hybrid Model: EAR Biometric Descriptor via Improved RCNN </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Sharma,+R">Ruchika Sharma</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Dwivedi,+R">Rudresh Dwivedi</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Submiited to journal </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item13'>[13]</a> <a href ="/abs/2503.12173" title="Abstract" id="2503.12173"> arXiv:2503.12173 </a> (cross-list from cs.CV) [<a href="/pdf/2503.12173" title="Download PDF" id="pdf-2503.12173" aria-labelledby="pdf-2503.12173">pdf</a>, <a href="https://arxiv.org/html/2503.12173v1" title="View HTML" id="html-2503.12173" aria-labelledby="html-2503.12173" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12173" title="Other formats" id="oth-2503.12173" aria-labelledby="oth-2503.12173">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> LAPIG: Language Guided Projector Image Generation with Surface Adaptation and Stylization </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Deng,+Y">Yuchen Deng</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ling,+H">Haibin Ling</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Huang,+B">Bingyao Huang</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> 12 pages, 9 figures </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item14'>[14]</a> <a href ="/abs/2503.12149" title="Abstract" id="2503.12149"> arXiv:2503.12149 </a> (cross-list from cs.CL) [<a href="/pdf/2503.12149" title="Download PDF" id="pdf-2503.12149" aria-labelledby="pdf-2503.12149">pdf</a>, <a href="https://arxiv.org/html/2503.12149v1" title="View HTML" id="html-2503.12149" aria-labelledby="html-2503.12149" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12149" title="Other formats" id="oth-2503.12149" aria-labelledby="oth-2503.12149">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Seeing Sarcasm Through Different Eyes: Analyzing Multimodal Sarcasm Perception in Large Vision-Language Models </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Chen,+J">Junjie Chen</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+X">Xuyang Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Huang,+S">Subin Huang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhang,+L">Linfeng Zhang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yu,+H">Hang Yu</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computation and Language (cs.CL)</span>; Multimedia (cs.MM); Social and Information Networks (cs.SI) </div> </div> </dd> <dt> <a name='item15'>[15]</a> <a href ="/abs/2503.12127" title="Abstract" id="2503.12127"> arXiv:2503.12127 </a> (cross-list from cs.CV) [<a href="/pdf/2503.12127" title="Download PDF" id="pdf-2503.12127" aria-labelledby="pdf-2503.12127">pdf</a>, <a href="https://arxiv.org/html/2503.12127v1" title="View HTML" id="html-2503.12127" aria-labelledby="html-2503.12127" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.12127" title="Other formats" id="oth-2503.12127" aria-labelledby="oth-2503.12127">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Hyperbolic Safety-Aware Vision-Language Models </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Poppi,+T">Tobia Poppi</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Kasarla,+T">Tejaswi Kasarla</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Mettes,+P">Pascal Mettes</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Baraldi,+L">Lorenzo Baraldi</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Cucchiara,+R">Rita Cucchiara</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> CVPR 2025 </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multimedia (cs.MM) </div> </div> </dd> </dl> <dl id='articles'> <h3>Mon, 17 Mar 2025 (showing 8 of 8 entries )</h3> <dt> <a name='item16'>[16]</a> <a href ="/abs/2503.11324" title="Abstract" id="2503.11324"> arXiv:2503.11324 </a> [<a href="/pdf/2503.11324" title="Download PDF" id="pdf-2503.11324" aria-labelledby="pdf-2503.11324">pdf</a>, <a href="https://arxiv.org/html/2503.11324v1" title="View HTML" id="html-2503.11324" aria-labelledby="html-2503.11324" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.11324" title="Other formats" id="oth-2503.11324" aria-labelledby="oth-2503.11324">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z">Ziyi Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Tan,+S">Songbai Tan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xu,+G">Gang Xu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Qiu,+X">Xuerui Qiu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xu,+H">Hongbin Xu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Meng,+X">Xin Meng</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+M">Ming Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yu,+F+R">Fei Richard Yu</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Multimedia (cs.MM)</span>; Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV) </div> </div> </dd> <dt> <a name='item17'>[17]</a> <a href ="/abs/2503.11629" title="Abstract" id="2503.11629"> arXiv:2503.11629 </a> (cross-list from cs.GR) [<a href="/pdf/2503.11629" title="Download PDF" id="pdf-2503.11629" aria-labelledby="pdf-2503.11629">pdf</a>, <a href="https://arxiv.org/html/2503.11629v1" title="View HTML" id="html-2503.11629" aria-labelledby="html-2503.11629" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.11629" title="Other formats" id="oth-2503.11629" aria-labelledby="oth-2503.11629">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Lionar,+S">Stefan Lionar</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liang,+J">Jiabin Liang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lee,+G+H">Gim Hee Lee</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> CVPR 2025. Code: <a href="https://github.com/sail-sg/TreeMeshGPT" rel="external noopener nofollow" class="link-external link-https">this https URL</a> </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Graphics (cs.GR)</span>; Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item18'>[18]</a> <a href ="/abs/2503.11609" title="Abstract" id="2503.11609"> arXiv:2503.11609 </a> (cross-list from cs.CV) [<a href="/pdf/2503.11609" title="Download PDF" id="pdf-2503.11609" aria-labelledby="pdf-2503.11609">pdf</a>, <a href="https://arxiv.org/html/2503.11609v1" title="View HTML" id="html-2503.11609" aria-labelledby="html-2503.11609" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.11609" title="Other formats" id="oth-2503.11609" aria-labelledby="oth-2503.11609">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Farina,+M">Matteo Farina</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Mancini,+M">Massimiliano Mancini</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Iacca,+G">Giovanni Iacca</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ricci,+E">Elisa Ricci</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Camera-ready version for CVPR 2025 (w/ SuppMat, 23 pages) </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Machine Learning (cs.LG); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item19'>[19]</a> <a href ="/abs/2503.11315" title="Abstract" id="2503.11315"> arXiv:2503.11315 </a> (cross-list from cs.CV) [<a href="/pdf/2503.11315" title="Download PDF" id="pdf-2503.11315" aria-labelledby="pdf-2503.11315">pdf</a>, <a href="https://arxiv.org/html/2503.11315v1" title="View HTML" id="html-2503.11315" aria-labelledby="html-2503.11315" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.11315" title="Other formats" id="oth-2503.11315" aria-labelledby="oth-2503.11315">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Yeo,+J+H">Jeong Hun Yeo</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Rha,+H">Hyeongseop Rha</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Park,+S+J">Se Jin Park</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ro,+Y+M">Yong Man Ro</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> The code and models are available <a href="https://github.com/JeongHun0716/MMS-LLaMA" rel="external noopener nofollow" class="link-external link-https">this https URL</a> </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM); Sound (cs.SD); Audio and Speech Processing (eess.AS) </div> </div> </dd> <dt> <a name='item20'>[20]</a> <a href ="/abs/2503.11190" title="Abstract" id="2503.11190"> arXiv:2503.11190 </a> (cross-list from cs.SD) [<a href="/pdf/2503.11190" title="Download PDF" id="pdf-2503.11190" aria-labelledby="pdf-2503.11190">pdf</a>, <a href="https://arxiv.org/html/2503.11190v1" title="View HTML" id="html-2503.11190" aria-labelledby="html-2503.11190" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.11190" title="Other formats" id="oth-2503.11190" aria-labelledby="oth-2503.11190">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Cross-Modal Learning for Music-to-Music-Video Description Generation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Mao,+Z">Zhuoyuan Mao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhao,+M">Mengjie Zhao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+Q">Qiyu Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhong,+Z">Zhi Zhong</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liao,+W">Wei-Hsiang Liao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wakaki,+H">Hiromi Wakaki</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Mitsufuji,+Y">Yuki Mitsufuji</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Accepted by RepL4NLP 2025 @ NAACL 2025 </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Sound (cs.SD)</span>; Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multimedia (cs.MM); Audio and Speech Processing (eess.AS) </div> </div> </dd> <dt> <a name='item21'>[21]</a> <a href ="/abs/2503.11026" title="Abstract" id="2503.11026"> arXiv:2503.11026 </a> (cross-list from eess.AS) [<a href="/pdf/2503.11026" title="Download PDF" id="pdf-2503.11026" aria-labelledby="pdf-2503.11026">pdf</a>, <a href="https://arxiv.org/html/2503.11026v1" title="View HTML" id="html-2503.11026" aria-labelledby="html-2503.11026" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.11026" title="Other formats" id="oth-2503.11026" aria-labelledby="oth-2503.11026">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation </div> <div class='list-authors'><a href="https://arxiv.org/search/eess?searchtype=author&query=Cho,+S">Sungwoo Cho</a>, <a href="https://arxiv.org/search/eess?searchtype=author&query=Choi,+J">Jeongsoo Choi</a>, <a href="https://arxiv.org/search/eess?searchtype=author&query=Kim,+S">Sungnyun Kim</a>, <a href="https://arxiv.org/search/eess?searchtype=author&query=Yun,+S">Se-Young Yun</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Preliminary work </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Audio and Speech Processing (eess.AS)</span>; Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item22'>[22]</a> <a href ="/abs/2503.10704" title="Abstract" id="2503.10704"> arXiv:2503.10704 </a> (cross-list from cs.CV) [<a href="/pdf/2503.10704" title="Download PDF" id="pdf-2503.10704" aria-labelledby="pdf-2503.10704">pdf</a>, <a href="https://arxiv.org/html/2503.10704v1" title="View HTML" id="html-2503.10704" aria-labelledby="html-2503.10704" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10704" title="Other formats" id="oth-2503.10704" aria-labelledby="oth-2503.10704">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+J">Jing Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhang,+F">Fengzhuo Zhang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+X">Xiaoli Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Tan,+V+Y+F">Vincent Y. F. Tan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Pang,+T">Tianyu Pang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Du,+C">Chao Du</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sun,+A">Aixin Sun</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+Z">Zhuoran Yang</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item23'>[23]</a> <a href ="/abs/2503.10700" title="Abstract" id="2503.10700"> arXiv:2503.10700 </a> (cross-list from cs.CV) [<a href="/pdf/2503.10700" title="Download PDF" id="pdf-2503.10700" aria-labelledby="pdf-2503.10700">pdf</a>, <a href="https://arxiv.org/html/2503.10700v1" title="View HTML" id="html-2503.10700" aria-labelledby="html-2503.10700" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10700" title="Other formats" id="oth-2503.10700" aria-labelledby="oth-2503.10700">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> TA-V2A: Textually Assisted Video-to-Audio Generation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=You,+Y">Yuhuan You</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+X">Xihong Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Qu,+T">Tianshu Qu</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> </dl> <dl id='articles'> <h3>Fri, 14 Mar 2025 (showing 9 of 9 entries )</h3> <dt> <a name='item24'>[24]</a> <a href ="/abs/2503.10522" title="Abstract" id="2503.10522"> arXiv:2503.10522 </a> [<a href="/pdf/2503.10522" title="Download PDF" id="pdf-2503.10522" aria-labelledby="pdf-2503.10522">pdf</a>, <a href="https://arxiv.org/html/2503.10522v1" title="View HTML" id="html-2503.10522" aria-labelledby="html-2503.10522" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10522" title="Other formats" id="oth-2503.10522" aria-labelledby="oth-2503.10522">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> AudioX: Diffusion Transformer for Anything-to-Audio Generation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Tian,+Z">Zeyue Tian</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Jin,+Y">Yizhu Jin</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z">Zhaoyang Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yuan,+R">Ruibin Yuan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Tan,+X">Xu Tan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Chen,+Q">Qifeng Chen</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xue,+W">Wei Xue</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Guo,+Y">Yike Guo</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> The code and datasets will be available at <a href="https://zeyuet.github.io/AudioX/" rel="external noopener nofollow" class="link-external link-https">this https URL</a> </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Multimedia (cs.MM)</span>; Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS) </div> </div> </dd> <dt> <a name='item25'>[25]</a> <a href ="/abs/2503.09852" title="Abstract" id="2503.09852"> arXiv:2503.09852 </a> [<a href="/pdf/2503.09852" title="Download PDF" id="pdf-2503.09852" aria-labelledby="pdf-2503.09852">pdf</a>, <a href="https://arxiv.org/html/2503.09852v1" title="View HTML" id="html-2503.09852" aria-labelledby="html-2503.09852" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09852" title="Other formats" id="oth-2503.09852" aria-labelledby="oth-2503.09852">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> StyleSpeaker: Audio-Enhanced Fine-Grained Style Modeling for Speech-Driven 3D Facial Animation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+A">An Yang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+C">Chenyu Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xia,+P">Pengcheng Xia</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Du,+J">Jun Du</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Multimedia (cs.MM)</span> </div> </div> </dd> <dt> <a name='item26'>[26]</a> <a href ="/abs/2503.10324" title="Abstract" id="2503.10324"> arXiv:2503.10324 </a> (cross-list from cs.CV) [<a href="/pdf/2503.10324" title="Download PDF" id="pdf-2503.10324" aria-labelledby="pdf-2503.10324">pdf</a>, <a href="/format/2503.10324" title="Other formats" id="oth-2503.10324" aria-labelledby="oth-2503.10324">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y">Yuhao Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lv,+Y">Yongfeng Lv</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhang,+P">Pingping Zhang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lu,+H">Huchuan Lu</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> This work is accepted by CVPR2025. More modifications may be performed </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item27'>[27]</a> <a href ="/abs/2503.10166" title="Abstract" id="2503.10166"> arXiv:2503.10166 </a> (cross-list from cs.IR) [<a href="/pdf/2503.10166" title="Download PDF" id="pdf-2503.10166" aria-labelledby="pdf-2503.10166">pdf</a>, <a href="https://arxiv.org/html/2503.10166v1" title="View HTML" id="html-2503.10166" aria-labelledby="html-2503.10166" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10166" title="Other formats" id="oth-2503.10166" aria-labelledby="oth-2503.10166">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Luo,+P">Pengfei Luo</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhou,+J">Jingbo Zhou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xu,+T">Tong Xu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xia,+Y">Yuan Xia</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xu,+L">Linli Xu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Chen,+E">Enhong Chen</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> WWW 2025 </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Information Retrieval (cs.IR)</span>; Artificial Intelligence (cs.AI); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item28'>[28]</a> <a href ="/abs/2503.10125" title="Abstract" id="2503.10125"> arXiv:2503.10125 </a> (cross-list from cs.CV) [<a href="/pdf/2503.10125" title="Download PDF" id="pdf-2503.10125" aria-labelledby="pdf-2503.10125">pdf</a>, <a href="https://arxiv.org/html/2503.10125v1" title="View HTML" id="html-2503.10125" aria-labelledby="html-2503.10125" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10125" title="Other formats" id="oth-2503.10125" aria-labelledby="oth-2503.10125">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Proxy-Tuning: Tailoring Multimodal Autoregressive Models for Subject-Driven Image Generation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+Y">Yi Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhu,+L">Lingting Zhu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+L">Lei Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Qiao,+W">Wandi Qiao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+Z">Ziqiang Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yu,+L">Lequan Yu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+B">Bin Li</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item29'>[29]</a> <a href ="/abs/2503.10086" title="Abstract" id="2503.10086"> arXiv:2503.10086 </a> (cross-list from cs.SD) [<a href="/pdf/2503.10086" title="Download PDF" id="pdf-2503.10086" aria-labelledby="pdf-2503.10086">pdf</a>, <a href="https://arxiv.org/html/2503.10086v1" title="View HTML" id="html-2503.10086" aria-labelledby="html-2503.10086" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10086" title="Other formats" id="oth-2503.10086" aria-labelledby="oth-2503.10086">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Efficient Adapter Tuning for Joint Singing Voice Beat and Downbeat Tracking with Self-supervised Learning Features </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Deng,+J">Jiajun Deng</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ju,+Y">Yaolong Ju</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+J">Jing Yang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lui,+S">Simon Lui</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+X">Xunying Liu</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Accepted by ISMIR2024 </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Sound (cs.SD)</span>; Multimedia (cs.MM); Audio and Speech Processing (eess.AS) </div> </div> </dd> <dt> <a name='item30'>[30]</a> <a href ="/abs/2503.10078" title="Abstract" id="2503.10078"> arXiv:2503.10078 </a> (cross-list from cs.CV) [<a href="/pdf/2503.10078" title="Download PDF" id="pdf-2503.10078" aria-labelledby="pdf-2503.10078">pdf</a>, <a href="https://arxiv.org/html/2503.10078v1" title="View HTML" id="html-2503.10078" aria-labelledby="html-2503.10078" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.10078" title="Other formats" id="oth-2503.10078" aria-labelledby="oth-2503.10078">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Image Quality Assessment: From Human to Machine Preference </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+C">Chunyi Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Tian,+Y">Yuan Tian</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ling,+X">Xiaoyue Ling</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Z">Zicheng Zhang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Duan,+H">Haodong Duan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+H">Haoning Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Jia,+Z">Ziheng Jia</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+X">Xiaohong Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Min,+X">Xiongkuo Min</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lu,+G">Guo Lu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Lin,+W">Weisi Lin</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhai,+G">Guangtao Zhai</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM); Image and Video Processing (eess.IV) </div> </div> </dd> <dt> <a name='item31'>[31]</a> <a href ="/abs/2503.09938" title="Abstract" id="2503.09938"> arXiv:2503.09938 </a> (cross-list from cs.CV) [<a href="/pdf/2503.09938" title="Download PDF" id="pdf-2503.09938" aria-labelledby="pdf-2503.09938">pdf</a>, <a href="https://arxiv.org/html/2503.09938v1" title="View HTML" id="html-2503.09938" aria-labelledby="html-2503.09938" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09938" title="Other formats" id="oth-2503.09938" aria-labelledby="oth-2503.09938">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+S">Sen Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhou,+D">Dongliang Zhou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xie,+L">Liang Xie</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xu,+C">Chao Xu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yan,+Y">Ye Yan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yin,+E">Erwei Yin</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> This paper was accepted by Neural Networks </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM); Robotics (cs.RO) </div> </div> </dd> <dt> <a name='item32'>[32]</a> <a href ="/abs/2503.09832" title="Abstract" id="2503.09832"> arXiv:2503.09832 </a> (cross-list from cs.CY) [<a href="/pdf/2503.09832" title="Download PDF" id="pdf-2503.09832" aria-labelledby="pdf-2503.09832">pdf</a>, <a href="https://arxiv.org/html/2503.09832v1" title="View HTML" id="html-2503.09832" aria-labelledby="html-2503.09832" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09832" title="Other formats" id="oth-2503.09832" aria-labelledby="oth-2503.09832">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Honey Trap or Romantic Utopia: A Case Study of Final Fantasy XIV Players PII Disclosure in Intimate Partner-Seeking Posts </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Y">Yihao Zhou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sharma,+T">Tanusree Sharma</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computers and Society (cs.CY)</span>; Human-Computer Interaction (cs.HC); Multimedia (cs.MM) </div> </div> </dd> </dl> <dl id='articles'> <h3>Thu, 13 Mar 2025 (showing 7 of 7 entries )</h3> <dt> <a name='item33'>[33]</a> <a href ="/abs/2503.09448" title="Abstract" id="2503.09448"> arXiv:2503.09448 </a> [<a href="/pdf/2503.09448" title="Download PDF" id="pdf-2503.09448" aria-labelledby="pdf-2503.09448">pdf</a>, <a href="/format/2503.09448" title="Other formats" id="oth-2503.09448" aria-labelledby="oth-2503.09448">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Optimizing QoE-Privacy Tradeoff for Proactive VR Streaming </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Wei,+X">Xing Wei</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Han,+S">Shengqian Han</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Yang,+C">Chenyang Yang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sun,+C">Chengjian Sun</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Multimedia (cs.MM)</span>; Multiagent Systems (cs.MA) </div> </div> </dd> <dt> <a name='item34'>[34]</a> <a href ="/abs/2503.09205" title="Abstract" id="2503.09205"> arXiv:2503.09205 </a> [<a href="/pdf/2503.09205" title="Download PDF" id="pdf-2503.09205" aria-labelledby="pdf-2503.09205">pdf</a>, <a href="/format/2503.09205" title="Other formats" id="oth-2503.09205" aria-labelledby="oth-2503.09205">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Vosoughi,+A">Ali Vosoughi</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Emmanouilidou,+D">Dimitra Emmanouilidou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Gamper,+H">Hannes Gamper</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> We are withdrawing this version due to the need for substantial updates in scope and organization, which affect the clarity and completeness of the manuscript. We plan to submit a revised version that incorporates these changes </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Multimedia (cs.MM)</span>; Computation and Language (cs.CL); Information Retrieval (cs.IR); Sound (cs.SD); Audio and Speech Processing (eess.AS) </div> </div> </dd> <dt> <a name='item35'>[35]</a> <a href ="/abs/2503.09537" title="Abstract" id="2503.09537"> arXiv:2503.09537 </a> (cross-list from cs.CV) [<a href="/pdf/2503.09537" title="Download PDF" id="pdf-2503.09537" aria-labelledby="pdf-2503.09537">pdf</a>, <a href="https://arxiv.org/html/2503.09537v1" title="View HTML" id="html-2503.09537" aria-labelledby="html-2503.09537" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09537" title="Other formats" id="oth-2503.09537" aria-labelledby="oth-2503.09537">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Huang,+S">Shuokang Huang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=McCann,+J+A">Julie A. McCann</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Artificial Intelligence (cs.AI); Multimedia (cs.MM); Signal Processing (eess.SP) </div> </div> </dd> <dt> <a name='item36'>[36]</a> <a href ="/abs/2503.09149" title="Abstract" id="2503.09149"> arXiv:2503.09149 </a> (cross-list from cs.CV) [<a href="/pdf/2503.09149" title="Download PDF" id="pdf-2503.09149" aria-labelledby="pdf-2503.09149">pdf</a>, <a href="https://arxiv.org/html/2503.09149v1" title="View HTML" id="html-2503.09149" aria-labelledby="html-2503.09149" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09149" title="Other formats" id="oth-2503.09149" aria-labelledby="oth-2503.09149">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Memory-enhanced Retrieval Augmentation for Long Video Understanding </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Yuan,+H">Huaying Yuan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z">Zheng Liu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Qin,+M">Minhao Qin</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Qian,+H">Hongjin Qian</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Shu,+Y">Y Shu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Dou,+Z">Zhicheng Dou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wen,+J">Ji-Rong Wen</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item37'>[37]</a> <a href ="/abs/2503.09146" title="Abstract" id="2503.09146"> arXiv:2503.09146 </a> (cross-list from cs.CV) [<a href="/pdf/2503.09146" title="Download PDF" id="pdf-2503.09146" aria-labelledby="pdf-2503.09146">pdf</a>, <a href="https://arxiv.org/html/2503.09146v1" title="View HTML" id="html-2503.09146" aria-labelledby="html-2503.09146" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09146" title="Other formats" id="oth-2503.09146" aria-labelledby="oth-2503.09146">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Generative Frame Sampler for Long Video Understanding </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Yao,+L">Linli Yao</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+H">Haoning Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Ouyang,+K">Kun Ouyang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Y">Yuanxing Zhang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xiong,+C">Caiming Xiong</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Chen,+B">Bei Chen</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sun,+X">Xu Sun</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+J">Junnan Li</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item38'>[38]</a> <a href ="/abs/2503.09130" title="Abstract" id="2503.09130"> arXiv:2503.09130 </a> (cross-list from cs.GR) [<a href="/pdf/2503.09130" title="Download PDF" id="pdf-2503.09130" aria-labelledby="pdf-2503.09130">pdf</a>, <a href="https://arxiv.org/html/2503.09130v1" title="View HTML" id="html-2503.09130" aria-labelledby="html-2503.09130" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.09130" title="Other formats" id="oth-2503.09130" aria-labelledby="oth-2503.09130">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Hoe,+J+T">Jiun Tian Hoe</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Hu,+W">Weipeng Hu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhou,+W">Wei Zhou</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Xie,+C">Chao Xie</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z">Ziwei Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Chan,+C+S">Chee Seng Chan</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Jiang,+X">Xudong Jiang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Tan,+Y">Yap-Peng Tan</a></div> <div class='list-comments mathjax'><span class='descriptor'>Comments:</span> Website: <a href="https://jiuntian.github.io/interactedit" rel="external noopener nofollow" class="link-external link-https">this https URL</a> </div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Graphics (cs.GR)</span>; Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM) </div> </div> </dd> <dt> <a name='item39'>[39]</a> <a href ="/abs/2503.08906" title="Abstract" id="2503.08906"> arXiv:2503.08906 </a> (cross-list from cs.CV) [<a href="/pdf/2503.08906" title="Download PDF" id="pdf-2503.08906" aria-labelledby="pdf-2503.08906">pdf</a>, <a href="https://arxiv.org/html/2503.08906v1" title="View HTML" id="html-2503.08906" aria-labelledby="html-2503.08906" rel="noopener noreferrer" target="_blank">html</a>, <a href="/format/2503.08906" title="Other formats" id="oth-2503.08906" aria-labelledby="oth-2503.08906">other</a>] </dt> <dd> <div class='meta'> <div class='list-title mathjax'><span class='descriptor'>Title:</span> Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation </div> <div class='list-authors'><a href="https://arxiv.org/search/cs?searchtype=author&query=Chen,+X">Xiwen Chen</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Zhu,+W">Wenhui Zhu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Qiu,+P">Peijie Qiu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+H">Hao Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Li,+H">Huayu Li</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wu,+H">Haiyu Wu</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Sotiras,+A">Aristeidis Sotiras</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y">Yalin Wang</a>, <a href="https://arxiv.org/search/cs?searchtype=author&query=Razi,+A">Abolfazl Razi</a></div> <div class='list-subjects'><span class='descriptor'>Subjects:</span> <span class="primary-subject">Computer Vision and Pattern Recognition (cs.CV)</span>; Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multimedia (cs.MM) </div> </div> </dd> </dl> <div class='paging'>Total of 39 entries </div> <div class='morefewer'>Showing up to 50 entries per page: <a href=/list/cs.MM/recent?skip=0&show=25 rel="nofollow"> fewer</a> | <span style="color: #454545">more</span> | <span style="color: #454545">all</span> </div> </div> </div> </div> </main> <footer style="clear: both;"> <div class="columns is-desktop" role="navigation" aria-label="Secondary" style="margin: -0.75em -0.75em 0.75em -0.75em">  <div class="column" style="padding: 0;"> <div class="columns"> <div class="column"> <ul style="list-style: none; line-height: 2;"> <li><a href="https://info.arxiv.org/about">About</a></li> <li><a href="https://info.arxiv.org/help">Help</a></li> </ul> </div> <div class="column"> <ul style="list-style: none; line-height: 2;"> <li> <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 512 512" class="icon filter-black" role="presentation"><title>contact arXiv</title><desc>Click here to contact arXiv</desc><path d="M502.3 190.8c3.9-3.1 9.7-.2 9.7 4.7V400c0 26.5-21.5 48-48 48H48c-26.5 0-48-21.5-48-48V195.6c0-5 5.7-7.8 9.7-4.7 22.4 17.4 52.1 39.5 154.1 113.6 21.1 15.4 56.7 47.8 92.2 47.6 35.7.3 72-32.8 92.3-47.6 102-74.1 131.6-96.3 154-113.7zM256 320c23.2.4 56.6-29.2 73.4-41.4 132.7-96.3 142.8-104.7 173.4-128.7 5.8-4.5 9.2-11.5 9.2-18.9v-19c0-26.5-21.5-48-48-48H48C21.5 64 0 85.5 0 112v19c0 7.4 3.4 14.3 9.2 18.9 30.6 23.9 40.7 32.4 173.4 128.7 16.8 12.2 50.2 41.8 73.4 41.4z"/></svg> <a href="https://info.arxiv.org/help/contact.html"> Contact</a> </li> <li> <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 512 512" class="icon filter-black" role="presentation"><title>subscribe to arXiv mailings</title><desc>Click here to subscribe</desc><path d="M476 3.2L12.5 270.6c-18.1 10.4-15.8 35.6 2.2 43.2L121 358.4l287.3-253.2c5.5-4.9 13.3 2.6 8.6 8.3L176 407v80.5c0 23.6 28.5 32.9 42.5 15.8L282 426l124.6 52.2c14.2 6 30.4-2.9 33-18.2l72-432C515 7.8 493.3-6.8 476 3.2z"/></svg> <a href="https://info.arxiv.org/help/subscribe"> Subscribe</a> </li> </ul> </div> </div> </div>   <div class="column" style="padding: 0;"> <div class="columns"> <div class="column"> <ul style="list-style: none; line-height: 2;"> <li><a href="https://info.arxiv.org/help/license/index.html">Copyright</a></li> <li><a href="https://info.arxiv.org/help/policies/privacy_policy.html">Privacy Policy</a></li> </ul> </div> <div class="column sorry-app-links"> <ul style="list-style: none; line-height: 2;"> <li><a href="https://info.arxiv.org/help/web_accessibility.html">Web Accessibility Assistance</a></li> <li> <p class="help"> <a class="a11y-main-link" href="https://status.arxiv.org" target="_blank">arXiv Operational Status <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 256 512" class="icon filter-dark_grey" role="presentation"><path d="M224.3 273l-136 136c-9.4 9.4-24.6 9.4-33.9 0l-22.6-22.6c-9.4-9.4-9.4-24.6 0-33.9l96.4-96.4-96.4-96.4c-9.4-9.4-9.4-24.6 0-33.9L54.3 103c9.4-9.4 24.6-9.4 33.9 0l136 136c9.5 9.4 9.5 24.6.1 34z"/></svg></a><br> Get status notifications via <a class="is-link" href="https://subscribe.sorryapp.com/24846f03/email/new" target="_blank"><svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 512 512" class="icon filter-black" role="presentation"><path d="M502.3 190.8c3.9-3.1 9.7-.2 9.7 4.7V400c0 26.5-21.5 48-48 48H48c-26.5 0-48-21.5-48-48V195.6c0-5 5.7-7.8 9.7-4.7 22.4 17.4 52.1 39.5 154.1 113.6 21.1 15.4 56.7 47.8 92.2 47.6 35.7.3 72-32.8 92.3-47.6 102-74.1 131.6-96.3 154-113.7zM256 320c23.2.4 56.6-29.2 73.4-41.4 132.7-96.3 142.8-104.7 173.4-128.7 5.8-4.5 9.2-11.5 9.2-18.9v-19c0-26.5-21.5-48-48-48H48C21.5 64 0 85.5 0 112v19c0 7.4 3.4 14.3 9.2 18.9 30.6 23.9 40.7 32.4 173.4 128.7 16.8 12.2 50.2 41.8 73.4 41.4z"/></svg>email</a> or <a class="is-link" href="https://subscribe.sorryapp.com/24846f03/slack/new" target="_blank"><svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512" class="icon filter-black" role="presentation"><path d="M94.12 315.1c0 25.9-21.16 47.06-47.06 47.06S0 341 0 315.1c0-25.9 21.16-47.06 47.06-47.06h47.06v47.06zm23.72 0c0-25.9 21.16-47.06 47.06-47.06s47.06 21.16 47.06 47.06v117.84c0 25.9-21.16 47.06-47.06 47.06s-47.06-21.16-47.06-47.06V315.1zm47.06-188.98c-25.9 0-47.06-21.16-47.06-47.06S139 32 164.9 32s47.06 21.16 47.06 47.06v47.06H164.9zm0 23.72c25.9 0 47.06 21.16 47.06 47.06s-21.16 47.06-47.06 47.06H47.06C21.16 243.96 0 222.8 0 196.9s21.16-47.06 47.06-47.06H164.9zm188.98 47.06c0-25.9 21.16-47.06 47.06-47.06 25.9 0 47.06 21.16 47.06 47.06s-21.16 47.06-47.06 47.06h-47.06V196.9zm-23.72 0c0 25.9-21.16 47.06-47.06 47.06-25.9 0-47.06-21.16-47.06-47.06V79.06c0-25.9 21.16-47.06 47.06-47.06 25.9 0 47.06 21.16 47.06 47.06V196.9zM283.1 385.88c25.9 0 47.06 21.16 47.06 47.06 0 25.9-21.16 47.06-47.06 47.06-25.9 0-47.06-21.16-47.06-47.06v-47.06h47.06zm0-23.72c-25.9 0-47.06-21.16-47.06-47.06 0-25.9 21.16-47.06 47.06-47.06h117.84c25.9 0 47.06 21.16 47.06 47.06 0 25.9-21.16 47.06-47.06 47.06H283.1z"/></svg>slack</a> </p> </li> </ul> </div> </div> </div>   </div> </footer> </div> <script src="/static/base/1.0.1/js/member_acknowledgement.js"></script> </body> </html>

CINXE.COM

Multimedia