BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral

<!DOCTYPE html><html lang="es" dir="ltr"><head>  <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start': new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0], j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src= 'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f); })(window,document,'script','dataLayer','GTM-TF44WCG2');</script>  <meta name="google-site-verification" content="qtQTnMSrK6sA-4pRLrqiSiCZUW4v-JjdBfmipk6pNRI"> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1"> <title>BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral</title> <meta name="description" content=""> <meta property="og:title" content="Transacciones en línea"> <meta property="og:type" content="website"> <meta property="og:url" content="#"> <meta property="og:image" content="#//assets/img/ogp.jpg"> <meta property="og:site_name" content="Transactions Online"> <meta property="og:description" content=""> <link rel="icon" href="https://global.ieice.org/assets/img/favicon.ico"> <link rel="apple-touch-icon" sizes="180x180" href="https://global.ieice.org/assets/img/apple-touch-icon.png"> <link rel="stylesheet" href="https://global.ieice.org/assets/css/header.css"> <link rel="stylesheet" href="https://global.ieice.org/assets/css/footer.css"> <link rel="stylesheet" href="https://global.ieice.org/assets/css/style.css"> <link rel="stylesheet" href="https://global.ieice.org/assets/css/2nd.css"> <link rel="stylesheet" href="https://global.ieice.org/assets/css/summary.css"> <link href="https://use.fontawesome.com/releases/v5.15.4/css/all.css" rel="stylesheet"> <link rel="stylesheet" type="text/css" href="https://unpkg.com/tippy.js@5.0.3/animations/shift-toward-subtle.css"> <link rel="stylesheet" type="text/css" href="https://cdn.jsdelivr.net/npm/slick-carousel@1.8.1/slick/slick.css"> <link rel="stylesheet" href="https://use.typekit.net/mgs1ayn.css">  <script src="https://global.ieice.org/web/ui/js/custom.js"></script> <link href="https://global.ieice.org/web/ui/site.css" rel="stylesheet">   <meta name="DC.title" content="BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral"> <meta name="DC.creator" content="Zhigang WU"> <meta name="DC.creator" content="Yaohui ZHU"> <meta name="DC.date.issued" scheme="DCTERMS.W3CDTF" content="2024/11"> <meta name="DC.Date" content="2024/11/01"> <meta name="DC.citation.volume" content="E107-D"> <meta name="DC.citation.issue" content="11"> <meta name="DC.citation.spage" content="1385"> <meta name="DC.citation.epage" content="1395"> <meta name="DC.identifier" content="https://global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_pdf"> <meta name="DCTERMS.abstract" content="Este artículo se centra en mejorar la estructura de la red de segmentación de imágenes de rama bilateral BiSeNet v2, mejorando su capacidad de aprendizaje de detalles espaciales y la precisión general de la segmentación de imágenes. Se propone una red modificada llamada "BiconvNet". En primer lugar, para extraer detalles espaciales superficiales de manera más efectiva, se propone un módulo de convolución de franjas concatenadas paralelas y dilatadas (PCSD) y se utiliza para extraer características locales y características contextuales circundantes en la rama de detalles. Continuando, se reconstruye la rama semántica utilizando la capacidad liviana de la convolución separable en profundidad y el alto rendimiento de ConvNet, para permitir un aprendizaje más eficiente de características semánticas avanzadas y profundas. Finalmente, se realiza un ajuste fino en la capa de agregación de guía bilateral de BiSeNet v2, lo que permite una mejor fusión de los mapas de características generados por la rama de detalles y la rama semántica. La parte experimental analiza la contribución de la convolución de franjas y los diferentes tamaños de convolución vacía a la precisión de la segmentación de imágenes, y los compara con convoluciones comunes como la convolución Conv2d, la convolución CG y la convolución CCA. El experimento demuestra que el módulo de convolución PCSD propuesto en este artículo tiene la mayor precisión de segmentación en todas las categorías del conjunto de datos Cityscapes en comparación con las convoluciones comunes. BiConvNet logró una mejora de precisión del 9.39 % con respecto a la red BiSeNet v2, con solo un ligero aumento de 1.18 M en los parámetros del modelo. Se logró una precisión de mIoU del 68.75 % en el conjunto de validación. Además, a través de experimentos comparativos con algoritmos de segmentación de imágenes de conducción autónoma de uso común en los últimos años, BiConvNet demuestra fuertes ventajas competitivas en precisión de segmentación en los conjuntos de datos Cityscapes y BDD100K."> <meta name="DC.type" content=""> <meta name="DC.relation.ispartof" content="IEICE Transactions en Información"> <meta name="DC.publisher" content="El Instituto de Ingenieros en Electrónica, Información y Comunicaciones">    <script async="" src="https://www.googletagmanager.com/gtag/js?id=G-FKRLDTXBR3"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-FKRLDTXBR3'); </script> <link rel="canonical" href="https://globals.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="x-default" href="https://global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="ja" href="https://ja.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="zh-cn" href="https://zh-cn.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="zh-tw" href="https://zh-tw.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="ko" href="https://ko.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="fr" href="https://fr.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="es" href="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="pt" href="https://pt.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="de" href="https://de.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="it" href="https://it.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="ru" href="https://ru.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="th" href="https://th.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="id" href="https://id.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="ms" href="https://ms.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="vi" href="https://vi.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <link rel="alternate" hreflang="uk" href="https://uk.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> <meta name="robots" content="noindex"> <meta http-equiv="Pragma" content="no-cache"> <meta http-equiv="Cache-Control" content="no-cache"> <meta http-equiv="Expires" content="0"> <script type="application/ld+json">{"@context":"https:\/\/schema.org","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"name":"INICIO","item":"https:\/\/global.ieice.org"},{"@type":"ListItem","position":2,"name":"IEICE TRANSACTIONS en Información","item":"https:\/\/es.global.ieice.org\/en_transactions\/information"},{"@type":"ListItem","position":3,"name":"Tomo E107-D N°11","item":"https:\/\/es.global.ieice.org\/en_transactions\/information\/E107-D_11"},{"@type":"ListItem","position":4,"name":"BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral"}]}</script> </head> <body class="full-html">  <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=GTM-TF44WCG2" height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>   <section id="wrapper" class="second d"> <div id="header"></div> <section class="form_box">  <style> .formsel_box { background-color: #fff; border: solid 1px #333; border-radius: 5px; //display: flex; width: 270px; //margin-left: 18%; } .formsel_box button.btn:hover { cursor: pointer; } .formsel_box .select select { width: 270px; border: none; outline: none; background-color: #efefef; font-size: 16px; padding: 10px 7%; border-radius: 4px 0 0 4px; -moz-appearance: none; -webkit-appearance: none; appearance: none; margin: 0 !important; } .formsel_box .select select::-ms-expand { display: none; } .formsel_box .select { position: relative; } .formsel_box .select:after { position: absolute; top: 17px; right: 5%; width: 0; height: 0; padding: 0; content: ''; border-left: 6px solid transparent; border-right: 6px solid transparent; border-top: 6px solid #111; pointer-events: none; } .formsel_box .select select:hover { cursor: pointer; } </style>  <div id="global-search"> <script> (function() { var cx = '0532c6e5d7b714c50'; var gcse = document.createElement('script'); gcse.type = 'text/javascript'; gcse.async = true; gcse.src = 'https://cse.google.com/cse.js?cx=' + cx; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(gcse, s); })(); </script> <gcse:search></gcse:search> </div>  <style> .msgbox00 { padding: 0.5em 1em; //margin: -2.5em 0; color: red; background: #FFFF99; } .for-pc { display:block; } .for-sp { display:none; } @media only screen and (max-width : 800px){ .for-pc { display:none; } .for-sp { display:block; } } </style> <form method="POST" id="submit_form" style="margin-left:18%;"> <div class="formsel_box"> <div class="notranslate select" id="skip_info"> <select id="submit_item"> <option value="https://es.global.ieice.org/chg_trans/all">All</option> <option value="https://es.global.ieice.org/chg_trans/fundamentals">IEICE Trans. Fundamentals</option> <option value="https://es.global.ieice.org/chg_trans/communications">IEICE Trans. Communications</option> <option value="https://es.global.ieice.org/chg_trans/electronics">IEICE Trans. Electronics</option> <option value="https://es.global.ieice.org/chg_trans/information">IEICE Trans. Inf. and Syst.</option> <option value="https://es.global.ieice.org/chg_trans/elex">IEICE Electronics Express</option> </select> <input type="hidden" id="BackUrl" name="BackUrl" value="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> </div> </div> </form> <div class="msgbox00 for-pc" style="margin-top:-40px; margin-left:42%; margin-right:15%;"> La función de búsqueda está en construcción. </div> <div class="msgbox00 for-sp" style="margin-left:18%; margin-right:15%;"> La función de búsqueda está en construcción. </div> <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.6.3/jquery.min.js"></script> <script> $(function(){ $("#submit_item").change(function(){ const str = document.getElementById("submit_item").value; const formhidden = document.getElementById("BackUrl").value; var form = document.createElement("form"); form.method = "POST"; form.action = str; const input = document.createElement('input'); input.setAttribute('type', 'hidden'); input.setAttribute('id', 'BackUrl'); input.value = formhidden; input.name = "BackUrl"; form.appendChild(input); document.body.appendChild(form); form.submit(); }); }); </script>  </section> <section class="contents"> <div class="inner clearfix"> <div class="breadcrumb"> <ul> <li id="skip_info" class="notranslate"><a href="https://es.global.ieice.org/top">Home</a></li> <li id="skip_info" class="notranslate"><a href="https://es.global.ieice.org/en_transactions/information">IEICE TRANSACTIONS on Information</a></li> <li id="skip_info" class="notranslate"><a href="https://es.global.ieice.org/en_transactions/information/E107-D_11">Volume E107-D No.11</a></li> <li class="current"><a href="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f">BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral</a></li> </ul> </div>  <div class="left_box">  <div class="note_top"><span class="icon"><i class="fas fa-exclamation-triangle"></i></span> <p id="skip_info" class="notranslate">The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".<br> <span class="copyright js-modal-open" data-target="modal_copyright">Copyrights notice</span> </p> </div> <div class="note_bottom move"><span class="icon"><i class="fas fa-exclamation-triangle"></i></span> <p id="skip_info" class="notranslate">The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. <span class="copyright js-modal-open" data-target="modal_copyright">Copyrights notice</span></p> <p class="close"><i class="fas fa-times-circle"></i></p> </div> <section class="summary_box">  <h3><span id="skip_info" class="notranslate"><span class="open_access2">Open Access</span><br><span class="TEXT-SUMMARY-TITLE" data-gt-block="">BiConvNet: Integrating Spatial Details and Deep Semantic Features in a Bilateral-Branch Image Segmentation Network</span></span> <span class="sub"><span class="open_access2">Acceso Abierto</span><br><span class="TEXT-SUMMARY-TITLE" data-gt-block="">BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral</span></span> </h3> <p class="notranslate author" id="skip_info"><span class="TEXT-AUTHOR">Zhigang WU</span>, <span class="TEXT-AUTHOR">Yaohui ZHU</span></p>  <div class="score_action_box"> <div class="score_box"> <ul> <li> <p class="score_name">Vistas de texto completo</p> <p class="score">156</p> </li> </ul> </div> <div class="action_box"> <ul> <li> <span class="cap js-modal-open" data-tippy-content="Add to My Favorites" data-target="modal_sign_personal"> <a href="add_favorites/e107-d_11_1385/"><i class="fas fa fa-star" style="color: #C0C0C0"></i></a> </span> </li> <li class="share"><span class="cap" data-tippy-content="share"><a href="#"><i class="fas fa-share-alt-square"></i></a></span></li> <li class="cite js-modal-open" data-target="modal_cite">Cita esto</li>  <style> .box_ppv:hover { background: #b03527; } .box_ppv { padding: 0.5em 0.5em; background: #FFF; border: solid 1px #b03527; border-radius: 50px; height: 25px; } .box_ppv p { margin: 0; padding: 0; } .hover-text:hover { opacity: 1; color: #FFF; } .hover-text { color: #b03527; } </style><li class="pdf" style="width: 200px;"><a href="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_pdf" onclick="ga('send', 'event', 'PDF', 'Down Load', 'ED');" target="_blank" style="width: 200px;"><i class="fas fa-file-pdf"></i><span id="skip_info" class="notranslate">Free </span><span id="skip_info" class="notranslate">PDF (7.6MB) </span></a></li> </ul> </div> </div> <style> .pdf1 { border: none; width: auto; } .pdf1 a { display: block; text-decoration: none; background-color: #fff; border: solid 1px #b03527; text-align: center; width: 200px; height: 40px; line-height: 40px; border-radius: 25px; font-size: 16px; color: #b03527; } .pdf1 i { margin-right: 10px; } .pdf1 a:hover { opacity: 1; background-color: #b03527; color: #fff; } .pdf_errata { display: block; text-decoration: none; background-color: #fff; border: solid 1px #b03527; text-align: center; width: 260px; height: 35px; line-height: 40px; border-radius: 25px; font-size: 14px; color: #b03527; margin-right: 3%; float: right; margin-top: -5%; margin-right: 80px; } .mmfile { display: block; text-decoration: none; background-color: #fff; border: solid 1px #b03527; text-align: center; width: 100px; height: 35px; line-height: 40px; border-radius: 25px; font-size: 14px; color: #b03527; margin-right: 10%; float: right; margin-top: -5%; margin-right: 235px; } .open_access2 { font-family: "noto-sans", sans-serif; font-weight: 400; font-style: normal; font-size: 14px; color: #fff; background-color: #b03527; padding: 2px 15px; border-radius: 5px; margin-left: 0px; position: relative; top: -1.5px; } </style>   <div class="summary" id="Summary"> <h4>Resumen:</h4> <div class="txt"> <p class="gt-block"> <span class="TEXT-COL">Este artículo se centra en mejorar la estructura de la red de segmentación de imágenes de rama bilateral BiSeNet v2, mejorando su capacidad de aprendizaje de detalles espaciales y la precisión general de la segmentación de imágenes. Se propone una red modificada llamada "BiconvNet". En primer lugar, para extraer detalles espaciales superficiales de manera más efectiva, se propone un módulo de convolución de franjas concatenadas paralelas y dilatadas (PCSD) y se utiliza para extraer características locales y características contextuales circundantes en la rama de detalles. Continuando, se reconstruye la rama semántica utilizando la capacidad liviana de la convolución separable en profundidad y el alto rendimiento de ConvNet, para permitir un aprendizaje más eficiente de características semánticas avanzadas y profundas. Finalmente, se realiza un ajuste fino en la capa de agregación de guía bilateral de BiSeNet v2, lo que permite una mejor fusión de los mapas de características generados por la rama de detalles y la rama semántica. La parte experimental analiza la contribución de la convolución de franjas y los diferentes tamaños de convolución vacía a la precisión de la segmentación de imágenes, y los compara con convoluciones comunes como la convolución Conv2d, la convolución CG y la convolución CCA. El experimento demuestra que el módulo de convolución PCSD propuesto en este artículo tiene la mayor precisión de segmentación en todas las categorías del conjunto de datos Cityscapes en comparación con las convoluciones comunes. BiConvNet logró una mejora de precisión del 9.39 % con respecto a la red BiSeNet v2, con solo un ligero aumento de 1.18 M en los parámetros del modelo. Se logró una precisión de mIoU del 68.75 % en el conjunto de validación. Además, a través de experimentos comparativos con algoritmos de segmentación de imágenes de conducción autónoma de uso común en los últimos años, BiConvNet demuestra fuertes ventajas competitivas en precisión de segmentación en los conjuntos de datos Cityscapes y BDD100K.</span> </p> </div> <div class="data"> <dl> <dt>Publicación</dt> <dd> <span id="skip_info" class="notranslate"> <span class="TEXT-COL">IEICE TRANSACTIONS on Information <a href="https://es.global.ieice.org/en_transactions/information/E107-D_11">Vol.<span class="TEXT-COL">E107-D</span></a> No.<span class="TEXT-COL">11 pp.1385-1395</span> </span> </span></dd> </dl> <dl> <dt>Fecha de publicación</dt> <dd><span class="TEXT-COL">2024/11/01</span></dd> </dl> <dl> <dt>publicitados</dt> <dd><span class="TEXT-COL">2024/07/16</span></dd> </dl> <dl> <dt>ISSN Online</dt> <dd><span class="TEXT-COL">1745 - 1361</span></dd> </dl> <dl> <dt><span id="skip_info" class="notranslate">DOI</span></dt> <dd><span id="skip_info" class="notranslate"><span class="TEXT-COL">10.1587/transinf.2024EDP7025</span></span></dd> </dl> <dl> <dt>Tipo de manuscrito</dt> <dd><span id="skip_info" class="notranslate"><span class="TEXT-COL">PAPER</span><br></span></dd> </dl> <dl> <dt>Categoría</dt> <dd><span class="TEXT-COL">Fundamentos de los sistemas de información</span></dd> </dl>  </div> </div> <div class="content">  <div class="txt"> <p> <script type="text/x-mathjax-config"> MathJax.Hub.Config({ tex2jax: { inlineMath: [ ['$','$'], ["\$","\$"] ], displayMath: [ ['$$','$$'], ["\\[","\\]"] ], processEnvironments: true, processEscapes: true, ignoreClass: "mathjax-off" }, CommonHTML: { linebreaks: { automatic: true } }, "HTML-CSS": { linebreaks: { automatic: true } }, SVG: { linebreaks: { automatic: true } }, }); </script> <script async="" src="https://cdn.jsdelivr.net/npm/mathjax@2.7.5/MathJax.js?config=TeX-AMS-MML_HTMLorMML-full"></script> <link rel="stylesheet" type="text/css" href="https://global.ieice.org/full_text/full.css"> </p><div class="gt-block fj-sec" data-gt-block="">  <div> <h4 id="sec_1" class="gt-block headline" data-gt-block=""><span></span>1. Introducción</h4> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>A medida que aumenta la prevalencia de los automóviles inteligentes, la tecnología de segmentación de imágenes se utiliza cada vez más para detectar y percibir el entorno de conducción en vehículos autónomos. El desarrollo de la tecnología de segmentación de imágenes ha pasado por dos etapas. En la primera etapa, la segmentación se basó en el aprendizaje automático tradicional, y la mayoría de los métodos dependían en gran medida del diseño de características creadas manualmente utilizando conocimientos previos, como el algoritmo de reducción de dimensionalidad (DRA) [1], K-Means [2] y C-Means [3]. Sin embargo, estos métodos eran en su mayoría heurísticos. En la segunda etapa, la segmentación se basó en el aprendizaje profundo para la segmentación de imágenes. Tras el trabajo innovador de las redes completamente convolucionales (FCN) [4], que inspiró muchos trabajos posteriores [5]-[7], el aprendizaje profundo se ha convertido en la principal opción de diseño para la segmentación de imágenes de escenas de conducción automática.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Dada la limitada potencia de cálculo de los sistemas de hardware de conducción autónoma, todavía existe un gran potencial para el desarrollo de esquemas de segmentación de imágenes ligeros y eficientes. El concepto de diseño macro de la estructura de red de múltiples ramas aboga por la utilización del modo de múltiples ramas para ejecutar diseños diferenciales para diversas tareas de extracción de características, lo que da como resultado una red de segmentación ligera y eficiente. Este concepto se ejemplifica con el conocido BiSeNet v2 [8], que sugiere una red de ramas bilaterales que integra detalles espaciales y características semánticas profundas. La rama de detalle implementa canales anchos y redes superficiales para adquirir detalles de bajo nivel y generar representaciones de características de alta resolución. Por el contrario, la rama semántica se centra únicamente en la obtención de información de contexto semántico profunda y de alto nivel. Los detalles espaciales y la semántica de clase se procesan por separado y luego se fusionan utilizando la capa de agregación guiada bilateral para lograr alta precisión y eficiencia en la segmentación semántica en tiempo real. Para la rama de detalle, la información de detalle espacial en la imagen es muy importante para conservar el límite. La rama convencional 3<span id="skip_info" class="notranslate">$\times$</span>El núcleo de convolución 3 utilizado en la rama de detalles para extraer información de detalles espaciales tiene una eficacia limitada. Esto se debe a que el núcleo de convolución convencional prioriza las características locales en el campo receptivo, pasando por alto la información de contexto global y circundante que puede ayudar a retener detalles espaciales y mejorar la precisión de la segmentación. Además, el núcleo de convolución 3 convencional<span id="skip_info" class="notranslate">$\times$</span>3 La convolución es redundante. Para la rama semántica, un campo receptivo más grande es crucial para aprender correlaciones complejas entre objetos. Pero, la rama semántica de BiSeNet v2 utiliza un módulo residual de cuello de botella invertido que combina la convolución regular y la convolución separable en profundidad para extraer información semántica contextual profunda. Sin embargo, este módulo tiene una correlación débil entre las características espaciales y las características del canal, lo que da como resultado un campo receptivo pequeño y deja mucho espacio para mejorar la precisión de la segmentación.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Este artículo propone una red denominada “BiConvNet”, que se basa en las mejoras realizadas en BiSeNet v2, específicamente para tareas de segmentación de imágenes en escenarios de conducción autónoma. Para mejorar la capacidad de la rama de detalles para aprender información de detalles espaciales, BiConvNet introduce módulos convolucionales PCSD para la extracción de características. Estos módulos combinan las ventajas de la convolución dilatada y la convolución de franjas para codificar características locales y contextuales de tres campos receptivos, mejorando así la capacidad de preservar detalles espaciales. Además, BiConvNet reconstruyó la rama semántica de BiSeNet v2 haciendo varias modificaciones. En lugar de utilizar el módulo residual de cuello de botella invertido original que combina la convolución convencional y la convolución separable en profundidad, BiConvNet utilizó una convolución separable en profundidad simple para el submuestreo en cada etapa. También utilizó el módulo de convolución de cuello de botella invertido de ConvNeXt para codificar información semántica para cada etapa, aumentando la correlación y el campo receptivo entre las características espaciales y del canal. Estas modificaciones llevaron a una mejor precisión de la segmentación. La capa de agregación de características de ramas bilaterales de BiConvNet emplea el módulo de agregación guiada bilateral (BGA), que se propuso en BiSeNet v2, y lo ajusta para mejorar la precisión de la segmentación sin aumentar la complejidad computacional. A través de experimentos de ablación y comparación con algoritmos convencionales, hemos demostrado la eficacia y viabilidad del esquema de mejora propuesto para BiSeNet v2. Además, nuestros resultados han confirmado que el algoritmo BiConvNet supera a los algoritmos de segmentación de imágenes de conducción autónoma comúnmente utilizados en términos de precisión y tamaño del modelo.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Las principales contribuciones del artículo son las siguientes:</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Uno. Este artículo presenta un módulo convolucional PCSD para mejorar la rama de detalle de BiSeNet v2 y así mejorar la extracción de información de detalles espaciales. La rama semántica se reconstruye mediante convolución separable en profundidad y módulos ConvNeXt para mejorar la codificación de características semánticas de nivel profundo. El ajuste fino del módulo BGA mejora aún más la precisión de la segmentación, completando la construcción de BiConvNet.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Dos. Este artículo examina el impacto de la convolución de franjas y de convoluciones dilatadas de diversos tamaños en la precisión de la segmentación de imágenes. Los resultados experimentales muestran que el módulo de convolución PCSD propuesto supera a los convencionales, logrando una mayor precisión en los conjuntos de datos de segmentación. BiConvNet demuestra una ventaja competitiva más sólida en comparación con los algoritmos de segmentación de uso común recientes.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>El diseño del contenido posterior es el siguiente. El trabajo relacionado con el esquema de construcción de red liviana se presenta en la Sección 2. La construcción de la red BiConvNet (Sección 3) se presenta primero en su totalidad, incluida la arquitectura general y los parámetros de instancia, seguida de la construcción de la rama de detalle (Sección 3.1), la rama semántica (Sección 3.2) y la capa de agregación (Sección 3.3). En el estudio experimental (Sección 4), se presentan los conjuntos de datos Cityscapes [10], BDD100K [11] y el entorno experimental (Sección 4.1), y se verifica la efectividad de las mejoras en la rama de detalle, la rama semántica y la capa de agregación para BiSeNet v2 a través de experimentos de ablación (Sección 4.2). Luego, se verifica la superioridad de BiConvNet a través de experimentos comparativos con algoritmos de segmentación de imágenes de conducción automática existentes (Sección 4.3). Finalmente, se resume el trabajo general y se proponen perspectivas futuras (Sección 5).</p> </div>  <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> <div class="gt-block fj-sec" data-gt-block=""> <div> <h4 id="sec_2" class="gt-block headline" data-gt-block=""><span></span>2. Trabajo relacionado</h4> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>A medida que la segmentación de imágenes basada en el aprendizaje profundo gana terreno en aplicaciones prácticas, los investigadores buscan soluciones de red ligeras y de alta precisión. La convolución separable en profundidad, conocida por su menor tamaño y menor coste computacional, es fundamental en los diseños de redes neuronales eficientes [12], [13]. MobileNets [14], una red troncal ampliamente utilizada, combina convoluciones separables en profundidad y regulares para lograr velocidad en sistemas integrados. MobileNets v2 [15] afirma una reducción de tamaño de 8 a 9 veces con convoluciones separables en profundidad, ofreciendo un sustituto a las convoluciones estándar. Al presentar un módulo que combina estructuras residuales de cuello de botella invertido con convoluciones separables en profundidad, equilibra la precisión y la velocidad, y se aplica en redes como Fast-SCNN [22] y ContextNet [20]. En CGNet [16], para abordar la limitación de las convoluciones regulares, un módulo de doble ruta fusiona convoluciones regulares y dilatadas, extrayendo características contextuales locales y circundantes.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Además de emplear módulos de convolución livianos para la construcción de redes, un enfoque predominante implica repensar el diseño del núcleo convolucional. La ERFNet [17] cuestiona la efectividad de apilar convoluciones convencionales para aumentar la profundidad, citando costos computacionales significativos con ganancias mínimas de precisión. Introduce el módulo "Non-bottleneck-1D", una convolución de tira unidimensional, que reduce los parámetros en un 33% en comparación con las convoluciones 3D convencionales.<span id="skip_info" class="notranslate">$\times$</span>3 convoluciones. Esto logra compacidad del modelo y eficiencia computacional al minimizar la redundancia a través de convoluciones en bandas unidimensionales. De manera similar, SegNeXt [18] utiliza un módulo de atención convolucional de múltiples ramas, que combina varios tamaños de convoluciones en bandas unidimensionales para capturar información contextual de múltiples escalas desde escalas locales a globales. Esto resalta la naturaleza liviana de las convoluciones en bandas, particularmente beneficiosas para extraer características de objetos tipo franja en escenarios de segmentación, como personas y postes de servicios públicos. CCNet [19] presenta el módulo de correlación cruzada, que obtiene información contextual a lo largo de rutas cruzadas y logra iterativamente dependencias de imagen completa para todos los píxeles. Este método reduce el uso de memoria de la GPU en 11 veces, lo que mejora la eficiencia computacional y produce resultados prometedores en conjuntos de datos de conducción autónoma.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Además de optimizar módulos convolucionales y reconstruir núcleos a nivel microscópico, los investigadores están explorando arquitecturas de redes de múltiples ramas. ContextNet [20] valida la efectividad de combinar ramas de red profundas con ramas de baja resolución para agregar información contextual de múltiples resoluciones. Esto captura detalles de segmentación de alta resolución al tiempo que incorpora información contextual global. Image Cascade Network (ICNet) [21] introduce una red de ramas de múltiples resoluciones que genera mapas de predicción aproximados a partir de imágenes de baja resolución mediante percepción semántica. Las unidades de fusión de características en cascada y las estrategias guiadas por etiquetas integran características de resolución media y alta, refinando gradualmente el mapa semántico aproximado. Por el contrario, Fast-SCNN [22] reduce la resolución de una sola imagen de entrada antes de construir una red de doble rama para obtener detalles espaciales y una extracción de información semántica más profunda con campos receptivos más altos.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>En este artículo se propone una red de segmentación de imágenes BiConvNet mejorada basada en BiSeNet v2, que comprende ramas semánticas y de detalle. A través de experimentos de comparación con Fast-SCNN y BiSeNet v2, BiConvNet demuestra una mayor precisión de segmentación.</p> </div> <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> <div class="gt-block fj-sec" data-gt-block=""> <div> <h4 id="sec_3" class="gt-block headline" data-gt-block=""><span></span>3. Construcción de la red BiConvNet</h4> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>El marco de red BiConvNet, ilustrado en la figura 1, comprende tres componentes principales: el tronco de la rama de detalles, que extrae información de detalles espaciales; el tronco de la rama semántica, que extrae semántica avanzada de nivel profundo; y la capa de agregación, que integra los mapas de características de doble rama. La rama de detalles reconstruida se compone de tres etapas, y cada etapa utiliza un 3<span id="skip_info" class="notranslate">$\times$</span>3 convolución regular para reducir la resolución y un módulo de convolución PCSD para la extracción de características. El tamaño de la imagen se reduce a la mitad en cada etapa y la relación de canales de características de salida es (64:64:128), mientras que la relación de cantidad de convolución PCSD es (1:2:2). La rama semántica reconstruida se compone de cinco etapas, y cada etapa utiliza una convolución separable en profundidad liviana para reducir la resolución y el módulo de convolución de cuello de botella invertido ConvNeXt para generar información densa de características semánticas. La relación de cantidad del módulo de convolución ConvNeXt varía entre etapas (3:3:9:6:3) y los canales de características de salida son (16:32:96:128:128). La capa de agregación se ajusta con precisión en función de la capa de agregación de guía bilateral de BiseNet v2. Multiplica los mapas de características sobremuestreados y submuestreados de las dos ramas píxel por píxel después de la activación sigmoidea y realiza una convolución regular en la adición píxel por píxel de los dos mapas de características para completar la fusión de los mapas de características.</p> <div id="fig_1" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f01.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f01.jpg" class="fj-fig-graphic"></a></td> </tr> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b> </b>  La arquitectura de red BiConvNet.</p></td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La Tabla 1 muestra los parámetros para cada etapa de las ramas semánticas y de detalle de la red BiConvNet. Cada etapa <i>S</i> contiene una o más operaciones, como la <i>PCSD</i> Bloque, convolución regular con <i>Conv2d</i>, <i>Bloque ConvNeXt</i>y <i>Conversión DS</i> Convolución separable en profundidad. Cada operación tiene un canal de salida. <i>c</i>, así como otros parámetros como el número de repeticiones. <i>r</i>.</p> <div id="table_1" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 1</b>  Detalle de la red BiConvNet y parámetros de la rama semántica</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t01.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t01.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> <div> <h5 id="sec_3_1" class="gt-block headline" data-gt-block=""><span></span>3.1 Detalle de la construcción de la rama</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>La rama de detalles de la red BiConvNet es responsable de procesar los detalles espaciales de las características semánticas superficiales y de bajo nivel. Estos detalles espaciales son fundamentales para preservar los límites de los objetos en las imágenes. Por lo tanto, esta rama requiere una gran capacidad de canal, así como módulos de convolución más eficientes, para codificar detalles espaciales enriquecidos en un contexto de red superficial.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>BiSeNet v2 utiliza convolución 2D tradicional con un 3<span id="skip_info" class="notranslate">$\times$</span>3 kernel para extraer detalles espaciales de la rama de detalles finos, pero el rendimiento de 3<span id="skip_info" class="notranslate">$\times$</span>La convolución 3 para extraer información de detalles finos es deficiente. Sin embargo, cualquier convolución 2D se puede representar mediante una combinación de convoluciones 1D [23]. La convolución 1D sin cuello de botella [17] utiliza una convolución de tira Conv1d con 1<span id="skip_info" class="notranslate">$\times$</span>3 y 3<span id="skip_info" class="notranslate">$\times$</span>1 grano en lugar de 3<span id="skip_info" class="notranslate">$\times$</span>3 núcleos de convolución para extraer características locales del objetivo, como se muestra en la figura 2 (a). Los experimentos han demostrado que este método reduce el 33 % de los parámetros en comparación con el uso de un núcleo de convolución de 3<span id="skip_info" class="notranslate">$\times$</span>3 núcleos de convolución, lo que mejora aún más la eficiencia computacional. Su definición <span id="skip_info" class="notranslate">${W_{2D}} \in {\Re ^{C \times {d^h} \times {d^v} \times F}}$</span> es el peso de una capa de convolución 2D, donde <span id="skip_info" class="notranslate">${W_{1D}} \in {\Re ^{C \times d \times F}}$</span> representa el peso de una convolución unidimensional, <span id="skip_info" class="notranslate">$C$</span> es el canal de entrada, <span id="skip_info" class="notranslate">$F$</span> es el canal de salida, y <span id="skip_info" class="notranslate">$d^h\times d^v$</span> es el tamaño del núcleo convolucional, típicamente <span id="skip_info" class="notranslate">$d^h\equiv d^v\equiv d$</span>Los resultados de salida del mapa de características convolucionales del módulo residual 2D original se pueden expresar como: </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} y=F(x,{W_{2D}})+I_x, \tag{1} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> <span id="skip_info" class="notranslate">$I_x$</span> representa el mapeo de identidad en redes residuales, <span id="skip_info" class="notranslate">$F(x,{W_i})$</span> representa el mapeo residual que se debe aprender, y la salida del módulo residual que utiliza convolución zancada 1D se puede expresar como: </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} y=F(x,{W_{1\times3},W_{3\times1}})+I_{x}, \tag{2} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> donde <span id="skip_info" class="notranslate">$W_{1\times3}$</span> y <span id="skip_info" class="notranslate">$W_{3\times1}$</span> representar los pesos de 1<span id="skip_info" class="notranslate">$\times$</span>3 y 3<span id="skip_info" class="notranslate">$\times$</span>1 convoluciones con zancadas, respectivamente.</p> <div id="fig_2" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f02.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f02.jpg" class="fj-fig-graphic"></a></td> </tr> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b> </b>  Se compara la estructura de los módulos de convolución PCSD y Non-bottleneck-1D. (a) Non-bottleneck-1D. (b) Bloque PCSD</p></td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>El módulo de convolución PCSD propuesto en este artículo utiliza el módulo de convolución Non-bottleneck-1D como rama de codificación de características locales. Se centra en la información de características locales dentro de un campo receptivo y añade la normalización BN a los núcleos de convolución segundo y cuarto para reducir el cálculo y evitar el sobreajuste. La rama naranja en la Fig. 2 (b) ilustra este módulo. Además, se diseñan tres ramas de codificación de contexto circundante basadas en el módulo de convolución PCSD. Estas ramas utilizan la convolución de dilatación (DConv) con tamaños de núcleo de 3<span id="skip_info" class="notranslate">$\times$</span>3, 5<span id="skip_info" class="notranslate">$\times$</span>5, 7 y<span id="skip_info" class="notranslate">$\times$</span>7 y una tasa de dilatación de 2 para codificar las características del contexto circundante del objetivo desde tres perspectivas diferentes. Esto mejora el aprendizaje de detalles espaciales y aumenta el campo receptivo del modelo de red.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La convolución dilatada es una técnica para aumentar el campo receptivo efectivo de una red neuronal convolucional mediante la inserción de espacios entre los elementos del núcleo. Esto permite que la red capture más información contextual de los mapas de características de entrada. La salida de una operación de convolución dilatada se puede definir de la siguiente manera: </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} {D=\sum_{h=1}^H\sum_{w=1}^W x\big(i+ar\times h,j+ar\times w\big)\times W_d,} \tag{3} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> <span id="skip_info" class="notranslate">$H$</span> y <span id="skip_info" class="notranslate">$W$</span> representar la altura y el ancho de la imagen de entrada, <span id="skip_info" class="notranslate">$x(i,j)$</span> denota el <span id="skip_info" class="notranslate">$(i,j)$</span> valor característico en la imagen, ar representa la tasa de dilatación, y la tasa de dilatación utilizada por PCSD para la convolución de dilatación es 2. <span id="skip_info" class="notranslate">$D$</span> representa el resultado de salida de la convolución de dilatación, y <span id="skip_info" class="notranslate">${W_{d}} \in {\Re ^{C \times {d^h} \times {d^v} \times F}}$</span> representa el peso de la convolución de dilatación. Después de obtener los mapas de características de las tres ramas de codificación de contexto circundantes, se concatenan a lo largo de la dimensión del canal: </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} P=\sigma(y+F_{1\times 1}(Z_{\mathrm{c}})), \tag{4} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> donde <span id="skip_info" class="notranslate">$\sigma$</span> es la función de activación de ReLU, la función <span id="skip_info" class="notranslate">$F_{1\times1}$</span> aplica convolución con un kernel 1x1. <span id="skip_info" class="notranslate">$Z_{c}$</span> es el resultado de concatenar los mapas de características de las tres ramas de convolución dilatadas.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La comparación de la rama detallada antes y después de la reconstrucción se presenta en la Tabla 2, donde el objeto de referencia es la rama detallada de la red BiSeNet v2 y Conv2d representa la rama convencional 3.<span id="skip_info" class="notranslate">$\times$</span>3 convolución. La rama detallada reconstruida ha alineado los números del canal de salida y del módulo de convolución con la rama detallada de BiSeNet v2, que son (64:64:128) y (2:3:3), respectivamente. Para mejorar la rama detallada, se empleó una estrategia en la que el módulo de convolución PCSD reemplazó al segundo módulo de convolución convencional en cada etapa de la rama detallada original. La rama detallada reconstruida logró una precisión mIoU del 63.98 %, que es un 4.62 % más alta que la precisión mIoU de la rama detallada original del 59.36 %. Además, el tamaño del modelo solo aumentó ligeramente en 0.18 M, lo que proporciona más evidencia de la eficacia de la reconstrucción de la rama detallada.</p> <div id="table_2" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 2</b>  Parámetros de comparación antes y después de la reconstrucción de la rama de detalle</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t02.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t02.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Al final del experimento, se investigan las ganancias de precisión generadas por cada rama de codificación de contexto y se analiza la combinación de convolución expandida de enlace único, enlace doble y la rama de codificación de características locales. Se realizan comparaciones experimentales en el conjunto de datos de paisajes urbanos. Además, se realizan experimentos que comparan la precisión del módulo de convolución PCSD con la codificación de características locales.<span id="skip_info" class="notranslate">$\times$</span>Se realizaron comparaciones entre el módulo de convolución 3 [8], el módulo de convolución MSCA [18], el módulo de convolución CCA [19] y el módulo de convolución CG [16]. Estas comparaciones confirman que el módulo de convolución PCSD exhibe alta precisión y rendimiento superior.</p> </div> <div> <h5 id="sec_3_2" class="gt-block headline" data-gt-block=""><span></span>3.2 Construcción de ramas semánticas</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>La rama semántica adopta un método de extracción semántica de clasificación de nivel profundo con canales estrechos para capturar semánticas más profundas y avanzadas. Como la rama detallada está presente, la rama semántica no requiere un uso excesivo de canales ni un muestreo descendente complejo para la extracción de características en las capas superficiales para evitar aumentar el cálculo del modelo. En cambio, se centra únicamente en características de nivel profundo y alto. La capacidad de canal de cada etapa de la rama semántica es (16:32:96:128:128). Las etapas superficiales de alta resolución emplean una capacidad de canal menor para la codificación preliminar de características, y se asignan más recursos de canal para aprender características semánticas de alto nivel y nivel profundo de baja resolución.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La rama de detalles tiene como objetivo reducir la pérdida de características durante el submuestreo, mientras que la rama semántica se centra en características semánticas más profundas. Para reducir los costos computacionales durante el submuestreo, la rama semántica utiliza convolución separable en profundidad [14] en lugar de la 3 convencional.<span id="skip_info" class="notranslate">$\times$</span>3 convolución utilizada en la rama de detalle. La convolución separable en profundidad descompone la convolución estándar en convolución en profundidad para filtrar y 1<span id="skip_info" class="notranslate">$\times$</span>1 convolución puntual para combinación. En la rama semántica, por ejemplo, la convolución de submuestreo tiene un paso de 2, un relleno de imagen de 1 y un tamaño de núcleo de 3. Cuando el mapa de características de entrada <span id="skip_info" class="notranslate">$T$</span> tiene una longitud, un ancho y un tamaño de canal de entrada de <span id="skip_info" class="notranslate">$D_i \times D_i \times M$</span> y el mapa de características de salida <span id="skip_info" class="notranslate">$G$</span> tiene una longitud, un ancho y un tamaño de canal de salida de destino de <span id="skip_info" class="notranslate">$D_o \times D_o \times N$</span>, y el mapa de características de salida <span id="skip_info" class="notranslate">$G$</span> tiene una longitud, un ancho y un tamaño de canal de salida de destino de <span id="skip_info" class="notranslate">$D_o \times D_o \times N$</span>, el costo de cálculo de la convolución regular es <span id="skip_info" class="notranslate">$C_n$</span>: </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} C_n=D_o^2\cdot{D_k}^2\cdot M\cdot N, \tag{5} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> donde <span id="skip_info" class="notranslate">$D_k$</span> es el tamaño del núcleo. Mientras que para la convolución separable en profundidad, el costo de cálculo <span id="skip_info" class="notranslate">$C_d$</span> : </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} C_d=D_o^2\cdot D_k^2\cdot M+D_o^2\cdot N\cdot M, \tag{6} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> El coste computacional de la convolución separable en profundidad es equivalente al de la convolución estándar: </p> <div class="fj-math-table-wrap"> <table class="fj-math-table"> <tbody> <tr> <td id="skip_info" class="notranslate">\[\begin{equation*} \frac{{D_{o}}^{2}\cdot{D_{k}}^{2}\cdot M+{D_{o}}^{2}\cdot N\cdot M,}{{D_{o}}^{2}\cdot{D_{k}}^{2}\cdot M\cdot N,}=\frac{1}{N}+\frac{1}{{D_{k}}^{2}},\quad \tag{7} \end{equation*}\]</td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span> La convolución separable en profundidad utilizada en el muestreo descendente de la rama semántica tiene un tamaño de kernel de 3, lo que reduce el costo computacional de 8 a 9 veces en comparación con la convolución estándar utilizada en BiSeNet v2.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La estructura del módulo de convolución utilizada por la rama semántica para la extracción de información semántica se compara en la figura 3. <span id="skip_info" class="notranslate">$d_n \times n$</span> representa una convolución estándar con un tamaño de núcleo de n, DS representa una convolución separable en profundidad y C es el número de canales en el mapa de características. En cada etapa de la rama semántica, después del submuestreo, se utiliza el módulo de convolución ConvNeXt [9] para generar información semántica contextual densa. El módulo está compuesto por una convolución residual de cuello de botella invertido con un 7<span id="skip_info" class="notranslate">$\times$</span>7 y dos 1<span id="skip_info" class="notranslate">$\times$</span>1 núcleos de convolución y supera a la convolución convencional [9]. Para reestructurar la rama semántica original de BiSeNet v2, este documento combina el módulo de convolución simple y eficiente ConvNeXt con la convolución separable en profundidad.</p> <div id="fig_3" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f03.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f03.jpg" class="fj-fig-graphic"></a></td> </tr> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b> </b>  Diagrama esquemático de la estructura del módulo de convolución GE y ConvNeXt. (a) Bloque GE de BiSeNet v2. (b) Bloque ConvNeXt</p></td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La Tabla 3 proporciona una comparación de parámetros antes y después de la reconstrucción de la rama semántica original en BiSeNet v2. En cada etapa, se utiliza la convolución separable en profundidad (DSConv) para el submuestreo, seguida de la codificación densa de características semánticas utilizando la convolución de bloque ConvNeXt. El número de convoluciones para ConvNeXt en cada etapa es (3:3:9:6:3) después de equilibrar la precisión y el rendimiento del modelo. La reconstrucción de la rama semántica propuesta logró una mejora del 2.94 % en la precisión de mIoU en comparación con la rama semántica original de BiSeNet v2 en el conjunto de datos Cityscapes, al tiempo que aumentó el parámetro del modelo en solo 0.44 M. Este experimento confirma la eficacia de la reconstrucción de la rama semántica propuesta en BiSeNet v2.</p> <div id="table_3" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 3</b>  Tabla de parámetros de comparación antes y después de la reconstrucción de la rama semántica</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t03.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t03.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> </div> <div> <h5 id="sec_3_3" class="gt-block headline" data-gt-block=""><span></span>3.3 Optimización de la capa de agregación bilateral</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>Las representaciones de características de las ramas bilaterales son complementarias, cada rama desconoce la información de la otra y las salidas de las dos ramas tienen diferentes niveles de representación de características. Por lo tanto, la capa de agregación tiene como objetivo fusionar estos dos tipos de representaciones de características. El algoritmo BiSeNet v2 diseñó la capa de Agregación Guiada Bilateral (BGA), que logró un buen rendimiento. Este documento realizó pequeños ajustes a la capa de agregación basados en la BGA. La Figura 4 muestra las modificaciones realizadas a la capa BGA. La parte roja indica la parte eliminada basada en la BGA, mientras que la parte verde indica las partes agregadas y modificadas basadas en ella. El texto negro permanece consistente con la BGA original. La estructura original de la BGA utiliza las características de la rama semántica para activar la función sigmoidea para atender las características de la rama de detalle. El enfoque propuesto aplica la función de activación sigmoidea a los resultados del muestreo ascendente y descendente de ambas ramas antes de multiplicarlos píxel por píxel para restaurar el tamaño original del mapa de características. Además, el mapa de características de tamaño original de la rama de detalle, que anteriormente se procesaba mediante convolución separable en profundidad, ahora se procesa mediante un 3<span id="skip_info" class="notranslate">$\times$</span>3 convolución para reducir el impacto en las características de detalle originales. La capa de agregación mejorada logró una mejora del 1.83 % en la precisión de mIoU en comparación con el módulo BGA original, y la cantidad de parámetros se mantuvo sin cambios.</p> <div id="fig_4" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f04.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f04.jpg" class="fj-fig-graphic"></a></td> </tr> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b> </b>  Diagrama esquemático de la capa de agregación guiada bilateral</p></td> </tr> </tbody> </table> </div> </div> </div> <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> <div class="gt-block fj-sec" data-gt-block=""> <div> <h4 id="sec_4" class="gt-block headline" data-gt-block=""><span></span>4. Estudio experimental</h4> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>En esta sección, primero se presentan los datos y los detalles de implementación. A continuación, se estudia más a fondo el impacto de cada rama de codificación del contexto circundante en el módulo de convolución PCSD sobre la precisión, y se verifica la confiabilidad y viabilidad del PCSD propuesto mediante la comparación con los módulos de convolución de uso común. Luego, a través de experimentos de ablación generales, demostramos el impacto de cada componente de nuestra rama semántica propuesta, rama de detalle y método de mejora de la capa de agregación sobre la precisión del conjunto de validación Cityscapes. Finalmente, informamos la precisión final en comparación con otros algoritmos para verificar el avance del BiConvNet propuesto y la efectividad de las mejoras de BiSeNet v2.</p> <div> <h5 id="sec_4_1" class="gt-block headline" data-gt-block=""><span></span>4.1 Conjuntos de datos y entorno experimental</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>El conjunto de datos Cityscapes se centra en la comprensión semántica de escenas urbanas de calles desde la perspectiva de un automóvil y contiene un conjunto de imágenes de alta resolución de 50 ciudades diferentes de Europa. El conjunto de datos se divide en un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba, con 2,975, 500 y 1,525 imágenes, respectivamente. En nuestros experimentos, solo utilizamos imágenes anotadas con precisión para validar la eficacia de nuestro método propuesto, que incluye 19 clases de segmentación para tareas de segmentación semántica. El conjunto de datos de segmentación de imágenes BDD100K es un conjunto de datos de video de conducción a gran escala y diverso diseñado para la investigación de la conducción autónoma. Este conjunto de datos de segmentación de imágenes incluye 10,000 19 fotogramas de imágenes, que cubren varias condiciones climáticas, horarios y ubicaciones geográficas. Cada imagen está anotada con precisión a nivel de píxel, incluidas 7,000 categorías principales, como marcas de carril, señales de tráfico, peatones y vehículos. De estas imágenes, 1,000 se utilizan para entrenamiento, 2,000 para validación y 2 para pruebas. El tamaño del lote durante el entrenamiento es 512 y el tamaño real de la imagen de entrada es (XNUMX<span id="skip_info" class="notranslate">$\times$</span>512<span id="skip_info" class="notranslate">$\times$</span>3) Las fluctuaciones de error se eliminan a través de 400 iteraciones, y la precisión más alta alcanzada durante el proceso de iteración se considera como la precisión final. La métrica de precisión de segmentación utilizada es la medida estándar de Intersección Media de Unión (mIoU). Python en PyTorch 1.13 y el marco MMsegmentation se utilizan para los experimentos. La inferencia se realiza utilizando una GPU con 12 GB de memoria (NVIDIA GeForce RTX 3060) y el entorno CUDA 11.6. El proceso de construcción del algoritmo utiliza el optimizador AdamW [24], con una descomposición de peso de 0.05. Inspirado por MobileNet [14], BiConvNet utiliza la tasa de aprendizaje poli, con una base de 0.045 y una potencia de 1. En el aumento de datos, BiConvNet utiliza operaciones como cambio de tamaño aleatorio entre 0.5 y 2, recorte aleatorio, volteo horizontal, mejora óptica de la imagen, normalización, etc. durante el entrenamiento. El modelo utiliza la pérdida de entropía cruzada como pérdida de la capa de cabeza durante el entrenamiento, con un peso de pérdida de 1.0.</p> </div> <div> <h5 id="sec_4_2" class="gt-block headline" data-gt-block=""><span></span>4.2 Experimento de ablación del módulo de convolución PCSD</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>Esta sección presenta el experimento de ablación del módulo de convolución PCSD para validar la efectividad de cada rama de codificación del contexto circundante del PCSD propuesto. El diseño experimental es el siguiente: se utiliza Non-bottleneck-1D como rama de detalle para extraer información de detalle espacial bajo el marco de red BiConvNet construido, y se introduce gradualmente la convolución dilatada. Por ejemplo, el grupo experimental 0 en la Tabla 4 indica que solo se utiliza el módulo de convolución Non-bottleneck-1D en la rama de detalle de la red BiConvNet propuesta. El grupo experimental 1 representa la expansión del tamaño del núcleo de la rama de codificación del contexto circundante de la convolución dilatada basada en el módulo de convolución Non-bottleneck-1D, con un tamaño de 3<span id="skip_info" class="notranslate">$\times$</span>3 e intervalo de 1. El grupo experimental 4 representa la introducción de dos ramas de codificación de contexto que rodean la convolución dilatada con tamaños de núcleo de 3.<span id="skip_info" class="notranslate">$\times$</span>3 y 5<span id="skip_info" class="notranslate">$\times$</span>5 y un intervalo de 1, respectivamente, basados en el módulo de convolución Non-bottleneck-1D. Finalmente, el grupo experimental 7 es el módulo de convolución PCSD que consta de tres tipos de convoluciones dilatadas y el módulo de convolución Non-bottleneck-1D. Estos experimentos tienen como objetivo demostrar la eficacia de cada rama de codificación del contexto circundante del módulo de convolución PCSD propuesto.</p> <div id="table_4" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 4</b>  Demostración de precisión experimental de la ablación del módulo de convolución PCSD</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t04.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t04.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Con base en los experimentos, está claro que el uso exclusivo de convoluciones densas locales para extraer características de detalles espaciales no es suficiente, y la codificación de la información contextual circundante contribuye positivamente a la precisión final. En términos de usar solo una rama de codificación de contexto combinada con Non-bottleNeck-1D, la 3 más pequeña<span id="skip_info" class="notranslate">$\times$</span>La convolución dilatada 3 con un campo receptivo más pequeño tiene una mayor precisión. Sin embargo, en el caso de utilizar dos ramas de codificación de contexto, la combinación de convoluciones dilatadas 5x5 y 7x7 tiene una mayor precisión. El módulo convolucional PCSD combina estas tres convoluciones dilatadas con diferentes campos receptivos para codificar la información contextual circundante y logra la mayor precisión, lo que valida la confiabilidad y viabilidad del módulo convolucional PCSD propuesto.</p> </div> <div> <h5 id="sec_4_3" class="gt-block headline" data-gt-block=""><span></span>4.3 Experimento de comparación de módulos convolucionales</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>La inspiración del diseño para el módulo de convolución PCSD proviene de varios otros módulos de convolución, como el 3<span id="skip_info" class="notranslate">$\times$</span>3 convolución [8], Non-bottleneck-1d [17], MSCA [18], CCA [19] y CG [16]. Esta sección compara el rendimiento del módulo de convolución PCSD con otros módulos de convolución cuando se utiliza en la rama de detalle de BiConvNet en el conjunto de validación Cityscapes. Los experimentos se realizan reemplazando el módulo de convolución de codificación de detalles espaciales en la rama de detalle de BiConvNet con los módulos de convolución antes mencionados, y se compara su rendimiento.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Los resultados experimentales presentados en la Tabla 5 indican que en comparación con el 3<span id="skip_info" class="notranslate">$\times$</span>3. En la convolución, los esquemas de mejora como la convolución en franjas 1D sin cuello de botella y la convolución cruzada CCA son eficaces. Aunque la convolución 1D sin cuello de botella tiene una mejora de precisión limitada en comparación con la convolución Conv2d convencional, y todavía hay una brecha significativa en comparación con los otros tres módulos de convolución. Sin embargo, el módulo de convolución PCSD propuesto en este documento, que combina la convolución en franjas y la convolución dilatada basada en la convolución 1D sin cuello de botella, logró una mejora del 8.09 % en la precisión, manteniendo la mayor precisión en la segmentación en todas las categorías. Esto confirma una vez más que la convolución en franjas es más eficiente que la convolución convencional, y que la codificación de la información contextual circundante juega un papel vital en la preservación de la información de detalles espaciales. También demuestra la alta precisión y la naturaleza avanzada del módulo de convolución PCSD propuesto.</p> <div id="table_5" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 5</b>   Los módulos convolucionales comparan resultados experimentales. La clase muestra todas las categorías en el conjunto de datos de paisajes urbanos, IoU ilustra la precisión de segmentación de diferentes categorías con diferentes módulos convolucionales y mIoU representa la precisión de segmentación promedio de diferentes módulos convolucionales. Para facilitar la observación, los datos con la mayor precisión se indican con el <span id="skip_info" class="notranslate">$\uparrow$</span> símbolo.</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t05.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t05.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> </div> <div> <h5 id="sec_4_4" class="gt-block headline" data-gt-block=""><span></span>4.4 Experimento de ablación de red BiConvNet</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>En esta sección, presentamos experimentos de ablación para verificar la efectividad de cada componente de nuestro algoritmo BiConvNet propuesto. El plan experimental es mejorar gradualmente la rama de detalle, la rama semántica y la capa de agregación de BiSeNet v2, que sirve como modelo de referencia, hasta que se convierta en la red BiConvNet propuesta en este documento. Como se muestra en la Tabla 6, la “Línea base” representa las ramas semánticas y de detalle originales en el algoritmo BiSeNet v2, “BGA” representa la agregación guiada bilateral propuesta en BiSeNet v2, y “Mejorado” representa los esquemas de mejora y reconstrucción de la rama de detalle, la rama semántica y la capa de agregación propuestos en este documento.</p> <div id="table_6" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 6</b>  Resultados de la ablación BiConvNet.</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t06.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t06.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Los resultados demuestran que reemplazar las convoluciones Conv2d regulares en BiSeNetv2 con módulos de convolución PCSD conduce a un aumento en el recuento de parámetros de solo 0.18 M, pero a un aumento de la precisión del 4.62 % (Grupo de Experimento 2). Se logró una mejora adicional en la precisión del 2.94 % mejorando la ruta semántica utilizando ConvNeXt y convolución separable en profundidad (Grupo de Experimento 3) con un ligero aumento en el recuento de parámetros de solo 0.44 M. Después de ajustar la capa de agregación BGA (Grupo de Experimento 4), la precisión final de la red BiConvNet aumentó en 9.39 puntos porcentuales en comparación con BiSeNet v2, alcanzando el 68.75 %, con solo un ligero aumento en el recuento de parámetros, lo que cumple con el principio de diseño de peso ligero. Estos experimentos de ablación confirman la importancia de la vía de detalle PCSD propuesta, la vía semántica que consta de convolución separable en profundidad y módulos de convolución ConvNeXt, y el ajuste fino de la capa de agregación BGA en el algoritmo BiConvNet. Como se muestra en la Figura 5, BiConvNet tiene una gran mejora en la retención de detalles de los bordes en comparación con BiSeNet v2, y los resultados mejorados son mejores.</p> <div id="fig_5" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f05.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/f05.jpg" class="fj-fig-graphic"></a></td> </tr> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b> </b>   Comparación mejorada del efecto de segmentación de imágenes antes y después. La primera columna (a) es la entrada de la imagen, la segunda columna (b) es la salida de BiSeNet v2, la tercera columna (c) es la salida de BiConvNet y la cuarta columna (d) es la verdad fundamental.</p></td> </tr> </tbody> </table> </div> </div> <div> <h5 id="sec_4_5" class="gt-block headline" data-gt-block=""><span></span>4.5 Experimento de comparación de algoritmos</h5> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>Esta sección presenta los experimentos realizados para comparar la precisión de BiConvNet con otros algoritmos de segmentación de imágenes de múltiples ramas, así como algoritmos comunes de segmentación de imágenes convolucionales puras y algunos algoritmos de segmentación de imágenes basados en transformadores, en los conjuntos de datos Cityscapes y BDD100K. Diferentes algoritmos pueden lograr una alta precisión en sus respectivos artículos originales debido a que los autores incorporan capas de red adicionales y estrategias de entrenamiento más avanzadas. Este artículo se centra principalmente en comparar las redes troncales, destacando la superioridad de diferentes redes troncales. El propósito de los experimentos es evaluar la precisión de diferentes marcos algorítmicos bajo las mismas condiciones y parámetros experimentales, al mismo tiempo que se comparan sus parámetros de modelo. Según la Tabla 7, los resultados experimentales muestran que BiSeNet v2 tiene una precisión del 59.36%, que es un 5.35% más alta que la red de segmentación de imágenes de ramas bilaterales similar, Fast-Scnn [22]. Sin embargo, los algoritmos de segmentación de imágenes de ramas bilaterales como BiSeNet v2 y Fast-Scnn suelen tener capacidades de segmentación de carreteras urbanas más débiles en comparación con los algoritmos comunes de redes de una sola rama como ConvNeXt [9], SegNeXt [18], Segformer [25], CGNet [16] y STDC [25]. Sin embargo, este documento, utilizando el algoritmo BiConvNet propuesto sobre la base de BiSeNetv2, mantiene la primera posición en la mayoría de las precisiones de IoU en el conjunto de datos Cityscapes. Además, al lograr un mIoU del 68.75 %, esto confirma la eficacia y el rendimiento avanzado del algoritmo de segmentación de imágenes de rama bilateral BiConvNet. De la Tabla 8, se puede observar que el algoritmo BiConvNet propuesto también supera a algoritmos como BiSeNet v2, Fast-Scnn y Segformer en términos de precisión en el conjunto de datos BDD100K.</p> <div id="table_7" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 7</b>  Precisión comparativa de los algoritmos en el conjunto de datos Cityscapes.</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t07.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t07.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> <div id="table_8" class="fj-table-g"> <table> <tbody> <tr> <td><p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span><b>Tabla 8</b>  Precisión comparativa de los algoritmos en el conjunto de datos BDD100K.</p></td> </tr> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t08.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/t08.jpg" class="fj-table-graphic"></a></td> </tr> </tbody> </table> </div> </div> </div> <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> <div class="gt-block fj-sec" data-gt-block=""> <div> <h4 id="sec_5" class="gt-block headline" data-gt-block=""><span></span>5. Conclusiones</h4> <p class="gt-block gt-block fj-p-no-indent" data-gt-block=""><span></span>Este proyecto tuvo como objetivo mejorar el rendimiento del algoritmo de segmentación de imágenes de ramas bilaterales BiSeNet v2 y proponer un nuevo modelo de segmentación semántica en tiempo real llamado BiConvNet. El enfoque combina las fortalezas de la convolución en franjas y la convolución dilatada para crear el módulo de convolución Pixel-Contextual Similarity Dilated (PCSD), que está diseñado para capturar detalles espaciales locales e información contextual circundante en la rama de detalles del modelo. Se exploraron las contribuciones de las convoluciones dilatadas y las convoluciones en franjas a la precisión de la segmentación de imágenes y se las comparó con convoluciones comunes, lo que confirmó la superioridad del módulo de convolución PCSD.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>Para mejorar aún más la capacidad del modelo de extraer información semántica de alto nivel, la rama semántica se reconstruye utilizando convolución separable en profundidad y módulos de convolución ConvNeXt. La convolución separable en profundidad ayuda a reducir la cantidad de parámetros del modelo, lo que lo hace más eficiente computacionalmente, mientras que el módulo de convolución ConvNeXt ayuda a mejorar las representaciones de características al explotar las interdependencias entre canales. Finalmente, ajustamos la capa de agregación BGA de BiSeNet v2 para lograr ganancias de precisión adicionales.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>La eficacia del módulo de convolución PCSD propuesto y el esquema de mejora general de BiSeNet v2 se validan mediante experimentos de ablación y experimentos comparativos, lo que demuestra la naturaleza avanzada de BiConvNet. En particular, nuestros experimentos indican que la precisión de BiConvNet es significativamente mayor que la de BiSeNet v2 y Fast-Scnn, dos redes de segmentación de imágenes de doble rama similares. Los experimentos también validan las mejoras introducidas por la rama de detalle, la rama semántica y la capa de agregación propuestas, lo que genera ganancias sustanciales en la precisión de la segmentación de imágenes en todas las categorías del conjunto de datos de paisajes urbanos.</p> <p class="gt-block gt-block fj-p" data-gt-block=""><span></span>El trabajo futuro incluye investigar más a fondo las funciones de las ramas semánticas y de detalle, con el objetivo de mejorar su capacidad para extraer información de detalles espaciales e información semántica profunda en un diseño diferenciado. Además, se introducirán tareas de aprendizaje profundo multitarea, como la estimación de la profundidad de la imagen, para ampliar el alcance de la aplicabilidad del modelo a problemas del mundo real en el campo de la conducción autónoma.</p> </div> <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> <div id="sec-references" class="gt-block fj-sec" data-gt-block=""> <h4 id="references" class="gt-block headline" data-gt-block=""><span></span>Referencias</h4> <div id="skip_info" class="notranslate"> <div id="ref-1" class="fj-list-ref"> <p>[1] S. Grewal and C. Rama Krishna, “Dimensionality reduction for face recognition using principal component analysis based big bang big crunch optimization algorithm,” 2nd International Conference on Electrical and Electronics Engineering, pp.949-955, Jan 2021. <br><a target="_blank" href="https://doi.org/10.1007/978-981-16-0749-3_72">CrossRef</a></p> </div> <div id="ref-2" class="fj-list-ref"> <p>[2] K. He, F. Wen, and J. Sun, “K-Means Hashing: An Affinity-Preserving Quantization Method for Learning Binary Compact Codes,” 26th IEEE Conference on Computer Vision and Pattern Recognition, pp.2938-2945, June 2013. <br><a target="_blank" href="https://doi.org/10.1109/cvpr.2013.378">CrossRef</a></p> </div> <div id="ref-3" class="fj-list-ref"> <p>[3] K.H. Memon, S. Memon, M.A. Qureshi, M.B. Alvi, D. Kumar, and R.A. Shah, “Kernel Possibilistic Fuzzy c-Means Clustering with Local Information for Image Segmentation,” International Journal of Fuzzy Systems, vol.21, no.1, pp.321-332, 2018. <br><a target="_blank" href="https://doi.org/10.1007/s40815-018-0537-9">CrossRef</a></p> </div> <div id="ref-4" class="fj-list-ref"> <p>[4] E. Shelhamer, J. Long, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” IEEE Trans. Pattern Anal. Mach. Intell., vol.39, no.4, pp.640-651, 2015. <br><a target="_blank" href="https://doi.org/10.1109/tpami.2016.2572683">CrossRef</a></p> </div> <div id="ref-5" class="fj-list-ref"> <p>[5] Z.G. Wu and Y. Z, “SWformer-VO: A monocular visual odometry model based on swin transformer,” IEEE Robot. Autom. Lett., vol.9, no.5, pp.4766-4773, 2024.</p> </div> <div id="ref-6" class="fj-list-ref"> <p>[6] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, and H. Lu, “Dual attention network for scene segmentation,” Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.3141-3149, June 2019.</p> </div> <div id="ref-7" class="fj-list-ref"> <p>[7] M. Yin, Z. Yao, Y. Cao, X. Li, Z. Zhang, S. Lin, and H. Hu, “Disentangled Non-local Neural Networks,” 16th European Conference on Computer Vision, pp.191-207, Aug. 2020. <br><a target="_blank" href="https://doi.org/10.1007/978-3-030-58555-6_12">CrossRef</a></p> </div> <div id="ref-8" class="fj-list-ref"> <p>[8] C. Yu, C. Gao, J. Wang, G. Yu, C. Shen, and N. Sang, “BiSeNet V2: Bilateral Network with Guided Aggregation for Real-Time Semantic Segmentation,” International Journal of Computer Vision, vol.128, no.11, pp.3051-3068, 2021. <br><a target="_blank" href="https://doi.org/10.1007/s11263-021-01515-2">CrossRef</a></p> </div> <div id="ref-9" class="fj-list-ref"> <p>[9] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, and S. Xie, “A ConvNet for the 2020s,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.11966-11976, June 2022. <br><a target="_blank" href="https://doi.org/10.1109/cvpr52688.2022.01167">CrossRef</a></p> </div> <div id="ref-10" class="fj-list-ref"> <p>[10] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The Cityscapes dataset for semantic urban scene understanding,” 29th IEEE Conference on Computer Vision and Pattern Recognition, pp.3213-3223, June 2016. <br><a target="_blank" href="https://doi.org/10.1109/cvpr.2016.350">CrossRef</a></p> </div> <div id="ref-11" class="fj-list-ref"> <p>[11] F. Yu, H. Chen, X. Wang, W. Xian, Y. Chen, F. Liu, V. Madhavan, and T. Darrell, “Bdd100k: A diverse driving dataset for heterogeneous multitask learning,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.2636-2645, 2020.</p> </div> <div id="ref-12" class="fj-list-ref"> <p>[12] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” 30th IEEE Conference on Computer Vision and Pattern Recognition, pp.1800-1807, July 2017. <br><a target="_blank" href="https://doi.org/10.1109/cvpr.2017.195">CrossRef</a></p> </div> <div id="ref-13" class="fj-list-ref"> <p>[13] X. Zhang, X. Zhou, M. Lin, and J. Sun, “ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices,” 31st Meeting of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.6848-6856, June 2018. <br><a target="_blank" href="https://doi.org/10.1109/cvpr.2018.00716">CrossRef</a></p> </div> <div id="ref-14" class="fj-list-ref"> <p>[14] A.G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient convolutional neural networks for mobile vision applications,” arXiv: 1074.04861, https://arxiv.org/abs/1704.04861, April 2017.</p> </div> <div id="ref-15" class="fj-list-ref"> <p>[15] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted Residuals and Linear Bottlenecks,” Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.4510-4520, Dec. 2018. <br><a target="_blank" href="https://doi.org/10.1109/cvpr.2018.00474">CrossRef</a></p> </div> <div id="ref-16" class="fj-list-ref"> <p>[16] T. Wu, “CGNet: A light-weight context guided network for semantic segmentation,” IEEE Trans. Image Process., vol.30, no.1, pp.1169-1179, 2018.</p> </div> <div id="ref-17" class="fj-list-ref"> <p>[17] E. Romera, J.M. Alvarez, L.M. Bergasa, and R. Arroyo, “ERFNet: Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation,” IEEE Trans. Intell. Transp. Syst., vol.19, no.1, pp.263-272, 2018. <br><a target="_blank" href="https://doi.org/10.1109/tits.2017.2750080">CrossRef</a></p> </div> <div id="ref-18" class="fj-list-ref"> <p>[18] MengHao G, ChengZe L, et al., “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation,” arXiv. doi:10.48550/arXiv.2209.08575. (preprint) <br><a target="_blank" href="https://doi.org/10.48550/arXiv.2209.08575">CrossRef</a></p> </div> <div id="ref-19" class="fj-list-ref"> <p>[19] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu, “CCNet: Criss-Cross Attention for Semantic Segmentation,” IEEE/CVF International Conference on Computer Vision, pp.603-612, Oct. 2019. <br><a target="_blank" href="https://doi.org/10.1109/iccv.2019.00069">CrossRef</a></p> </div> <div id="ref-20" class="fj-list-ref"> <p>[20] R.K. Poudel, B. Ujwal, et al., “ContextNet: Exploring context and detail for semantic segmentation in real-time,” British Machine Vision Conference, pp.1-12, Sept. 2018.</p> </div> <div id="ref-21" class="fj-list-ref"> <p>[21] Zhao H, Qi X, et al., “ICNet for Real-Time Semantic Segmentation on High-Resolution Images,” 15th European Conference on Computer Vision, pp.418-434, Sept. 2018. <br><a target="_blank" href="https://doi.org/10.1007/978-3-030-01219-9_25">CrossRef</a></p> </div> <div id="ref-22" class="fj-list-ref"> <p>[22] R.K. Poudel, L. Stephan, et al., “Fast-SCNN: Fast semantic segmentation network,” 30th British Machine Vision Conference, pp.1-9, Sept. 2019.</p> </div> <div id="ref-23" class="fj-list-ref"> <p>[23] J. Alvarez and L. Petersson, “DecomposeMe: Simplifying ConvNets for end-to-end learning, arXiv:1606.05426, 2016. https://arxiv.org/abs/1606.05426, June 2016.</p> </div> <div id="ref-24" class="fj-list-ref"> <p>[24] I. Loshchilov and F. Hutter, “Decoupled weight decay regularization,” arXiv:1711.05101, https://arxiv.org/abs/1711.05101, Jan. 2019.</p> </div> <div id="ref-25" class="fj-list-ref"> <p>[25] E. Xie, W. WenHai, et al., “SegFormer: Simple and efficient design for semantic segmentation with transformers,” 35th Conference on Neural Information Processing Systems, pp.12077-12090, Dec. 2021.</p> </div> <div id="ref-26" class="fj-list-ref"> <p>[26] M. Fan, S. Lai, J. Huang, X. Wei, Z. Chai, J. Luo, and X. Wei, “Rethinking BiSeNet For Real-Time Semantic Segmentation,” IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.9711-9720, April 2021. <br><a target="_blank" href="https://doi.org/10.1109/cvpr46437.2021.00959">CrossRef</a></p> </div> </div> <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> <div id="sec-authors" class="fj-sec-authors"> <h4 id="authors" class="gt-block headline" data-gt-block=""><span></span>Escritores</h4> <div id="skip_info" class="notranslate"> <div class="fj-author"> <b><a href="https://es.global.ieice.org/en_transactions/Author/a_name=Zhigang%20WU"><span>Zhigang WU</span></a></b><br>  <span style="font-Size:15px;"><b>Jiangxi University of Science and Technology</b></span><br> <p class="fj-p-no-indent" data-gt-block=""><span></span>received his B.S. degree from North University of China in July 2010 and M.S. degree in Mechanical Engineering from Tianjin University of Technology, in March 2013, and the Ph.D. degree from University of Macau in June 2017. He is currently an associate Professor with the School of Energy and Mechanical Engineering, Jiangxi University of Science and Technology, Nanchang, China. His current research interests including precision instrumentation; micro/nano positioning system; robotic advanced control algorithm.</p> <div id="graphic_1" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/a1.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/a1.jpg" class="fj-bio-graphic"></a></td> </tr> </tbody> </table> </div> </div> <div class="fj-author"> <b><a href="https://es.global.ieice.org/en_transactions/Author/a_name=Yaohui%20ZHU"><span>Yaohui ZHU</span></a></b><br>  <span style="font-Size:15px;"><b>Jiangxi University of Science and Technology</b></span><br> <p class="fj-p-no-indent" data-gt-block=""><span></span>received his B.S. degree from Anhui Institute of Information Technology in 2021. He is currently a post-graduate from Jiangxi University of Science and Technology. Research interests include computer vision deep learning and autonomous driving.</p> <div id="graphic_2" class="fj-fig-g"> <table> <tbody> <tr> <td><a target="_blank" href="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/a2.jpg"><img alt="" src="https://es.global.ieice.org/full_text/transinf/E107.D/11/E107.D_1385/Graphics/a2.jpg" class="fj-bio-graphic"></a></td> </tr> </tbody> </table> </div> </div> </div> <div class="fj-pagetop"><a href="#top">Parte superior de la página</a></div> </div> </div>   </div> <div style="border-bottom: solid 1px #ccc;"></div> <h4 id="Keyword">Palabra clave</h4> <div> <p class="gt-block"> <a href="https://es.global.ieice.org/en_transactions/Keyword/keyword=autonomous%20driving"><span class="TEXT-COL">conducción autónoma</span></a>,  <a href="https://es.global.ieice.org/en_transactions/Keyword/keyword=image%20segmentation"><span class="TEXT-COL">Segmentación de imagen</span></a>,  <a href="https://es.global.ieice.org/en_transactions/Keyword/keyword=bilateral%20branch%20network"><span class="TEXT-COL">red de sucursales bilaterales</span></a>,  <a href="https://es.global.ieice.org/en_transactions/Keyword/keyword=shallow%20spatial%20details"><span class="TEXT-COL">detalles espaciales superficiales</span></a>,  <a href="https://es.global.ieice.org/en_transactions/Keyword/keyword=semantic%20features"><span class="TEXT-COL">características semánticas</span></a> </p></div>  </section>  </div> <div class="right_box">   <section class="latest_issue"> <h4 id="skip_info" class="notranslate">Latest Issue</h4> <ul id="skip_info" class="notranslate"> <li class="a"><a href="https://es.global.ieice.org/en_transactions/fundamentals">IEICE Trans. Fundamentals</a></li> <li class="b"><a href="https://es.global.ieice.org/en_transactions/communications">IEICE Trans. Communications</a></li> <li class="c"><a href="https://es.global.ieice.org/en_transactions/electronics">IEICE Trans. Electronics</a></li> <li class="d"><a href="https://es.global.ieice.org/en_transactions/information">IEICE Trans. Inf. & Syst.</a></li> <li class="elex"><a href="https://es.global.ieice.org/en_publications/elex">IEICE Electronics Express</a></li> </ul> </section> </div> <div class="index_box"> <h4>Contenido</h4> <ul> <li><a href="#Summary">Resum</a></li> <li> <ul> <li><a href="#sec_1">1. Introducción</a></li> <li><a href="#sec_2">2. Trabajo relacionado</a></li> <li><a href="#sec_3">3. Construcción de la red BiConvNet</a></li> <li><a href="#sec_4">4. Estudio experimental</a></li> <li><a href="#sec_5">5. Conclusiones</a></li> </ul> </li> <li><a href="#references">Referencias</a></li> <li><a href="#authors">Escritores</a></li> <li><a href="#Keyword">Palabra clave</a></li> </ul> </div> </div>  <div id="modal_copyright" class="modal js-modal"> <div class="modal-wrap"> <div class="modal__bg"></div> <div class="modal__content"> <div class="notranslate modal__inner" id="skip_info"> <h4>Copyrights notice of machine-translated contents</h4> <p>The copyright of the original papers published on this site belongs to IEICE. Unauthorized use of the original or translated papers is prohibited. See <a href="https://www.ieice.org/eng/copyright/files/copyright.pdf" target="_blank">IEICE Provisions on Copyright</a> for details.</p> <p class="js-modal-close"><i class="fas fa-times"></i></p> </div> </div> </div> </div>   <div id="modal_cite" class="modal js-modal"> <div class="modal-wrap"> <div class="modal__bg"></div> <div class="modal__content"> <div class="modal__inner"> <h4 id="skip_info" class="notranslate">Cite this</h4> <nav class="nav-tab"> <ul> <li class="notranslate tab is-active" id="skip_info">Plain Text</li> <li class="notranslate tab" id="skip_info">BibTeX</li> <li class="notranslate tab" id="skip_info">RIS</li> <li class="notranslate tab" id="skip_info">Refworks</li> </ul> </nav> <div class="copy_box"> <div class="box is-show"> <p class="gt-block btn" id="js-copy"><i class="fas fa-copy"></i>Copiar</p> <p class="notranslate copy-text" id="skip_info">Zhigang WU, Yaohui ZHU, "BiConvNet: Integrating Spatial Details and Deep Semantic Features in a Bilateral-Branch Image Segmentation Network" in IEICE TRANSACTIONS on Information, vol. E107-D, no. 11, pp. 1385-1395, November 2024, doi: <span class="TEXT-COL">10.1587/transinf.2024EDP7025</span>.<br> Abstract: <span class="TEXT-COL">This article focuses on improving the BiSeNet v2 bilateral branch image segmentation network structure, enhancing its learning ability for spatial details and overall image segmentation accuracy. A modified network called “BiconvNet” is proposed. Firstly, to extract shallow spatial details more effectively, a parallel concatenated strip and dilated (PCSD) convolution module is proposed and used to extract local features and surrounding contextual features in the detail branch. Continuing on, the semantic branch is reconstructed using the lightweight capability of depth separable convolution and high performance of ConvNet, in order to enable more efficient learning of deep advanced semantic features. Finally, fine-tuning is performed on the bilateral guidance aggregation layer of BiSeNet v2, enabling better fusion of the feature maps output by the detail branch and semantic branch. The experimental part discusses the contribution of stripe convolution and different sizes of empty convolution to image segmentation accuracy, and compares them with common convolutions such as Conv2d convolution, CG convolution and CCA convolution. The experiment proves that the PCSD convolution module proposed in this paper has the highest segmentation accuracy in all categories of the Cityscapes dataset compared with common convolutions. BiConvNet achieved a 9.39% accuracy improvement over the BiSeNet v2 network, with only a slight increase of 1.18M in model parameters. A mIoU accuracy of 68.75% was achieved on the validation set. Furthermore, through comparative experiments with commonly used autonomous driving image segmentation algorithms in recent years, BiConvNet demonstrates strong competitive advantages in segmentation accuracy on the Cityscapes and BDD100K datasets.</span><br> URL: https://global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f</p> </div> <div class="box"> <p class="gt-block btn" id="js-copy-BibTeX"><i class="fas fa-copy"></i>Copiar</p> <p class="notranslate copy-BibTeX" id="skip_info">@ARTICLE{e107-d_11_1385,<br> author={Zhigang WU, Yaohui ZHU, },<br> journal={IEICE TRANSACTIONS on Information}, <br> title={BiConvNet: Integrating Spatial Details and Deep Semantic Features in a Bilateral-Branch Image Segmentation Network}, <br> year={2024},<br> volume={E107-D},<br> number={11},<br> pages={1385-1395},<br> abstract={<span class="TEXT-COL">This article focuses on improving the BiSeNet v2 bilateral branch image segmentation network structure, enhancing its learning ability for spatial details and overall image segmentation accuracy. A modified network called “BiconvNet” is proposed. Firstly, to extract shallow spatial details more effectively, a parallel concatenated strip and dilated (PCSD) convolution module is proposed and used to extract local features and surrounding contextual features in the detail branch. Continuing on, the semantic branch is reconstructed using the lightweight capability of depth separable convolution and high performance of ConvNet, in order to enable more efficient learning of deep advanced semantic features. Finally, fine-tuning is performed on the bilateral guidance aggregation layer of BiSeNet v2, enabling better fusion of the feature maps output by the detail branch and semantic branch. The experimental part discusses the contribution of stripe convolution and different sizes of empty convolution to image segmentation accuracy, and compares them with common convolutions such as Conv2d convolution, CG convolution and CCA convolution. The experiment proves that the PCSD convolution module proposed in this paper has the highest segmentation accuracy in all categories of the Cityscapes dataset compared with common convolutions. BiConvNet achieved a 9.39% accuracy improvement over the BiSeNet v2 network, with only a slight increase of 1.18M in model parameters. A mIoU accuracy of 68.75% was achieved on the validation set. Furthermore, through comparative experiments with commonly used autonomous driving image segmentation algorithms in recent years, BiConvNet demonstrates strong competitive advantages in segmentation accuracy on the Cityscapes and BDD100K datasets.</span>},<br> keywords={},<br> doi={<span class="TEXT-COL">10.1587/transinf.2024EDP7025</span>},<br> ISSN={<span class="TEXT-COL">1745-1361</span>},<br> month={November},}</p> </div> <div class="box"> <p class="gt-block btn" id="js-copy-RIS"><i class="fas fa-copy"></i>Copiar</p> <p class="notranslate copy-RIS" id="skip_info">TY - JOUR<br> TI - BiConvNet: Integrating Spatial Details and Deep Semantic Features in a Bilateral-Branch Image Segmentation Network<br> T2 - IEICE TRANSACTIONS on Information<br> SP - 1385<br> EP - 1395<br> AU - Zhigang WU<br> AU - Yaohui ZHU<br> PY - 2024<br> DO - <span class="TEXT-COL">10.1587/transinf.2024EDP7025</span><br> JO - IEICE TRANSACTIONS on Information<br> SN - <span class="TEXT-COL">1745-1361</span><br> VL - E107-D<br> IS - 11<br> JA - IEICE TRANSACTIONS on Information<br> Y1 - November 2024<br> AB - <span class="TEXT-COL">This article focuses on improving the BiSeNet v2 bilateral branch image segmentation network structure, enhancing its learning ability for spatial details and overall image segmentation accuracy. A modified network called “BiconvNet” is proposed. Firstly, to extract shallow spatial details more effectively, a parallel concatenated strip and dilated (PCSD) convolution module is proposed and used to extract local features and surrounding contextual features in the detail branch. Continuing on, the semantic branch is reconstructed using the lightweight capability of depth separable convolution and high performance of ConvNet, in order to enable more efficient learning of deep advanced semantic features. Finally, fine-tuning is performed on the bilateral guidance aggregation layer of BiSeNet v2, enabling better fusion of the feature maps output by the detail branch and semantic branch. The experimental part discusses the contribution of stripe convolution and different sizes of empty convolution to image segmentation accuracy, and compares them with common convolutions such as Conv2d convolution, CG convolution and CCA convolution. The experiment proves that the PCSD convolution module proposed in this paper has the highest segmentation accuracy in all categories of the Cityscapes dataset compared with common convolutions. BiConvNet achieved a 9.39% accuracy improvement over the BiSeNet v2 network, with only a slight increase of 1.18M in model parameters. A mIoU accuracy of 68.75% was achieved on the validation set. Furthermore, through comparative experiments with commonly used autonomous driving image segmentation algorithms in recent years, BiConvNet demonstrates strong competitive advantages in segmentation accuracy on the Cityscapes and BDD100K datasets.</span><br> ER - </p> </div> <div class="box"> <p id="skip_info" class="notranslate"></p> </div> </div> <p class="js-modal-close"><i class="fas fa-times"></i></p> </div> </div> </div>  </div></section>  <div id="link"></div> <div id="footer"></div> </section>  <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.6.3/jquery.min.js"></script> <script> $(function() { // $("#header").load("/assets/tpl/header.html"); // $("#footer").load("/assets/tpl/footer.html"); // $("#form").load("/assets/tpl/form.html"); // $("#link").load("/assets/tpl/link.html"); // $("#aside").load("/assets/tpl/aside.html"); }); </script>  <script type="text/javascript" src="https://cdn.jsdelivr.net/npm/slick-carousel@1.8.1/slick/slick.min.js"></script>  <header> <div class="nav_sub">  <h1><a href="https://www.ieice.org/eng_r/index.html"><img src="https://global.ieice.org/assets/img/logo_w.png" alt=""></a></h1> <div class="nav-toggle"> <div> <span></span> <span></span> <span></span> </div> </div> <style> header .nav_sub { background-color: #333; height: 60px; } header .nav_sub nav ul li:first-child:before { content: ''; border-left: solid 1px #555; margin: 0 15px; } header .nav_sub nav ul li:after { content: ''; border-right: solid 1px #555; margin: 0 15px; } header .nav_sub nav ul li a { text-decoration: none; color: #fff; font-size: 13px; cursor: pointer; } header .nav_sub nav.tos.pc .nav_join_sub { width: 200px; position: absolute; top: 41px; left: 280px; line-height: normal; background-color: #333; border: solid 1px #aaa; display: none; } header .nav_sub nav.tos.pc .nav_join_sub:before { content: ""; display: inline-block; width: 0; height: 0; border: 10px solid transparent; border-top: 0 solid transparent; border-bottom: 10px solid #eee; position: absolute; top: -11px; left: 55px; } header .nav_sub nav.tos.pc .nav_join_sub ul { margin: 0; padding: 0; list-style: none; position: static; display: block; } header .nav_sub nav.tos.pc .nav_join_sub ul li:first-child:before { border: none; margin: 0; } header .nav_sub nav.tos.pc .nav_join_sub ul li:after { border: none; margin: 0; } header .nav_sub nav.tos.pc .nav_join_sub ul li a { display: block; text-decoration: none; color: #fff; padding: 12px 10%; border-bottom: solid 1px #aaa; } header .nav_sub nav.tos.pc .nav_join_sub ul li:last-child a { border-bottom: none; } header .nav_sub nav.tos.pc .nav_join_sub ul li a:hover { opacity: 1; background-color: #2C83A3; } </style> <nav class="tos pc"> <ul> <li><span class="toggle"><a>Términos de Servicio<span class="plus"></span></a></span> <div class="nav_tos_sub"> <ul> <li><a href="https://www.ieice.org/eng_r/member/individual_member/index.html">para miembro</a></li> <li><a href="https://www.ieice.org/eng_r/member/subscription_member/index.html">para miembro de suscripción</a></li> </ul> </div> </li> <li><a href="https://www.ieice.org/eng_r/ranking/transactions/monthly/index.html">Clasificación de lectura</a></li> <li><span class="toggle"><a>Únase IEICE<span class="plus"></span></a></span> <div class="nav_join_sub"> <ul> <li><a href="https://www.ieice.org/eng_r/join/individual_member.html">Miembro individual</a></li> <li><a href="https://www.ieice.org/eng_r/join/subscription_member.html">Miembro de suscripción</a></li> </ul> </div> </li> </ul> </nav>  <script> $(function(){ $(".mypage .toggle").on("click", function() { $(this).next().fadeToggle(); }); $(document).on('click', function(e) { if (!$(e.target).closest('.mypage .toggle').length) { $('.mypage .scroll_box').fadeOut(); } }); }); </script> <style> header .nav_sub .login_box00 { font-size: 13px; line-height: 18px; cursor: pointer; width: 180px; padding: 12px 0; transition: all .3s; margin-top: -12px; } header .nav_sub .login_box00:hover { opacity: 1; } </style> <div class="lang_box"> <span class="active toggle"> <span class="flag"> <img src="https://global.ieice.org/assets/img/lang_spanish.png" alt="Español"> </span> <span class="t">Español</span> </span> <div class="scroll_box"> <div class="scroll"> <ul id="skip_info" class="notranslate"> <li><a href="https://ja.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_japanese.png" alt="日本語"></span>日本語</a></li> <li id="link_text"><a href="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_english.png" alt="English"></span>English</a></li> <li><a href="https://zh-cn.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_simplified_chinese.png" alt="中文（简体字）"></span>中文（简体字）</a></li> <li><a href="https://zh-tw.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_traditional_chinese.png" alt="中文（繁體字）"></span>中文（繁體字）</a></li> <li><a href="https://ko.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_korean.png" alt="한국어"></span>한국어</a></li> <li><a href="https://fr.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_french.png" alt="Français"></span>Français</a></li> <li><a href="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_spanish.png" alt="Español"></span>Español</a></li> <li><a href="https://pt.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_portuguese.png" alt="Português"></span>Português</a></li> <li><a href="https://de.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_german.png" alt="Deutsch"></span>Deutsch</a></li> <li><a href="https://it.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_italian.png" alt="Italienisch"></span>Italienisch</a></li> <li><a href="https://ru.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_russian.png" alt="русский язык"></span>русский язык</a></li> <li><a href="https://th.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_thai.png" alt="ไทย"></span>ไทย</a></li> <li><a href="https://id.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_indonesian.png" alt="Bahasa Indonesia"></span>Bahasa Indonesia</a></li> <li><a href="https://ms.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_malay.png" alt="Bahasa Melayu"></span>Bahasa Melayu</a></li> <li><a href="https://vi.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_vietnamese.png" alt="Tiếng Việt"></span>Tiếng Việt</a></li> <li><a href="https://uk.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"><span class="flag"><img src="https://global.ieice.org/assets/img/lang_ukrainian.png" alt="Українська"></span>Українська</a></li> </ul> </div> </div> </div>  <script> $(function(){ $("#link_text a").attr("href", "//global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f") }); </script>  <div class="login_box02" data-target="modal_sign_institutional"> <span class="TEXT-LOGIN-MSG"></span><form action="https://es.global.ieice.org/auth/login.php" method="GET" name="form1"><input type="hidden" name="lang" value="es"><a href="javascript:form1.submit()" style="color: #fff; font-size: 13px; text-decoration:none">Acceso<span>[Miembro]</span></a> <input type="hidden" name="login" value="1"> <input type="hidden" name="ref" value="https://es.global.ieice.org/en_transactions/information/10.1587/transinf.2024EDP7025/_f"> </form> </div> <div class="login_box01 js-modal-open" data-target="modal_sign_personal"> Acceso<span>[No es miembro]</span> </div> </div> <div class="nav_main"> <div class="wrap"> <nav class="tos sp"> <ul> <li><p class="gt-block toggle"><a>Términos de Servicio<span class="plus"></span></a></p> <div class="nav_tos_sub"> <ul> <li><a href="https://www.ieice.org/eng_r/member/individual_member/index.html">para miembro</a></li> <li><a href="https://www.ieice.org/eng_r/member/subscription_member/index.html">para miembro de suscripción</a></li> </ul> </div> </li> <li><a href="https://www.ieice.org/eng_r/ranking/transactions/monthly/index.html">Clasificación de lectura</a></li> <li><span class="toggle"><a>Únase IEICE<span class="plus"></span></a></span> <div class="nav_join_sub"> <ul> <li><a href="https://www.ieice.org/eng_r/join/individual_member.html">Miembro individual</a></li> <li><a href="https://www.ieice.org/eng_r/join/subscription_member.html">Miembro de suscripción</a></li> </ul> </div> </li> </ul> </nav> <nav> <ul> <li><a href="/top">Top</a></li> <li><span class="toggle"><a>Explorar<span class="plus"></span></a></span> <div class="nav_main_sub scroll_box"> <div class="inner scroll clearfix"> <ul> <li><a href="https://es.global.ieice.org/en_transactions/fundamentals">IEICE Trans Fundamentals</a></li> <li><a href="https://es.global.ieice.org/en_transactions/communications">IEICE Trans Commun.</a></li> <li><a href="https://es.global.ieice.org/en_transactions/electronics">IEICE Trans Electron.</a></li> <li><a href="https://es.global.ieice.org/en_transactions/information">IEICE Trans Inf.& Syst.</a></li> <li><a href="https://es.global.ieice.org/en_transactions/_arc_jpn/">IEICE Transactions（JPN Edition）</a></li> <li><a href="https://es.global.ieice.org/en_publications/elex">ELEX</a></li> <li><a href="https://www.jstage.jst.go.jp/browse/nolta/-char/en">NOLTA</a></li> <li><a href="https://www.ieice.org/cs_r/eng/comex/">ComEX</a></li> </ul> <ul> <li><a href="https://www.ieice.org/publications/conferences/">Conferencias</a></li> <li><a href="https://www.ieice.org/publications/proceedings/">Proceso</a></li> <li><a href="https://www.journal.ieice.org/index.php?lang=E">Actualidad</a></li> <li><a href="https://www.ieice.org/publications/ken/index.php?lang=en">Reporte técnico</a></li> <li><a href="https://webinar.ieice.org/">Archivo de seminarios web bajo demanda</a></li> </ul> </div> </div> </li> <li><span class="toggle"><a>Archive <span class="plus"></span></a></span> <div class="nav_main_sub"> <div class="inner clearfix"> <ul> <li><a href="https://es.global.ieice.org/en_transactions/_arc/">Lista de volúmenes</a></li> <li><a href="https://es.global.ieice.org/en_transactions/_arc_jpn/">Lista de volúmenes (Edición JPN)</a></li> <li><a href="https://es.global.ieice.org/en_publications/_arc/">Lista de volumen（ELEX)</a></li> </ul> </div> </div> </li> <li><span class="toggle"><a>Consejo Editorial<span class="plus"></span></a></span> <div class="nav_main_sub"> <div class="inner clearfix"> <ul> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/EA/">IEICE Trans Fundamentals.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/EB/">IEICE Trans Commun.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/EC/">IEICE Trans Electron.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/ED/">IEICE Trans Inf. & Syst.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/E_Archive/">Archive </a></li> </ul>  </div> </div> </li> <li><span class="toggle"><a>Enviar y suscribirse<span class="plus"></span></a></span> <div class="nav_main_sub"> <div class="inner clearfix"> <ul> <li><a href="https://www.ieice.org/eng_r/transactions/transactions_including_elex_comex_and_nolta.html">Directrices de envío</a></li> <li><a href="https://review.ieice.org/regist/regist_baseinfo_e.aspx">Enviar manuscrito</a></li> <li><a href="https://www.ieice.org/eng_r/member/subscription_member/index.html?id=c">Suscripción</a></li> </ul> </div> </div> </li> </ul> </nav> </div> </div>  <form method="post" action="https://es.global.ieice.org/signin/"> <div id="modal_sign_personal" class="modal js-modal"> <div class="modal-wrap"> <div class="modal__bg"></div> <div class="modal__content"> <div class="modal__inner clearfix"> <h4>Acceso<span>[No es miembro]</span></h4> <div class="signin_box"> <p> <input type="text" name="emailaddr" value="" size="40" placeholder="Correo electrónico"> </p> <p> <input type="password" name="passwd" value="" size="40" placeholder="Contraseña"> </p> <button type="submit">Iniciar Sesión</button> <p class="gt-block forgot"><a href="#">¿Olvidaste tu contraseña?</a></p> </div> <div class="create_box"> <p>Crear cuenta ahora.</p> <p class="gt-block btn"><a href="https://es.global.ieice.org/create_account/">Crear una cuenta</a></p> </div> <p class="js-modal-close"><i class="fas fa-times"></i></p> </div> </div> </div> </div> </form>    <div id="modal_sign_institutional" class="modal js-modal"> <div class="modal-wrap"> <div class="modal__bg"></div> <div class="modal__content"> <div class="modal__inner clearfix"> <h4>Acceso<span>[Miembro]</span></h4> <div class="signin_box"> <p> <input type="text" name="" value="" size="40" placeholder="Correo electrónico"> </p> <p> <input type="text" name="" value="" size="40" placeholder="Contraseña"> </p> <button type="submit">Iniciar Sesión</button> <p class="gt-block forgot"><a href="#">¿Olvidaste tu contraseña?</a></p> </div> <div class="create_box"> <p>Crear cuenta ahora.</p> <p class="gt-block btn"><a href="#">Crear una cuenta</a></p> </div> <p class="js-modal-close"><i class="fas fa-times"></i></p> </div> </div> </div> </div>  </header>  <section class="link"> <h4>Enlaces</h4> <div class="slider"> <div class="slide"><a href="https://www.ieice.org/eng_r/information/schedule/journals.php"> <figure><img src="https://global.ieice.org/assets/img/link_01.jpg" alt="Llamar por papeles"></figure> <div class="txt"> <h5>Llamar por papeles</h5> <p>Sección especial</p> </div> </a></div> <div class="slide"><a href="https://www.ieice.org/eng_r/transactions/transactions_including_elex_comex_and_nolta.html"> <figure><img src="https://global.ieice.org/assets/img/link_02.jpg" alt="Envia a IEICE trans."></figure> <div class="txt"> <h5>Envia a IEICE trans.</h5> <p>Información para autores</p> </div> </a></div> <div class="slide"><a href="https://www.ieice.org/eng_r/information/topics.html"> <figure><img src="https://global.ieice.org/assets/img/link_03.jpg" alt="Transacciones NOTICIAS"></figure> <div class="txt"> <h5>Transacciones NOTICIAS</h5> <p> </p> </div> </a></div> <div class="slide"><a href="https://www.ieice.org/eng_r/ranking/index.html"> <figure><img src="https://global.ieice.org/assets/img/link_04.jpg" alt="Articulos populares"></figure> <div class="txt"> <h5>Articulos populares</h5> <p>Las mejores descargas de 10</p> </div> </a></div> </div> </section>   <script> $('.slider').slick({ autoplay: true, autoplaySpeed: 3000, speed: 2000, centerMode: true, //centerPadding: '60px', slidesToShow: 3, infinite: true, responsive: [ { breakpoint: 1300, settings: { centerMode: true, //centerPadding: '40px', slidesToShow: 2 } }, { breakpoint: 1050, settings: { centerMode: true, centerPadding: '20px', slidesToShow: 1 } } ] }); </script>  <footer> <div class="nav_main"> <nav> <ul class="clearfix"> <li class="box"> <p class="gt-block toggle">Explorar<span class="plus"></span></p> <ul> <li><a href="https://es.global.ieice.org/en_transactions/fundamentals">IEICE Trans Fundamentals</a></li> <li><a href="https://es.global.ieice.org/en_transactions/communications">IEICE Trans Commun.</a></li> <li><a href="https://es.global.ieice.org/en_transactions/electronics">IEICE Trans Electron.</a></li> <li><a href="https://es.global.ieice.org/en_transactions/information">IEICE Trans Inf.& Syst.</a></li> <li><a href="https://es.global.ieice.org/en_transactions/_arc_jpn/">IEICE Transactions（JPN Edition）</a></li> <li><a href="https://es.global.ieice.org/en_publications/elex">ELEX</a></li> <li><a href="https://www.jstage.jst.go.jp/browse/nolta/-char/en">NOLTA</a></li> <li><a href="https://www.ieice.org/cs_r/eng/comex/">ComEX</a></li> <li><a href="https://www.ieice.org/publications/conferences/">Conferencias</a></li> <li><a href="https://www.ieice.org/publications/proceedings/">Proceso</a></li> <li><a href="https://www.journal.ieice.org/index.php?lang=E">Actualidad</a></li> <li><a href="https://www.ieice.org/publications/ken/index.php?lang=en">Reporte técnico</a></li> <li><a href="https://webinar.ieice.org/">Archivo de seminarios web bajo demanda</a></li> </ul> </li> <li class="box"> <p class="gt-block toggle">Archive <span class="plus"></span></p> <ul> <li><a href="https://es.global.ieice.org/en_transactions/_arc/">Lista de volúmenes</a></li> <li><a href="https://es.global.ieice.org/en_transactions/_arc_jpn/">Lista de volúmenes (Edición JPN)</a></li> <li><a href="https://es.global.ieice.org/en_publications/_arc/">Lista de volumen（ELEX)</a></li> </ul> </li> <li class="box"> <p class="gt-block toggle">Consejo Editorial<span class="plus"></span></p> <ul> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/EA/">Trans Fundamentals.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/EB/">Trans Commun.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/EC/">Trans Electron.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/ED/">Trans Inf. & Syst.</a></li> <li><a href="https://es.global.ieice.org/en_publications/editorial_board/E_Archive/">Archive </a></li>  </ul> </li> <li class="box"> <p class="gt-block toggle">Enviar y suscribirse<span class="plus"></span></p> <ul> <li><a href="https://www.ieice.org/eng_r/transactions/transactions_including_elex_comex_and_nolta.html">Directrices de envío</a></li> <li><a href="https://review.ieice.org/regist/regist_baseinfo_e.aspx">Enviar manuscrito</a></li> <li><a href="https://www.ieice.org/eng_r/member/subscription_member/index.html?id=c">Suscripción</a></li> </ul> </li> </ul> </nav> </div> <div class="nav_sub"> <div class="logo"><a href="/top"><img src="https://global.ieice.org/assets/img/logo_g.png" alt=""></a></div> <nav> <ul> <li><a href="https://www.ieice.org/eng_r/pp.html">Política de Privacidad</a></li> <li><a href="https://www.ieice.org/eng_r/copyright/index.html">Derechos de Autor</a></li> <li><a href="https://www.ieice.org/eng_r/faq/index.html">FAQ</a></li> <li><a href="https://es.global.ieice.org/sitemap">Indice Web</a></li> </ul> </nav> <small>Copyright © IEICE Todos los derechos reservados.</small> </div> </footer>  <script> $(function(){ $('a[href^="#"]').click(function(){ var speed = 500; var href= $(this).attr("href"); var target = $(href == "#" || href == "" ? 'html' : href); var header = $('header').height(); var position = target.offset().top - header; $("html, body").animate({scrollTop:position}, speed, "swing"); return false; }); }); </script>    <script> $(function() { $('.nav-toggle').on('click', function() { $('header').toggleClass('open'); if($('body').hasClass('fixed')){ $('body').removeClass('fixed'); }else{ $('body').addClass('fixed'); } }); }); </script>  <script> $(function(){ $(".lang_box .toggle").on("click", function() { $(this).next().fadeToggle(); }); $(document).on('click', function(e) { if (!$(e.target).closest('.lang_box .toggle').length) { $('.lang_box .scroll_box').fadeOut(); } }); }); </script>  <script> if (window.matchMedia( "(min-width:1050px)" ).matches) { $(function(){ $("header nav .toggle").on("click", function() { $(this).toggleClass("active"); $(this).next().fadeToggle(); $("header nav .toggle").not(this).removeClass("active"); $("header nav .toggle").not(this).next().fadeOut(); }); $(document).on('click', function(e) { if (!$(e.target).closest("header nav .toggle").length) { $("header nav .toggle").not(this).removeClass("active"); $("header nav .nav_main_sub").fadeOut(); } }); }); } </script>  <script> if (window.matchMedia( "(max-width:1049px)" ).matches) { $(function(){ $("header nav .toggle").on("click", function() { $(this).toggleClass("active"); $(this).next().slideToggle(); $("header nav .toggle").not(this).removeClass("active"); $('header nav .toggle').not(this).next().slideUp(); }); }); } </script>  <script> if (window.matchMedia( "(max-width:1049px)" ).matches) { $(function(){ $("footer .toggle").on("click", function() { $(this).toggleClass("active"); $(this).next().slideToggle(); $("footer .toggle").not(this).removeClass("active"); $('footer .toggle').not(this).next().slideUp(); }); }); } </script>  <script> $(function(){ $('.js-modal-open').each(function(){ $(this).on('click',function(){ var target = $(this).data('target'); var modal = document.getElementById(target); $(modal).fadeIn(); $('html').addClass('modalset'); return false; }); }); $('.js-modal-close, .modal__bg').on('click',function(){ $('.js-modal').fadeOut(); $('html').removeClass('modalset'); return false; }); }); </script>   <script src="https://unpkg.com/popper.js@1.16.1/dist/umd/popper.min.js"></script> <script src="https://unpkg.com/tippy.js@5.2.1/dist/tippy-bundle.iife.min.js"></script> <script> if (window.matchMedia( "(min-width:1050px)" ).matches) { tippy('.cap', { placement: 'bottom', animation: 'shift-toward-subtle', duration: 200, } ) } </script>  <script> $(function($){ $('.nav-tab .tab').click(function(){ $('.is-active').removeClass('is-active'); $(this).addClass('is-active'); $('.is-show').removeClass('is-show'); const index = $(this).index(); $('.box').eq(index).addClass('is-show'); }); }); </script>  <script> $(function () { $(".content .more").click(function () { $(this).fadeOut(); $(".content").removeClass("hide"); }); }); </script>  <script> $("#js-copy").on("click", function () { // コピー元取得 let text = $(".copy-text").text(); // Copyの文字を変更 $("#js-copy").text("Copied"); if (navigator.clipboard == undefined) { window.clipboardData.setData("Text", text); } else { navigator.clipboard.writeText(text); } }); $("#js-copy-BibTeX").on("click", function () { let text = $(".copy-BibTeX").text(); $("#js-copy-BibTeX").text("Copied"); if (navigator.clipboard == undefined) { window.clipboardData.setData("Text", text); } else { navigator.clipboard.writeText(text); } }); $("#js-copy-RIS").on("click", function () { let text = $(".copy-RIS").text(); $("#js-copy-RIS").text("Copied"); if (navigator.clipboard == undefined) { window.clipboardData.setData("Text", text); } else { navigator.clipboard.writeText(text); } }); </script>  <script> $(function(){ $('.note_bottom .close').on('click',function(){ $('.note_bottom').fadeOut(); return false; }); }); </script>  <script type="text/javascript" src="https://code.jquery.com/ui/1.10.3/jquery-ui.min.js"></script> <script> $(".move").draggable(); </script> <script data-cfasync="false" src="https://tdns0.gtranslate.net/tdn-bin/queue.js"></script></body></html>

CINXE.COM

BiConvNet: integración de detalles espaciales y características semánticas profundas en una red de segmentación de imágenes de rama bilateral