Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the js_composer domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home2/leiamxco/public_html/wp-includes/functions.php on line 6121

Notice: La función _load_textdomain_just_in_time ha sido llamada de forma incorrecta. La carga de la traducción para el dominio bridge se activó demasiado pronto. Esto suele ser un indicador de que algún código del plugin o tema se ejecuta demasiado pronto. Las traducciones deberían cargarse en la acción init o más tarde. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.7.0). in /home2/leiamxco/public_html/wp-includes/functions.php on line 6121
if(!function_exists('bridge_qode_get_title')) { function bridge_qode_get_title() { $page_id = bridge_qode_get_page_id(); $show_title_area_meta = true; $show_title_area = apply_filters( 'bridge_qode_filter_show_title_area', $show_title_area_meta ); if($show_title_area){ get_template_part( 'title' ); } } }
Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /home2/leiamxco/public_html/wp-includes/functions.php:6121) in /home2/leiamxco/public_html/wp-includes/rest-api/class-wp-rest-server.php on line 1896
{"id":517,"date":"2025-03-04T19:20:39","date_gmt":"2025-03-04T19:20:39","guid":{"rendered":"https:\/\/leia-mx.com\/?p=517"},"modified":"2025-03-11T00:35:46","modified_gmt":"2025-03-11T00:35:46","slug":"pueden-los-modelos-de-lenguaje-de-vanguardia-ganar-1-millon-en-ingenieria-de-software-freelance","status":"publish","type":"post","link":"https:\/\/leia-mx.com\/blog\/2025\/03\/04\/pueden-los-modelos-de-lenguaje-de-vanguardia-ganar-1-millon-en-ingenieria-de-software-freelance\/","title":{"rendered":"\u00bfPueden los Modelos de Lenguaje de Vanguardia Ganar $1 Mill\u00f3n en Ingenier\u00eda de Software Freelance?"},"content":{"rendered":"\n
\"\"<\/figure>\n\n\n\n

En los \u00faltimos a\u00f1os, los modelos de lenguaje (LLMs, por sus siglas en ingl\u00e9s) han avanzado significativamente, pasando de resolver problemas b\u00e1sicos de programaci\u00f3n a competir en concursos internacionales de codificaci\u00f3n. Sin embargo, \u00bfpueden estos modelos realizar tareas de ingenier\u00eda de software freelance del mundo real y ganar dinero por ello? Este es el desaf\u00edo que aborda SWE-Lancer, un nuevo benchmark que eval\u00faa la capacidad de los modelos de lenguaje para resolver m\u00e1s de 1,400 tareas de ingenier\u00eda de software freelance, con un valor total de $1 mill\u00f3n de d\u00f3lares en pagos reales.<\/p>\n\n\n\n

\u00bfQu\u00e9 es SWE-Lancer?
<\/strong>SWE-Lancer es un benchmark que eval\u00faa modelos de lenguaje en dos tipos de tareas de ingenier\u00eda de software:
Tareas de Contribuidor Individual (IC SWE): Estas tareas van desde correcciones de errores r\u00e1pidas hasta implementaciones de nuevas caracter\u00edsticas que pueden tomar semanas. Los modelos deben generar parches de c\u00f3digo que resuelvan problemas del mundo real, y su desempe\u00f1o se eval\u00faa mediante pruebas de extremo a extremo (E2E) creadas por ingenieros de software profesionales.
Tareas de Gesti\u00f3n (SWE Manager): En estas tareas, los modelos act\u00faan como l\u00edderes t\u00e9cnicos, seleccionando la mejor propuesta de implementaci\u00f3n entre varias opciones presentadas por freelancers. Su elecci\u00f3n se compara con la de los gerentes de ingenier\u00eda originales.<\/p>\n\n\n\n

Caracter\u00edsticas Clave de SWE-Lancer:
<\/strong>Pagos del Mundo Real: Todas las tareas representan pagos reales a ingenieros freelance, lo que proporciona una medida aut\u00e9ntica del valor econ\u00f3mico de las soluciones generadas por los modelos.
Evaluaci\u00f3n de Gesti\u00f3n: SWE-Lancer es el primer benchmark que eval\u00faa la capacidad de los modelos para tomar decisiones de gesti\u00f3n t\u00e9cnica, una habilidad crucial en proyectos de ingenier\u00eda a gran escala.
Ingenier\u00eda Full-Stack: A diferencia de otros benchmarks que se centran en tareas aisladas, SWE-Lancer incluye tareas que requieren un conocimiento completo del stack tecnol\u00f3gico, desde el frontend hasta el backend, y la interacci\u00f3n con APIs y aplicaciones externas.
Pruebas de Extremo a Extremo: Las pruebas E2E, creadas por ingenieros profesionales, simulan flujos de usuario completos, lo que hace que la evaluaci\u00f3n sea m\u00e1s robusta y dif\u00edcil de manipular.<\/p>\n\n\n\n

En las evaluaciones iniciales, los modelos de vanguardia a\u00fan no pueden resolver la mayor\u00eda de las tareas. El mejor modelo, Claude 3.5 Sonnet, logr\u00f3 resolver el 26.2% de las tareas de IC SWE y el 44.9% de las tareas de gesti\u00f3n, ganando un total de $208,050 en el conjunto de datos SWE-Lancer Diamond (un subconjunto de $500,800). En el conjunto completo de SWE-Lancer, Claude 3.5 Sonnet gan\u00f3 m\u00e1s de $400,000 de los $1 mill\u00f3n posibles.<\/p>\n\n\n\n

Aunque los modelos mostraron habilidades prometedoras, especialmente en la localizaci\u00f3n de problemas, a menudo fallaron en identificar la causa ra\u00edz, lo que result\u00f3 en soluciones parciales o incorrectas. Adem\u00e1s, los modelos m\u00e1s fuertes, como Claude 3.5 Sonnet, hicieron un uso m\u00e1s efectivo de las herramientas proporcionadas, como la herramienta de usuario que simula interacciones en el navegador.<\/p>\n\n\n\n

SWE-Lancer no solo mide el desempe\u00f1o t\u00e9cnico de los modelos, sino que tambi\u00e9n mapea su capacidad a un valor econ\u00f3mico real. Este enfoque permite investigar el impacto potencial de los modelos de lenguaje en los mercados laborales, la productividad y el desarrollo de la IA. En el futuro, se espera que SWE-Lancer facilite un an\u00e1lisis m\u00e1s profundo de c\u00f3mo la automatizaci\u00f3n de la ingenier\u00eda de software podr\u00eda afectar a los freelancers y a la industria en general.<\/p>\n\n\n\n

SWE-Lancer representa un avance significativo en la evaluaci\u00f3n de modelos de lenguaje para tareas de ingenier\u00eda de software del mundo real. Al mapear el desempe\u00f1o de los modelos a pagos reales, este benchmark proporciona una visi\u00f3n clara de las capacidades actuales de los LLMs y los desaf\u00edos que a\u00fan deben superarse. A medida que los modelos contin\u00faan mejorando, SWE-Lancer ser\u00e1 una herramienta invaluable para medir su impacto econ\u00f3mico y social en la industria del software.<\/p>\n\n\n\n

\u00bfTe interesa saber m\u00e1s?
Puedes explorar el conjunto de datos y los resultados completos en el repositorio de GitHub: SWE-Lancer Benchmark<\/a>. \u00a1\u00danete a la conversaci\u00f3n sobre el futuro de la ingenier\u00eda de software automatizada!<\/p>\n\n\n\n