Las herramientas de Adobe Moisés ya está disponible para Windows

Este artículo fue originalmente escrito en Inglés. Texto en otros idiomas se proporcionan a través de la traducción automática.

Tenemos una actualización de la Adobe Moses Tools que anunció en este blog en mayo 11. Las herramientas ya están disponibles en paquetes pre-construidos para Windows! Echa un vistazo a la la sección de descargas de la M4Loc sitio para obtener el Windows paquetes y para la documentación y otra información acerca de las herramientas.

Por favor, descargar las herramientas y háganos saber lo que piensas!

–Raymond Flournoy
Senior Program Manager
Translation Technology Team

Adobe hizo una presentación sobre Juego de herramientas de Moisés en la Cumbre de Asia TAUS traducción 2012

Este artículo fue originalmente escrito en Inglés. Texto en otros idiomas se proporcionan a través de la traducción automática.

TAUS Asia Translation Summit 2012 fue organizado por Translation Automation User Society (TAUS) en cooperación con China Center for Information Industry Development (CCID) y Translators Association of China (TAC). 80+ los asistentes de ambas compañías de productos como Adobe, Baidu, EMC, Google y Microsoft y LSP participaron en la cumbre celebrada en Beijing en abril 24 - 25, 2012, así como el evento de cortesía medio día TAUS Open Source Machine Translation Showcase celebrada en el mismo lugar en abril 23. La cumbre ofrece a los asistentes una excelente plataforma para compartir conocimientos y experiencias en MT de dominio.

TAUS_2012_Beijing_PresentationFui invitado por TAUS para dar audiencia una introducción de lo que Adobe ha hecho en MT de código abierto. En mi presentación, Me contó cómo Adobe hace uso de la herramienta de código abierto MT Moses en su flujo de trabajo de localización. Hemos desarrollado un conjunto de herramientas llamadas Moses Tool Set para simplificar el uso de Moisés. Mediante el uso de esta herramienta, el proceso de formación de Moisés se puede hacer de una manera más fácil e intuitivo. Se compone de 4 características: Corpus Clean Tool, Corpus Splitting Tool, Moses Training Harness, y Moses Scoring Harness. Cada función no sólo se puede trabajar de forma independiente, pero se combinan en un trabajo que permite a los usuarios para completar todo el proceso formativo en un solo clic.

Audiencia de muchos, especialmente los de LSP que acaba de comenzar su aventura de MT de código abierto mostraron un gran interés en el conjunto de herramientas de Moisés. Es feliz de ver que la búsqueda de maneras de mejorar la productividad de la localización no es más la única responsabilidad de los compradores de servicios lingüísticos. Algunos LSP también han comenzado sus intentos en el campo de MT. Moses es una buena opción para ellos debido a su costo de entrada menor. En la discusión en línea, sin embargo, Tengo un montón de quejas de estos potenciales usuarios de Moisés sobre el uso de Moisés. Para los que no se sumergen profundamente en la traducción automática estadística, Moisés es demasiado complicado para empezar. Muchos parámetros son necesarios para generar un motor MT capacitado. La falta de una interfaz fácil de usar es otro dolor de cabeza para ellos. No es extraño que el público lo primero que ansiosos por saber es donde se puede encontrar y descargar Moses Tool Set.

En realidad, Moses Tool Set es un proyecto de código abierto. Tanto sus paquetes de instalación y códigos fuente están disponibles en Google Code.

El Adobe Moisés Corpus herramienta – Y cruzar ese puente cuando llegues a él.

Este artículo fue originalmente escrito en Inglés. Texto en otros idiomas fue proporcionada por la traducción automática.

Aquí está el panorama:

Es el 1950′s. Usted está al frente de una expedición en Nepal, y el líder valiente de una docena de montañeros, más un par de cientos de porteadores todos caminando profundamente en el Himalaya en busca de una cumbre unclimbed. Los riesgos del viaje son altos, pero se le llovieron en la gloria de su nación, ticker desfile de cintas y todo lo que, cuando regrese a casa con éxito. Entrar en un profundo valle, se encuentra con un puente de cuerda larga y estrecha, que toda la expedición tendrá que cruzar. El puente es demasiado débil para mantener más de una persona a la vez y que se necesita 5 minutos para cada persona para cruzar.

Usted puede obtener el primer 12 escaladores a través de en una hora.

(12 Escaladores x 5 minutos cada uno = 60 minutos) así 1 hora para cruzar.

Pero el portero último no lo hará a través de hasta casi 2 días después de que el primer escalador comienza.

(200 Porteros x 5 minutos cada uno = 1000 minutos) o adicionales 41.6 horas para cruzar!

Usted no puede conseguir que el desfile de teletipo, después de todo.

 

El éxito de toda la expedición es un juego. Valiosos recursos, comida, tiendas de campaña, equipo de escalada, etc. se va a terminar repartidos por todo y por el camino con sus respectivos cargadores. Esto significa que no van a llegar al campamento base cuando y donde usted los necesita. Esto no es una buena manera de empezar.

La metáfora del puente que cruza usa aquí es un ejemplo clásico de encontrar el factor limitante en su cadena de procesos. No importa cuántos recursos que puede aportar a desnudar en el proyecto hay un cuello de botella. Puede tomar muchas formas, pero la identificación y la solución de este problema va a ser fundamental para el logro de sus metas. No importa lo rápido que avanza en todos los demás pasos de su plan, que van a perder los 2 días aquí, a menos que algo cambie.

¿El puente de cuerda estrecha que sólo le permitirá a una persona a través de un sonido en el tiempo como un obstáculo difícil de enfrentar en su proyecto de traducción automática? No es. Cuando lanzamos el proyecto de Adobe Moisés MT primavera pasada conseguir a través de este puente fue el primer problema que se enfrentó. ¿Por qué? Sencillamente hemos tenido años de memorias de traducción almacenan desde proyectos de localización de Adobe. Todos esos años de TM fueron las materias primas que se utilizarán en la construcción de motores de Adobe específica. Sabíamos que con ellos que podríamos construir mejores motores para la traducción de los productos de Adobe, entonces podríamos llegar a encontrar en el mercado abierto. Sin embargo, el volumen de TM que deben ser procesados ​​en un corpus de Moisés lista representa un bloqueo de proporciones graves.

 

Una vuelta rápida de la servilleta métrica para poner este Inperspective:

Encontramos, dado las herramientas existentes para el trabajo corpus, que requiere 1-2 semanas de tiempo de un ingeniero de proceso 5-10 millones de palabras de la traducción del formato. tmx en un par de archivos planos alineados corpus. (i.e. Moisés listo)

Moisés viene con un conjunto de secuencias de comandos de apoyo para trabajar estos problemas. (tokenizer.pl, limpieza corpus-n.perl, etc) y son funcionales. Dicho esto, el esfuerzo es mucho tiempo. Los scripts se ejecutan todo desde la línea de comandos. Se requiere una gran cantidad de organización y disciplina del usuario o todos los pasos necesarios pueden obtener rápidamente confuso.

Si usted tiene millones de palabras en varios idiomas, como Adobe hizo, se puede ver que va a tomar mucho tiempo para que un ingeniero para procesar los. archivos TMX. Si se agrega un par de ingenieros de más de lo que puede acelerar el proceso, pero el tiempo total requerido por unidad de. TMX limpiado no ha bajado. Esto sería el equivalente a la construcción de un par de más puentes sobre el abismo en el Himalaya. Se acelera las cosas, pero que es costoso ahora, y no reduce los costes en el futuro.

 

Así que si sólo tenemos un puente para cruzar, entonces la solución es reducir el tiempo que nos lleva a cruzar ese puente.

La herramienta de Adobe Moisés Corpus fue nuestra solución a este problema. Aunque ninguno de los pasos individuales en la toma de un archivo TMX. A un estado listo Moisés son demasiado tiempo, los pequeños pasos se suman. Hemos decidido solucionar el problema de una vez por todas y para desarrollar un peso ligero, modular, Interfaz gráfica de usuario basada en, AIRE aplicación que cualquier usuario puede instalar y usar para procesar archivos de TM para Moisés. ¿Qué es lo que hace? Simplemente se le permite automatizar la limpieza corpus para mejorar la eficiencia. Toma las múltiples opciones de línea de comandos disponibles y permite al usuario para orquestar su uso en cualquier. TMX sin la preocupación de llamar a los scripts y paso de parámetros. ¿Cuánto ayuda? Si bien estos números son flojos, hemos sido capaces de aumentar la productividad de un solo ingeniero trabajando en la limpieza corpus de hasta 10x.

 

Ahora podemos hacerlo en 2 días lo que antes tomaba 2 semana.

Una vez que haya millones de palabras de memoria de traducción este es un gran problema. Si usted quiere hacer MT para se tendrá que resolver este problema. Para nosotros, Adobe Moisés herramienta de Corpus continúa evolucionando a medida que aprendemos más sobre los pasos de limpieza que queremos el acceso y la manera de ordenar estos pasos. Es nuestra visión que quepa en un paquete mayor más completo de herramientas de MT relacionados que pueden incluir la comprobación automática y puesta a punto de los motores. Seguimos considerando todas las posibilidades de esta herramienta se abrirían para el mayor MT público interesado y estamos abiertos a las ideas y colaboraciones con otras personas alrededor de él es la mejora y extensión.

 

Hay un montón de puentes para cruzar en el camino hacia la construcción de sistemas de traducción automática. Manejo de corpus es sólo uno de ellos. Esperemos que este conocimiento hace que su viaje un poco más claro. Ahora salir allí y construir un motor!

 

Una rápida (pero de ninguna manera completa) lista de cosas de las cosas que podría hacer para mejorar la calidad del motor MT:

Esta es una breve lista de los pasos de la herramienta de Adobe Moisés Corpus en la actualidad se pueden realizar. Estamos abiertos a las sugerencias sobre cómo agregar otros pasos o el perfeccionamiento de la naturaleza de estos pasos.

Tags limpia marcador de posición

URLs limpias

Tokenize

Minúsculas

Números limpios

Limpiar las líneas duplicadas

Limpiar segmentos de largo

Limpie pares desalineados

La eficacia de cada uno de estos pasos podría ser debatido en la mesa redonda MT, pero en general la mayoría de la gente tendrá que procesar sus archivos de TM a través de estos pasos antes de que se puede utilizar con Moisés para la construcción del motor, así como para mejorar la calidad.