Ferramentas Adobe de Moisés agora disponível para Windows

Este artigo foi escrito originalmente em Inglês. Texto em outros idiomas é fornecido através de tradução automática.

Temos uma atualização sobre o Adobe Moses Tools qual anunciou neste blog em Maio 11. As ferramentas já estão disponíveis em pacotes pré-compilados para Windows! Confira o baixar seção do M4Loc site para obter o Windows pacotes e de documentação e outras informações sobre as ferramentas.

Faça o download das ferramentas e deixe-nos saber o que você pensa!

–Raymond Flournoy
Senior Program Manager
Translation Technology Team

Adobe fez uma apresentação sobre Moisés Tool Set no USTA Cúpula Tradução Ásia 2012

Este artigo foi escrito originalmente em Inglês. Texto em outros idiomas é fornecido através de tradução automática.

TAUS Asia Translation Summit 2012 foi organizado pela Translation Automation User Society (TAUS) em cooperação com China Center for Information Industry Development (CCID) e Translators Association of China (TAC). 80+ participantes de ambas as empresas de produtos como o Adobe, Baidu, EMC, Google e Microsoft e PEL participou na cimeira realizada em Pequim em abril 24 - 25, 2012, bem como o evento de meio dia cortesia TAUS Open Source Machine Translation Showcase realizada no mesmo local em abril 23. A cúpula proporciona aos participantes uma excelente plataforma para compartilhar conhecimento e experiência no domínio MT.

TAUS_2012_Beijing_PresentationFui convidado para dar ao USTA público uma introdução sobre o que a Adobe fez em MT open source. Na minha apresentação, Eu compartilhei como Adobe faz uso da ferramenta de código aberto MT Moses em seu fluxo de trabalho de localização. Nós desenvolvemos um conjunto de ferramentas chamadas Moses Tool Set para simplificar o uso de Moses. Ao utilizar esta ferramenta, o processo de formação de Moisés pode ser feito de uma maneira mais fácil e intuitiva. É constituída por 4 características: Corpus Clean Tool, Corpus Splitting Tool, Moses Training Harness, e Moses Scoring Harness. Cada recurso pode não apenas trabalhar de forma independente, mas ser combinados em um trabalho que permite aos usuários para completar o processo de treinamento todo em um clique.

Muitos audiência especialmente aqueles de LSPs que começou a sua aventura de MT de código aberto demonstrou interesse forte sobre o conjunto de ferramenta de Moisés. É feliz em ver que a busca por maneiras de melhorar a produtividade localização não é mais a responsabilidade apenas para os compradores de serviços linguísticos. Alguns LSPs também começaram suas tentativas no campo MT. Moses é uma boa opção para eles por causa de seu menor custo de entrada. Na discussão off-line, contudo, Eu tenho um monte de queixas destes usuários potenciais de Moisés sobre o uso de Moisés. Para aqueles que não mergulhar mais profundamente em tradução automática estatística, Moisés é muito complicado para começar. Muitos parâmetros são necessárias para gerar um motor de MT treinado. A falta de uma interface amigável é outra dor de cabeça para eles. Não admira que a audiência primeira coisa é ansioso para saber onde podem encontrar e baixar Moses Tool Set.

Na realidade, Moses Tool Set é um projeto open source. Ambos os seus pacotes de instalação e códigos-fonte estão disponíveis em Google Code.

A Adobe Moisés Ferramenta de Corpus – E Travessia That Bridge When You Come To It.

Este artigo foi escrito originalmente em Inglês. Textos em outros idiomas foram fornecidos via tradução automática.

Aqui é o cenário:

É o 1950′s. Você está à frente de uma expedição no Nepal, e líder do bravo de uma dúzia de alpinistas mais algumas centenas de porteiros todos andando profundamente no Himalaia, em busca de uma cimeira não escalado. Os riscos da viagem são elevados, mas você vai ser regado em glória por sua nação, ticker desfile de fita e tudo, quando você voltar para casa bem sucedida. Entrando em um vale profundo você vem em cima de uma ponte de corda longa e estreita que toda a expedição terá que atravessar. A ponte é muito fraca para segurar mais de uma pessoa ao mesmo tempo e é preciso 5 minutos para cada pessoa a cruzar.

Você pode obter o primeiro a 12 escaladores transversalmente em uma hora.

(12 X alpinistas 5 minutos cada = 60 minutos) assim 1 horas para cruzar.

Mas o porteiro último não vai fazer isso até quase toda a 2 dias após o primeiro alpinista começa.

(200 Porters x 5 minutos cada = 1000 minutos) ou um adicional de 41.6 horas para atravessar!

Você pode não estar recebendo essa parada de fita ticker depois de tudo.

 

O sucesso de toda a expedição é um jogo. Recursos valiosos, alimento, tendas, escalando engrenagem, etc. vão acabar por se espalhar acima e abaixo da trilha com seus respectivos carregadores. Isso significa que eles não vão chegar no acampamento base onde e quando você precisar deles. Esta não é uma boa maneira de começar.

A metáfora da ponte que cruza usado aqui é um exemplo clássico de encontrar o fator limitante na sua cadeia de processos. Não importa quantos recursos você pode trazer a nu no projeto há um ponto de estrangulamento. Ele pode assumir muitas formas, mas identificar e resolver este problema será fundamental para alcançar seus objetivos. Não importa o quão rápido você continuar através de todas as outras etapas do seu plano, você vai perder os 2 dias aqui, a menos que algo muda.

Será que a ponte de corda estreita que só vai deixar uma pessoa em menos tempo um som como um obstáculo improvável que enfrentam no seu projeto de tradução automática? Não é. Quando lançamos o projeto Adobe Moisés MT última primavera atravessar esta ponte foi o primeiro problema foi enfrentado. Porquê? Simplesmente tivemos anos de memória de tradução armazenada a partir de projetos de localização da Adobe. Todos esses anos de TM foram as matérias-primas a serem utilizados na construção de motores Adobe específicas. Sabíamos com eles que nós poderíamos construir melhores motores para traduzir os produtos da Adobe, então nós jamais encontrar no mercado aberto. Contudo, o grande volume de TM que precisava ser transformado em um pronto Moisés corpus representava um bloqueio de proporções graves.

 

Uma volta rápida do guardanapo métrica para colocar esta inperspective:

Encontramos, dadas as ferramentas existentes para o trabalho corpus, que era necessário 1-2 semanas de tempo de um engenheiro de processo 5-10 milhões de palavras de tradução do formato. tmx em um par de arquivos planos alinhados corpus. (I.E. Moisés pronto)

Moisés vem com um conjunto de scripts de suporte para trabalhar estes problemas. (tokenizer.pl, clean-corpus-n.perl, e assim por diante) e são funcionais. Dito, o esforço é demorado. Os scripts são executados a partir da linha de comando. Uma grande quantidade de organização e disciplina é exigido do usuário ou todos os passos necessários pode rapidamente ficar confusa.

Se você tem milhões de palavras em vários idiomas, como Adobe fez, você pode ver que vai demorar muito tempo para que um engenheiro para processar aqueles. ficheiros TMX. Se você adicionar mais alguns engenheiros, em seguida, você pode acelerar o processo, mas o tempo total exigido por unidade de. TMX limpa não foi para baixo. Isso seria o equivalente a construção de um par de mais pontes sobre o abismo no Himalaia. Ele agiliza as coisas, mas é caro agora e não reduzir os custos no futuro.

 

Então, se só temos uma ponte para atravessar, então a solução é reduzir o tempo que leva-nos a cruzar essa ponte.

A Adobe Moisés ferramenta Corpus foi a nossa solução para este problema. Embora nenhuma das etapas individuais na tomada de um arquivo TMX. Ao estado de pronto Moisés são muito demorado, os pequenos passos de todos os complementos até. Decidimos para resolver o problema de uma vez por todas e para desenvolver um peso leve, modular, GUI baseada, AIR app que qualquer usuário pode instalar e usar para processar arquivos TM para Moisés. O que ele faz? Simplesmente ele permite automatizar a sua limpeza corpus para melhorar a eficiência. Leva as várias opções de linha de comando disponíveis e permite que o usuário para orquestrar a usá-los em qualquer. TMX, sem a preocupação de chamar os scripts e passar parâmetros. Quanto é que isso ajuda? Embora estes números são soltos, temos sido capazes de aumentar a produtividade de um único engenheiro trabalhando na limpeza corpus em até 10x.

 

Agora podemos fazê-lo em 2 dias o que costumava levar 2 semana.

Quando você tem milhões de palavras de memória de tradução este é um grande negócio. Se você quer fazer MT para si mesmo que você precisa para resolver este problema. Para nós, o Adobe Moisés ferramenta de Corpus continua a evoluir à medida que aprendemos mais sobre as etapas de limpeza, queremos acesso e como encomendar estes passos. É nossa visão que vai se encaixar em um pacote maior mais abrangente de ferramentas MT relacionados que podem incluir o teste automático e ajuste de motores. Continuamos a considerar todas as possibilidades desta ferramenta abriria para a maior MT público interessado e estão abertos a idéias e colaborações com outros em torno dele é melhoria e ampliação.

 

Há uma abundância de pontes para atravessar no caminho para a construção de sistemas de MT. Manipulação de Corpus é apenas um deles. Esperemos que este conhecimento torna a sua viagem um pouco mais claro. Agora, chegar lá e construir um motor!

 

Uma rápida (mas de nenhuma maneira completa) lista de coisas de coisas que poderia ser feito para melhorar a qualidade do motor de MT:

Esta é uma lista curta das etapas do Adobe Moisés ferramenta de Corpus atualmente pode executar. Estamos abertos a sugestões sobre como adicionar outros passos ou refinar a natureza dessas medidas.

Etiquetas limpa Placeholder

URLS limpos

Tokenize

Minúsculas

Números limpa

Linhas limpas Duplicate

Limpa longos segmentos

Limpa Pairs desalinhados

A eficácia de cada uma dessas etapas pode ser debatido em torno da mesa redonda MT, mas em geral a maioria das pessoas terá que processar seus arquivos TM por essas etapas antes do pode ser usado por Moisés para a construção de motores, bem como para melhorar a qualidade.