A Adobe Moisés Ferramenta de Corpus – E Travessia That Bridge When You Come To It.

Este artigo foi escrito originalmente em Inglês. Textos em outros idiomas foram fornecidos via tradução automática.

Aqui é o cenário:

É o 1950′s. Você está à frente de uma expedição no Nepal, e líder do bravo de uma dúzia de alpinistas mais algumas centenas de porteiros todos andando profundamente no Himalaia, em busca de uma cimeira não escalado. Os riscos da viagem são elevados, mas você vai ser regado em glória por sua nação, ticker desfile de fita e tudo, quando você voltar para casa bem sucedida. Entrando em um vale profundo você vem em cima de uma ponte de corda longa e estreita que toda a expedição terá que atravessar. A ponte é muito fraca para segurar mais de uma pessoa ao mesmo tempo e é preciso 5 minutos para cada pessoa a cruzar.

Você pode obter o primeiro a 12 escaladores transversalmente em uma hora.

(12 X alpinistas 5 minutos cada = 60 minutos) assim 1 horas para cruzar.

Mas o porteiro último não vai fazer isso até quase toda a 2 dias após o primeiro alpinista começa.

(200 Porters x 5 minutos cada = 1000 minutos) ou um adicional de 41.6 horas para atravessar!

Você pode não estar recebendo essa parada de fita ticker depois de tudo.

 

O sucesso de toda a expedição é um jogo. Recursos valiosos, alimento, tendas, escalando engrenagem, etc. vão acabar por se espalhar acima e abaixo da trilha com seus respectivos carregadores. Isso significa que eles não vão chegar no acampamento base onde e quando você precisar deles. Esta não é uma boa maneira de começar.

A metáfora da ponte que cruza usado aqui é um exemplo clássico de encontrar o fator limitante na sua cadeia de processos. Não importa quantos recursos você pode trazer a nu no projeto há um ponto de estrangulamento. Ele pode assumir muitas formas, mas identificar e resolver este problema será fundamental para alcançar seus objetivos. Não importa o quão rápido você continuar através de todas as outras etapas do seu plano, você vai perder os 2 dias aqui, a menos que algo muda.

Será que a ponte de corda estreita que só vai deixar uma pessoa em menos tempo um som como um obstáculo improvável que enfrentam no seu projeto de tradução automática? Não é. Quando lançamos o projeto Adobe Moisés MT última primavera atravessar esta ponte foi o primeiro problema foi enfrentado. Porquê? Simplesmente tivemos anos de memória de tradução armazenada a partir de projetos de localização da Adobe. Todos esses anos de TM foram as matérias-primas a serem utilizados na construção de motores Adobe específicas. Sabíamos com eles que nós poderíamos construir melhores motores para traduzir os produtos da Adobe, então nós jamais encontrar no mercado aberto. Contudo, o grande volume de TM que precisava ser transformado em um pronto Moisés corpus representava um bloqueio de proporções graves.

 

Uma volta rápida do guardanapo métrica para colocar esta inperspective:

Encontramos, dadas as ferramentas existentes para o trabalho corpus, que era necessário 1-2 semanas de tempo de um engenheiro de processo 5-10 milhões de palavras de tradução do formato. tmx em um par de arquivos planos alinhados corpus. (I.E. Moisés pronto)

Moisés vem com um conjunto de scripts de suporte para trabalhar estes problemas. (tokenizer.pl, clean-corpus-n.perl, e assim por diante) e são funcionais. Dito, o esforço é demorado. Os scripts são executados a partir da linha de comando. Uma grande quantidade de organização e disciplina é exigido do usuário ou todos os passos necessários pode rapidamente ficar confusa.

Se você tem milhões de palavras em vários idiomas, como Adobe fez, você pode ver que vai demorar muito tempo para que um engenheiro para processar aqueles. ficheiros TMX. Se você adicionar mais alguns engenheiros, em seguida, você pode acelerar o processo, mas o tempo total exigido por unidade de. TMX limpa não foi para baixo. Isso seria o equivalente a construção de um par de mais pontes sobre o abismo no Himalaia. Ele agiliza as coisas, mas é caro agora e não reduzir os custos no futuro.

 

Então, se só temos uma ponte para atravessar, então a solução é reduzir o tempo que leva-nos a cruzar essa ponte.

A Adobe Moisés ferramenta Corpus foi a nossa solução para este problema. Embora nenhuma das etapas individuais na tomada de um arquivo TMX. Ao estado de pronto Moisés são muito demorado, os pequenos passos de todos os complementos até. Decidimos para resolver o problema de uma vez por todas e para desenvolver um peso leve, modular, GUI baseada, AIR app que qualquer usuário pode instalar e usar para processar arquivos TM para Moisés. O que ele faz? Simplesmente ele permite automatizar a sua limpeza corpus para melhorar a eficiência. Leva as várias opções de linha de comando disponíveis e permite que o usuário para orquestrar a usá-los em qualquer. TMX, sem a preocupação de chamar os scripts e passar parâmetros. Quanto é que isso ajuda? Embora estes números são soltos, temos sido capazes de aumentar a produtividade de um único engenheiro trabalhando na limpeza corpus em até 10x.

 

Agora podemos fazê-lo em 2 dias o que costumava levar 2 semana.

Quando você tem milhões de palavras de memória de tradução este é um grande negócio. Se você quer fazer MT para si mesmo que você precisa para resolver este problema. Para nós, o Adobe Moisés ferramenta de Corpus continua a evoluir à medida que aprendemos mais sobre as etapas de limpeza, queremos acesso e como encomendar estes passos. É nossa visão que vai se encaixar em um pacote maior mais abrangente de ferramentas MT relacionados que podem incluir o teste automático e ajuste de motores. Continuamos a considerar todas as possibilidades desta ferramenta abriria para a maior MT público interessado e estão abertos a idéias e colaborações com outros em torno dele é melhoria e ampliação.

 

Há uma abundância de pontes para atravessar no caminho para a construção de sistemas de MT. Manipulação de Corpus é apenas um deles. Esperemos que este conhecimento torna a sua viagem um pouco mais claro. Agora, chegar lá e construir um motor!

 

Uma rápida (mas de nenhuma maneira completa) lista de coisas de coisas que poderia ser feito para melhorar a qualidade do motor de MT:

Esta é uma lista curta das etapas do Adobe Moisés ferramenta de Corpus atualmente pode executar. Estamos abertos a sugestões sobre como adicionar outros passos ou refinar a natureza dessas medidas.

Etiquetas limpa Placeholder

URLS limpos

Tokenize

Minúsculas

Números limpa

Linhas limpas Duplicate

Limpa longos segmentos

Limpa Pairs desalinhados

A eficácia de cada uma dessas etapas pode ser debatido em torno da mesa redonda MT, mas em geral a maioria das pessoas terá que processar seus arquivos TM por essas etapas antes do pode ser usado por Moisés para a construção de motores, bem como para melhorar a qualidade.

2 pensamentos sobre “A Adobe Moisés Ferramenta de Corpus – E Travessia That Bridge When You Come To It.

  1. Há possível testar essa ferramenta?
    Para limpar as tags espaços reservados TM deve ser analisado por duas vezes.
    Para limpar as linhas duplicadas, algoritmo deve remover espaços, etc material de formação. por exemplo
    1.segmento

    Seu Site dores dormindo
    –> LoremIpsumMitDolores

    2.segmento
    envie dor Seu Site
    –> loreMIpsummiTdoloRES
    contagem de char = o mesmo
    seqüência de caracteres = o mesmo
    para remover duplicados

  2. @ Matt – Obrigado pela contribuição

    Testar a ferramenta – Estamos considerando opções para torná-lo disponível para outros para testar em um futuro próximo. Quando encontramos a solução certa ela vai definitivamente ser anunciado aqui.

    Para limpar as tags espaços reservados TM deve ser analisado por duas vezes. – Você pode esclarecer o que quer dizer aqui? Você está sugerindo para executar o espaço reservado a remoção regex contra o mesmo documento duas vezes? Ou contra os dois pares de idiomas?

    Para limpar as linhas duplicadas – Essas seqüências são, definitivamente, duplicatas após os delimitadores de espaço em branco são removidos, mas tentando entender por que você iria detokenize as cordas aqui. Você está olhando para preparar o Corpus para um estilo particular MT motor?

Deixe uma resposta