-Подписка по e-mail

 

 -Поиск по дневнику

Поиск сообщений в mpeg_esperantisto

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 04.02.2008
Записей:
Комментариев:
Написано: 428


Мой машинный перевод (01)

Пятница, 09 Июля 2010 г. 05:00 + в цитатник
Aliaj tempoj, aliaj moroj... :)
ххх: Вот оно счастье!!!! Не завтрак в постель, а ужин к компу!!! :)))))


Начал создавать алгоритм машинного перевода и словарь для перевода с эсперанто на русский язык.
Взял для этого программу машинного перевода, которая позволяет создать свой словарь и назначить приоритет словарей в своей системе словарей.
Сегодня творю :) в ПРОМТ-е версии8.5.
Так как из взломанных новых версий, имеющихся в Рунете, данная версия взломана наиболее корректно.

Чего совсем не добавляю в словарь?
а) глаголы
б) предлоги

Чего добавляю?
а) наречия (все)
б) существительные (прим: для программы в категории наречия )
в) прилагательные (прим: для программы в категории наречия )

Добавляю так же исключительно однозначные при переводе:
а) местоимения
б) союзы

Направление перевода использую: Англо-Русское
Вместо шапочек на буквах ставлю х-сы там где надо.
Вношу слова в Простом режиме, как наречия(все), а редактирую словарные статьи уже в Расширенном режиме ПРОМТ-а.

Образец первых 50 слов в текстовом формате прикрепляю. Оцените...

Вложение: 3803320_mia_vortaro_promt__8_5.rtf

Метки:  

shand   обратиться по имени Пятница, 09 Июля 2010 г. 10:37 (ссылка)
А почему кракозябры вместо русских букв? В Ворде...
Ответить С цитатой В цитатник
mpeg_esperantisto   обратиться по имени Пятница, 09 Июля 2010 г. 19:56 (ссылка)
Не знаю. Я - не программист.
У меня сейчас в Ворде после скачки вот так открывается текст: русские буквы не в форме крякозябров.

Название: Мой словарь
Направление перевода: Англо-Русский
Тип: Пользовательский
Комментарий:
Права копирования:
Словарных статей: 47
Содержание:

ankaux (!) Наречие
• 1. также
• 2. тоже

aux (!) Наречие
• 1. или (!)

baldaux (!) Наречие
• 1. скоро

cxefe (!) Наречие
• 1. прежде всего
• 2. главным образом

cxiam (!) Наречие
• 1. всегда

cxies (!) Наречие
• 1. общий (!)

ecx (!) Наречие
• 1. даже

ili (!) Наречие
• 1. они (!)

ilia (!) Наречие
• 1. их (!)

jam (!) Наречие
• 1. уже

jamming Существительное
• 1. глушение (radio)

kaj (!) Наречие
• 1. и (!)

kanto (!) Наречие
• 1. песня (!)

kantoj (!) Наречие
• 1. песни (!)

kiam (!) Наречие
• 1. когда (!)

komence (!) Наречие
• 1. сначала

kvanto (!) Наречие
• 1. количество (!)

lando (!) Наречие
• 1. страна (!)

lasta (!) Наречие
• 1. последний (!)

lastaj (!) Наречие
• 1. последние (!)

latina (!) Наречие
• 1. латинский (!)
• 2. (attributive) латиноамериканский
3. латиноамериканский (!)

li (!) Наречие
• 1. он (!)

lingvo (!) Наречие
• 1. язык (!)

malofte (!) Наречие
• 1. редко

mi (!) Наречие
• 1. я (!)

mia (!) Наречие
• 1. мой (!)

nemalofte (!) Наречие
• 1. нередко

ofte (!) Наречие
• 1. часто

poste (!) Наречие
• 1. потом

se (!) Наречие
• 1. если (!)

sensukcese (!) Наречие
• 1. безуспешно

subite (!) Наречие
• 1. вдруг

sxi (!) Наречие
• 1. она (!)

tago (!) Наречие
• 1. день (!)

tagoj (!) Наречие
• 1. дни (!)

tiam (!) Наречие
• 1. тогда

tie (!) Наречие
• 1. tie

ties (!) Наречие
• 1. ties

tradicio (!) Наречие
• 1. традиция (!)

tre (!) Наречие
• 1. очень

unua (!) Наречие
• 1. первый (!)

unufoje (!) Наречие
• 1. однажды

vi (!) Наречие
• 1. вы (!)

vorta (!) Наречие
• 1. устный (!)

vortaro (!) Наречие
• 1. словарь (!)

vorto (!) Наречие
• 1. слово (!)

vortoj (!) Наречие
• 1. слова (!)
Ответить С цитатой В цитатник
Maksimo   обратиться по имени Понедельник, 02 Августа 2010 г. 10:17 (ссылка)
Гм... Как понимаю, это только самое начало проекта? :)
Будет интересно увидеть первые результаты автоматического перевода.
Зовите :)
Ответить С цитатой В цитатник
mpeg_esperantisto   обратиться по имени Понедельник, 02 Августа 2010 г. 20:40 (ссылка)
Одним из результатов этого проекта стала вот эта статья в Википедии:
Esperantic Studies Foundation

Ну а если наглядно, то перевод-подстрочник реального текста, после нажатия кнопки "Перевести всё" выглядит так:

"Сегодня я eklaboris pri la уже definitive malfruigita numero de "Kontakto" (kiun я ja redaktas). Por lauxeble более быстро finfari cxi numeron, kiu laux la plano estos dedicxita al la cxi-jara jubileo de TEJO (и do iel pritraktos gxian историю ks), aperis la идея republikigi iujn интересные и signifoplenajn artikolojn el iamaj numeroj de "Kontakto". Unu el tiuj artikoloj я сегодня rearangxis и сколько-нибудь redaktetis. Истинно хороший artikolo de la iama redaktoro Франсиско Веути, dedicxita al la (тогда!) 30-jara jubileo de "Kontakto". Несмотря на tio, ke la artikolo fakte rakontas pri la история de la revuo, gxi estas так arangxita, ke prezentas la историю de la revuo как будто paralele kun la история de TEJO (kun gxiaj sxangxoj, revolucietoj, krizoj и прочие specifajxoj). Finfine, la artikolo estas просто очень sprita.

Do, обязательно republikigenda. Fakte, я ekverkis tiun cxi blogeron nur por prezenti al вы la cxarman citajxon, pri kiu я искренний ridis и gxis теперь ridetas. Temas pri la состояние de "Kontakto", сначала de la 1990-aj годы, когда gxiajn pagxojn inundis relative longaj, komplikaj и "densaj" tekstoj. Вот la citajxo:

Я memoras 4-pagxan literoplenan перевода sub la halucina titolo "La svisoj estas samtempe liberaj, malliberuloj и gardistoj de si сам" kun subtitolo "Пароладо де Фридрих Дюрренматт okaze de la transdono de la premio "Gottlieb Duttweiler" аль Ваклэв Гавел, la 22 - de novembro 1990 apud Zürich (Svislando) ".

Я penas konsoli min per la penso, ke dum мой redaktado la revuo sxajne ne estas так teda и abstrakta... Finfine, если я еще ne sxtopas la pagxojn per tiaj predikoj, la afero ne estas так malbona... :)"

Взял текст из блога Mevo здесь

В словаре ПРОМТа на момент тестирования было 800 слов и словоформ (самых частотных по сведениям из реферата Slavik-а, Санкт-Петербург).
Я считаю, что очень приличный результат возможен при словаре в 20.000 слов и словоформ.
Но составление такого словаря требует по моим подсчётам около 200 8-и часовых рабочих дней.
Ответить С цитатой В цитатник
Maksimo   обратиться по имени Вторник, 03 Августа 2010 г. 10:42 (ссылка)
Интересно. Хотя видно, да, что на реальных живых текстах из блогов пока не пригодно :)
Думаю, что в качестве родителя исходных текстов блогосфера, laux mi не очень пригодна. Gxuste cxi tie troveblas iomajna kvantego da nenormaj kaj esprimricaj individuajxoj :) La blogantoj ja ne vekas literaturajxon modelan sed skribas tion, kion enkapigxis nun kaj transdonacxas la sencon per t.n. tujvortoj -- kiuj naskigxas lauxbezone dume de la skribado. Do frekvenca vortanalizo gxuste en blogaro funkcias plej malbone, lmmo.
Ответить С цитатой В цитатник
Перейти к дневнику

Вторник, 03 Августа 2010 г. 18:37ссылка
Я так перевёл... на всякий случай :)
"Верно то, что здесь возможно найти сколько угодно любых количеств ненормальных и богатовыразительных индивидуальностей :)
Участники блогов ведь не зачинают образцовый литературный стиль но пишут то, что сейчас пришло в голову и передают чувства посредством так называемых только что созданных слов - которые рождаются по необходимости во время писательского творчества.
Следовательно частотный словесный анализ точно в блогах работает наиболее плохо, ИМХО."

Насчёт блогов в целом - согласен.
Тут более 10% слов автоматом перевести не реально.
Из плюсов ПРОМТ-а остаётся:
1) Перевод самых скучных слов: местоимения, наречия, союзы.
2) Разбиение страницы на два поля, что уже удобно организует текст к переводу традиционным способом. Т.к. те программы, что предлагали другие эсперантисты по разбиению поля перевода на два пространства менее удобны, чем ПРОМТ-овская реализация данной идеи для переводчиков. В Ворде при переводе очень быстро, через 2-3 предложения начинаешь путаться мыслями.

Наиболее перспективным из легкодоступного вижу заточку словаря под перевод первых 5-ти(макс.10-ти) уроков по уч.Б.Колкера.
Чтобы начинающие концентрировались на осмысливание синтаксиса (от др.-греч. σύνταξις — построение, порядок, составление) нового языка... чисто переводили глагол+предлог.
Сказуемых выраженных не глаголами у Б.Колкера не много, типа "быть+красивый".
И в перевод словосочетаний с предлогами по началу очень трудно въехать.

Вообщем... как-то так... самое основное что мне сейчас в голову приходит, можно выжать из этого проекта. :)
Как говорил Карнеги "Если уж вам достался лимон, то делайте лимонад".
Аналогия: "Если большинство учит эсперанто через ПК, а не через очные клубы, то надо возможности ПК выжать по максимуму."
Ибо перевод - это чрезвычайно рутинный и чрезвычайно трудоёмкий процесс. Здесь есть место для творческого поиска, но его - немного. LMMO.
Комментировать К дневнику Страницы: [1] [Новые]
 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку