Chat GPT за обработка на текстове написани в остарели езикови форми

В този пост ще покажа разнообразието на възможности, които Chat GPT предлага за обработка на текстове, написани в остарели езикови форми, с цел преразказването и адаптирането им към съвременния контекст.

Исторически текст

От време на време се занимавам с обработка и преразказ на семейни истории от миналото. Често те включват документи, написани на стар български език. В този случай ще използвам част от отчета за дейността на Плевенската окръжна постоянна комисия, основана от моя прадядо Дико Нешев през 1911 година.

Трансформация

Едно от приложенията на Chat GPT е преобразуването на текстове на съвременен български език и правопис. Досега автоматизирането на тази задача е било трудно. Тази трансформация е интересна, тъй като комбинира различни видове промени в текста, свързани със синтаксис, стил и правопис.
  1. Символи и букви - старият български правопис съдържа няколко букви, които не съществуват в модерния български език, както и в други съвременни езици, използващи кирилица. Тези букви често се заменят от OCR програми с визуално подобни символи, които понякога дори не са букви. Един пример е "окр. съвtтъ". В този случай архаичният символ е заменен с латинската буква "t". Съществуват и други символи, които не се използват в модерния български език, но продължават да се използват в други езици използващи кирилица.

  2. Правопис - съществуват значителни разлики в правописа между стария и модерния български език. Един пример е употребата на окончание "ъ", което изчезва в съвременния език. Например, "окр. съвtтъ". В същите думи може да се забележи и съкращение, характерно за епохата на пишещите машини. В днешно време такива съкращения рядко се използват.

  3. Стил - с развитието на езика много изрази и формулировки са променили стила си и значението си. Това може да направи разбирането на оригиналния текст трудно или дори невъзможно за съвременния читател. Затова е важно да се адаптират и преразказват стари текстове, така че да бъдат достъпни и разбираеми за съвременната аудитория.

  4. Грешки, генерирани от OCR поради лошото качество на оригиналните документи, могат да доведат до изкривяване на текста и затрудняване на разбирането му. Например, "понt>же" трябва да се прочете като "понеже". Такива грешки изискват редактиране и корекции на текста, за да бъде възстановен оригиналният смисъл и да се подобри четимостта.
След разпознаването на текста от OCR модула, наистина можем да получим доста объркан и труден за четене текст. Това се дължи на факта, че OCR технологията може да се обърка от стари правописи, неясни букви или некачествени сканирания на оригиналните документи. Затова е необходимо допълнително редактиране и корекции, за да се подобри четимостта и да се възстанови оригиналният смисъл на текста.


Сега идва интересната част! Ще сравним как Chat GPT се е справило с трансформацията на текста и как е реагирало на различните грешки във входния текст.

За да направим това, ще сравним по горния текст с преработената версия от Chat GPT.


Тук можем да видим, че Chat GPT е успешно трансформирало текста, като премахва архаични символи, коригира грешки от OCR и адаптира стила, така че да е разбираем и съвременен. Въпреки това, Chat GPT може да се сблъска със затруднения при определени грешки или архаични изрази и може да изисква допълнителна корекция от страна на човека. В крайна сметка, съвместната работа между Chat GPT и човешкия редактор може да доведе до по-добри резултати при преработването на такива текстове.

Резултати

  1. Символи и букви - крайният текст наистина не съдържа символи и букви извън стандартните български букви. Всички думи, засегнати от некоректното разпознаване на съществуващи букви или от опита да се разпознаят архаични символи, са трансформирани коректно без загуба на информация.

  2. Правопис - текстът е преобразуван на модерен български език, като се спазва съвременният правопис.

  3. Стил - повечето архаизми са коригирани, но има все още някои необичайни употреби на езика. Например, текстът започва с по-модерно звучащото "Позволете ми да Ви поздравя", но изразът "вашето просветено внимание" продължава да звучи архаично.

Крайни Резултати

Нека все пак да се опитаме да подобрим текста. Задаваме команда на GPT да редактира текста и крайният резултат е прекрасен!


Аз намирам подобна употреба на Chat GPT изключително полезна за филолози, археолози, историци и много други професии, които работят с исторически текстове.

Нека да завършим примера, като поискаме от Chat GPT да преведе текста на английски:


Преводът е правилен. В рамките на няколко прости команди зададени в неструктуриран разговорен формат оригиналния текст от 1911 година успешно е преведен на модерен Български и Английски език.

В заключение, нека да отбележим че Chat  GPT е езиков модел в основата си и като такъв се справя доста добре с трансформирането на текст, но все още може да има някои аспекти, които изискват допълнително коригиране от човешки редактор. Съвместната работа между Chat GPT и човек може да доведе до значително подобрени резултати при преработването на такива текстове.

  

Comments