ИНТЕРВЮТА
От естествения език през компютърната лингвистика до GSM-а
ст.н.с. Светла Коева
ръководител на Секцията по компютърна лингвистика
при Института за български език:
- Компютърна лингвистика, звучи доста неразбираемо и сложно, какво всъщност да разбира обикновения човек?
Мога да отговоря какво разбирам аз под компютърна лингвистика. В тесен смисъл означава формално описание на естествения език, тоест съвременната лингвистика, която използва формални методи за описание от математиката и логиката.
В широк смисъл компютърната лингвистика е обработка на естествения език, която включва формално описание на езика, приложение на математически и логически модели за описанието и програмиране. В резултат се създават компютърни програми от различен вид: за оптимизиране на лингвстичната работа, за корекция на правописни и граматични грешки, за ефективно търсене на информация, за създаване на кратки резюмета на документи, за разпознаване на изображения след сканиране, за трансформиране на реч в писмен текст и обратно, за определяне на авторство на документи, за превод на текстове от един език на друг и много други.
- Какво събира математиката и лингвистиката или как математиката обслужва лингвистиката?
Компютърната лингвистика е интердисциплинарна научна област, в която си сътрудничат (компютърни) лингвисти, математици, логици, програмисти. Математиката като фундаментална наука и програмирането като „превод” при „общуването” между човек и компютър се използват от всички станали науки: физика, химия, биология и т.н. Особеното е, че приложението на математиката и логиката за описание на езикови данни, в сравнение с другите науки, започва доста по-късно. За това разбира се има обективни причини: естественият език е пряко свързан с мисленето, езикът като обект на изследване не подлежи на експериментално повторение и т.н.
- Обикновено хуманитарите не са добри математици (да не кажем скарани са с математиката), както важи и обратното за математиците, къде са пресечните точки?
Моето мнение е, че погрешно се смесва (по традиция от древността) изучаването на литература и език (в момента в България до получаването на степента бакалавър). Различните хуманитарни дисциплини имат различна природа. Литературата трябва да се разглежда като вид изкуство, нейното изучаване – като интерпретация на това изкуство, а езикознанието – като наука, в която има строги закони (в противен случай нямаше да се разбираме помежду си).
- Нещо за историята на тази интердисциплинарна наука? Как е възникнала? Защо? Къде?
Обикновено прилагането на формални методи за описание на естествения език се свързва с името на Ноам Чомски (американски учен, потомък на евреи от Украйна и Беларус) и неговата книга „Синтактични структури”, издадена през 1957 г. От друга страна, началото на компютърната обработа на естествения език се свързва с опитите през 50-те години на миналия век в САЩ за автоматичен превод на руски научни списания на английски език. Компютърната обработка на естествения език се развива заедно с развитието на компютрите и програмирането.
- Как е развита тази наука в България?
Секцията по компютърна лингвистика http://dcl.bas.bg към Института за български език при БАН за седем години е постигнала това, което в развитите европейски държави и САЩ се разработва през последните 30-40 години.
- Какво изражение има?
Секцията по компютърна лингвистика разполага с прецизни от лингвистична гледна точка езикови ресурси, необходими за (почти всички) задачи, свързани с компютърната обработка на естествения език: едноезични и многоезични (анотирани) корпуси от текстове, които могат да се използвт за автоматично определяне на даден тип лингвистична информация; едноезични и многоезични речници със структура, която е подходяща за компютърна обработка; лексикално-семантична мрежа на българския език Булнет, която включва над 60 000 основни форми (което приблизително означава 1 000 000 словоформи), организирани в синонимни множества (хубав - прекрасен), които са свързани помежду си със семантични релации като антонимия (хубав – лош), хиперонимия (куче – животно), меронимия (чистачка – автомобил), словообразувателни релации (златен – злато) и екстралингвстични релации, например тематична област (антибиотик – медицина). Всяко синонимно множество от българската лексикално-семантична мрежа БулНет е свързано със съответното английско и с още дванадесет европейски езика, за които са създадени подобни лексикално-семантични мрежи. През последните пет години в Секцията по компютърна лингвистика са изработени над двадесет компютърни програми с различно приложение: за оптимизация на лингвистичната работа при създаването на речници и анотирането на корпуси, за търсене и извличане на различни типове информация, за автоматично определяне на граматична многозначност, за автоматично определяне на семантична многозначност (‘бавя детето’ и ‘бавя заминаването му’) и др. Сътрудниците на секцията са участвали при създаването на програмата Ita est! – Така е! - за автоматична корекция на праописа и пренасянето на нов ред; на програмата SpeechLab - за автоматично генериране на реч от писмен текст за нуждите на хората със зрителни увреждания и други. Сътрудниците на Секцията по компютърна лингвистика са привърженици на свободния софтуер и при всяка възможност предоставя разработките си за свободно използване.
- Има ли общество на компютърните лингвисти (по света и в България), какви са техните цели?
Създадени са Асоциация по компютърна лингвистика http://www.aclweb.org/ и свързаните с нея Европейска асоциация по компютърна лингвистика и Северноамериканска асоциация по компютърна лингвистика. От няколко години е учредена и Българска асоциация п компютърна лингвистика http://bacl.org. Най-авторитетното научно издание в областта е списанието Computational linguistics, всяка година по цял свят, включително и в България, се провеждат множество научни конференции, свързани с въпросите на компютърната лингвистика.
- Да разшифроваме някои от термините, с които работите ?
Например „тагиране” означава автоматично определяне на граматичните характеристики на дадена дума в контекст, например ‘бели’ може да означава прилагателно в ‘бели рози’, съществително в ‘детето днес направи две бели’ и глагол в ‘бели доматите, преди да ги режеш’ или ‘Иан бели домати’. Но пък ‘дендрит’ е медицински термин, който означава ‘образувания на нервната клетка, чрез които тя може да приема и предава различна информация от и на други клетки’ и според мене за повечето хора звучи непознато по същия начин, като и термините от компютърнаа лингвистика.
- В края на миналата година имахте конференция с богато чуждестранно участие. Коя е причината често да сте вие домакините?
Това беше международната конференция „Формални подходи към южнославянските и балкански езици”, която се провежда за пети път в България. Конференцията се прави на всеки две години. Искрено се надявам, че България е добър домакин, но естествено за успеха на конференцията имат зслуга всички участници – много от които са световноизвестни учени от Европа и САЩ.
- Компютърната лингвистика има богата приложност, в какво?
Много от приложенията на компютърната лингвистика се използват широко: например програмите за автоматична корекция на правописа (Spell Checker), автоматична корекция на граматичните грешки (Grammar Checker); други имат все още сравнително ограничена употреба, като тенденцията е тази употреба да се размирява; например програмите за генериране на реч от писмен текст (както за нуждите на хора с увреждания, така и за широка употреба – например за четене на електронни съобщения при шофиране), за трансформиране на реч в писмен текст (вместо или заедно със стенограмите пр заседания на различни форуми). Много от приложенията се разработват и за мобилни устройства: например кратки справки от различен тип: за местоположение на улица, за съставките на ястие в непозната държава, за превод на дума или основни изречения от един език на друг. Все по-широо приложение има автоматичният превод, както при оптимизирането на работата на професионалните преводачи (самообучаващи се системи, които запомнят взетите от преводача решения и предлагат най-вероятните преводни еквиваленти), така и за бърз (не достатъчно прецизен, но даващ добра представа за съдържанието) превод на документи (включително от Интернет) за хора, които не владеят даден език и т.н. Други приложения са автоматичната категоризация на документи по тематични области, автоматичното извличане на информация от документи, автоматичното резюмиране на документи и т.н.
- Има ли интерес на младите учени към това направление?
От няколко години е създадена магистърска програма „Компютърна лингвистика. Интернет технологии в хуманитаристиката” към Софийския университет. Младите хора, които я завършват, имат добра реализация: в изследователски центрове в България и чужбина, в софтуерни фирми, които с занимават с компютърна обработка на естествения език, но също така и в други области: медиите, образованието, издателската дейност.
- Вие като че ли печелите най-много грандове от рамковите програми. С какво сте атрактивни?
Обикновено се финансират области, които са приоритетни за развитието на обществото. По тази причина се подпомагат например създаването на ‘четящи’ програми за хората със зрителни увреждания, софтуер за разпознаване на изображения след сканиране, програми за езиково обучение. Но не трябва да се забравя, че много важно е и финансирането за фундаментални изследвания, които нямат бърза практическа реализация.
- Какви ще са направленията, целите за бъдещата ви работа? Какви неразработени полета ще засягате?
От няколко години езиковите ресурси и компютърните програми, които се създават от Секцията по компютърна лингвистика, са насочени към автоматичен превод от български на английски. Може да се каже, че всички необходими основни компоненти са налице и предстои работата по създаваето на софтуера за автоматичен превод. Нещо ново и интересно, което може в момента да се види на страницата на Секцията по компютърна лингвистика е търсенето в Българския Браун корпус и получаването на непосредствения контекст на срещанията. Търсенето може да се извършва по поседователност от символи, по синоними на дадена дума, по граматични характеристики, по значение на дума и различни комбинации от тези параметри при заявките: например заявката „последователност от който и да било предлог, прилагателното ‘хубав’ и синонимите на думата ‘край’” може да даде изреченията, в които се срещат някой от следните изрази: ‘до хубав край’; ‘за хубав финал’ и т.н.
Интервюто взе
Августа Манолева