Деякі аспекти проектування систем розпізнавання зорових зображень

медична інженерія

Деякі аспекти проектування систем розпізнавання зорових зображень

Забара С.С.

 

Довідка про автора

ЗАБАРА Станіслав Сергійович

Народився в 1934 році. У 1956 р. закінчив Київський політехнічний інститут за спеціальністю «Радіотехніка».

25 років (1956-1966, 1986-2001) працював завідувачем відділом в Інституті кібернетики НАН України, 20 років - начальником СКБ, заступником генерального директора з наукової роботи виробничого об'єднання «Електронмаш». З 2002 року очолює факультет і кафедру Університету «Україна». Як головний конструктор Міністерства приладобудування СРСР з одного із напрямків обчислювальної техніки, керував і брав безпосередню участь у розробці більше сотні різних технічних засобів і систем, що здебільшого були впроваджені у серійне виробництво.

Лауреат Державної премії СРСР, Державної премії УРСР, премії ім. М. Островського, золотих медалей Лейпцігської міжнародної виставки ВДНГ СРСР.

Нагороджений орденом Трудового червоного прапора і медалями. Удостоєний Почесної Грамоти Верховної Ради України за особливі заслуги перед українським народом.

Автор понад 130 наукових праць.

 

Анотація. Розглянуто підходи до проектування автоматизованих систем розпізнавання сигналів та зображень внаслідок їх перетворень зоровою системою. Запропоновано підхід, що ґрунтується на інваріантних перетвореннях вхідного сигналу зоровою системою. Спектральний аналіз ґрунтується на використанні системи дискретних ортогональних функцій Кравчука.

Аннотация. Рассмотрены подходы к проектированию автоматизированных систем распознавания сигналов и изображений в результате их преобразований зрительной системой. Предложен подход, основанный на инвариантных преобразованиях входных сигналов зрительной системой. Спектральный анализ основан на использовании в качестве системы ортогональных функций дискретной системы функций Кравчука.

Annotation. Some methods of design of systems recognition of signals, which are converted by visual system. The method of invariant conversions of input signals is proposed. The spectral analysis is based on orthogonal system of Krawtchouk functions.

 

Вступ

Однією з основних проблем, які виникають при обробці сигналів і зображень у системах автоматичного розпізнавання образів, автоматичної класифікації та діагностики, є проблема виділення повної системи інваріантних ознак сигналу, яка дозволила б достовірно проводити процедуру його ідентифікації. При цьому необхідно відокремлювати інформацію про об'єктивні характеристики самого сигналу від інформації про перетворення, яких цей сигнал зазнав. Ці перетворення (наприклад, зсув, обертання, зміни масштабу та ін.) у системах розпізнавання не контролюються, але вони не повинні впливати на результат їхньої роботи. Саме тому образи, які переходять один в інший під дією деякого перетворення, слід класифікувати як еквівалентні [1]. Зауважимо також, що задача інваріантного розпізнавання пов'язана із задачею стискання інформації та зменшення інформаційної надмірності. Хоч задача інваріантної обробки сигналів поставлена вже давно [1] і розроблено велику кількість спеціальних методів для різних часткових випадків із використанням потенціальних функцій, методів спектрального аналізу на групах, неперервно-групового підходу, методу моментних інваріантів та ін., але жоден із них не дає загального вирішення задачі. Тому актуальною є необхідність у деякому більш загальному підході, в рамках якого можна було б розглядати конкретні групи перетворень.

Треба зазначити, що зоровий аналізатор людини та тварин успішно вирішує цю задачу [2, 3]. Існують різні підходи до моделювання процесів, що відбуваються у зоровій системі [2], із використанням методів теорії ймовірності, спектральних, геометричних, векторних та інших методів, але остаточного успіху у вирішенні цього питання досягнути поки що не вдалося.. Тому моделювання процесів інваріантного розпізнавання сигналів зоровою системою є актуальним як з теоретичної, так і практичної точок зору.

 

Матеріали і методи

Виходячи з даних про структуру зорового аналізатора, розроблено теорію [2], згідно з якою зорова система здійснює просторово-частотну фільтрацію зображення. У зорових нейронних мережах виділяють чітко окреслені функціональні одиниці - рецептивні поля (РП). У першому наближені РП можна поділити на два типи [3]. По-перше, це концентричні поля, які складаються з центральної зони, подразнення рецепторів якої дає відгук, і периферійного гальмівного кільця, чи навпаки, гальмівної центральної зони і периферійного кільця, яке дає відгук. Концентричні поля служать для поточкового опису зображення. Крім того, існують спеціалізовані поля - детектори, що служать для розв'язання вузького класу задач. Прості ознаки зображення виділяються природженими механізмами РП та колонок РП зорового аналізатора у вигляді відповідних спектральних коефіцієнтів. Далі ці ознаки через латеральні колінчасті тіла передаються у первинну кору головного мозку, де, мабуть, і відбувається вирішення задач класифікації зображень зоровою системою.

Англійський нейрофізіолог Ф. Кемпбелл ще в середині минулого століття встановив, що зорова система в цілому працює як багатоканальний Фур’є-фільтр, де кожен канал налаштований на виділення певної просторової частоти, тобто весь простір сітківки розбито нейронами кори на множину просторово-частотних полів [2]. Хоча всі нейрони як на рівні таламічних ядер, так і на рівні проекційних зон зорової кори поєднані з одним і тим же полем сітківки, кожен дає максимальний відгук тільки на свою решітку, тобто на визначену просторову частоту. При математичному моделюванні ця решітка визначає певну функцію ваги відповідного поля сітківки. Розроблено методи моделювання функції ваги різницею збудливого і гальмівного гауссіанів, елементами Габора та ін. [2]. Однак, залишається не з'ясованим, як на підставі виділених ознак - спектральних коефіцієнтів зображення можна забезпечити інваріантність розпізнавання.

Використовуючи експериментальні дані відносно обробки зображень зоровою системою [3], у [4] функції ваги концентричних РП було запропоновано моделювати функціями Ерміта. Однак, обчислення коефіцієнтів розкладу сигналу за цими функціями потребує виконання великої кількості трудомістких операцій чисельного інтегрування. Крім того, при комп'ютерній реалізації відповідних алгоритмів дискретизація базисних функцій призводить до порушення їх ортогональності, що у свого чергу, призводить до істотних помилок при аналізі сигналу та його відновленні за узагальненим спектром. Тому в алгоритмі виділення інформативних ознак дискретного сигналу, які є інваріантними до перетворень зсуву [5], було запропоновано функції ваги концентричних РП описувати функціями Кравчука [6, 7], оскільки їх використання в комп'ютерному спектральному аналізі сигналів є вільним від недоліків функцій неперервного аргументу, бо вони з самого початку будуються на скінченій кількості точок як повна ортонормована система функцій дискретного аргументу. Зауважимо також, що функції відгуків концентричних РІГ - це кількість імпульсів за певну одиницю часу [3], тобто вони є дискретними функціями, тому більш адекватно їх моделювати саме функціями дискретного аргументу. В [8] алгоритм виділення повної системи інваріантних ознак було узагальнено на випадок довільного лінійного перетворення n-вимірного дискретного сигналу.

На основі вказаних алгоритмів пропонується така математична модель інваріантності розпізнавання образів зоровою системою. Нехай на вхід системи надходить сигнал yt(t), який залежить від часу або зображення, де аргумент t являє собою, у загальному випадку багатовимірний вектор, який належить деякій множині Q. Так, у разі зображення (t- двовимірний вектор, Q- поле зору, a y1(t) описує функцію розподілу яскравості зображення, яке обробляється. Перше перетворення інформації відбувається вже тріадою фоторецептор - горизонтальна клітина - біполяр. Оптична система ока проектує зображення y1(t) на шар фоторецепторів сітківки, при цьому горизонтальна клітина додає збудження від великої кількості фоторецепторів, після чого середнє значення сумарного сигналу віднімається (за допомогою зворотного гальмівного сигналу) від сигналів, які йдуть від рецепторів до біполярів, оскільки горизонтальні клітини поєднують рецептори і біполярні клітини порівняно довгими зв'язками, які йдуть паралельно з шарами сітківки [2, 3]. У результаті адаптації до середнього рівня освітленості утворюється новий нульовий рівень, і рельєф освітленості тепер можна описати як більш світлі або більш темні ділянки відносно середнього рівня [2]. Таким чином, на першому етапі обробки зображення встановлюється новий нульовий рівень, який відповідає середньому рівню освітленості і на РП гангліозних клітин сітківки передається функція розподілу яскравості зображення y(t)= y1(t) - у(1), де y(t) - середнє значення y1(t) по полю зору Q. Контакт бінолярів iз гангліозними клітинами здійснюється за допомогою амакринових клітин, які грають роль інтернейронів, при цьому переході від біполяра до гангліозної клітини збудження трансформується з аналогової форми в імпульсну [2], тому функція y(t) є дискретна.

Крім того, нехай функція y(t) зазнала деяких перетворень (зсуву, оберту, перетворення масштабу), яке задається операторами узагальненого зсуву (о.у.з.). R' [9]: y(s(i))=Ri y(t), (te Q). Отже, на вхід системи поступає не сигнал у(і), а перетворений сигнал y(So(t)) із деякими фіксованими параметрами перетворення So(t). Задача полягає у тому, щоб знайти значення параметрів So(t) перетворення та виділити характерні особливості самого сигналу.

На другому етапі будується множина ортонормованих функцій Кравчука Q{ F G0, k = 0,1, ... , N-1}. Для простоти пояснення моделі припустимо, що поле зору Q =[0,1, ..., N-1]:

Параметр p визначає ступінь асиметрії функцій Кравчука. В моделі функції Кравчука обчислювались для значень р = 0.1, 0.2, ..., 0.9. При р = 0.5 функції Кравчука є симетричні відносно середини інтервалу, тобто вони є дискретний аналог функцій Ерміта.

Відгук нейрону з певною функцією ваги моделюється операцією згортки цієї функції ваги із вхідним сигналом, який визначає розподіл освітленості. У [2] ансамбль відгуків концентричних РП формується як результат спектрального Фур'є-аналізу, тобто як розклад вхідного сигналу за функціями Фур'є. У цьому разі кожне конкретне зображення - це точка у багатовимірному просторі відповідних спектральних коефіцієнтів, і кожне нове зображення визначає нову точку у цьому просторі, що дозволяє порівнювати ці зображення. Недолік такої схеми полягає у тому, що практично ототожнюється зображення з полем зору. Але зображення може займати лише частину поля зору і в різні моменти часу може знаходитись в різних його частинах, бути повернутим, мати інший масштаб. У цьому разі результати Фур'є-аналізу поля зору будуть відрізнятись, що робить неможливим встановити інваріантні ознаки самого зображення. Тому ми пропонуємо наступний підхід, який дозволяє відокремлювати інформацію про саме зображення від інформації про перетворення, яких він зазнав.

На третьому етапі обробки зображення моделюються відгуки концентричних РП згорткою сигналу з функціями ваги концентричних РП, які визначаються функціями Кравчука. При цьому згортка сигналу у(So(i)) здійснюється не по одному базису функцій Кравчука, а по множині лінійних перетворень цього базису, що є відмінна риса пропонованої моделі від інших [2]. У зоровій системі зсув концентричних РП (і відповідно базисних функцій) по всьому полю зору можуть забезпечувати сакади і мікросакади ока. Вперше, вперше в одній моделі об'єднуються мікрорухи ока і реакції концентричних РП. Оскільки зорова система реагує на зміни зображення, то ми вважаємо за доцільне моделювати не абсолютні реакції, а саме ці зміни. Відносно перетворення обертання картина більш складна. Відомо, що зорова кора розбита на вузькі ділянки з постійною цілком визначеною орієнтацією [3]. При цьому існує циклічність, тобто, коли пройдено всі можливі варіанти орієнтації, відбувається повернення до початкової орієнтації, і потім весь цикл повторюється знову [3]. Виходячи із запропонованої моделі, можна припустити, що така будова стріарної кори забезпечує наявність концентричних РП (а тому і базисних функцій), із усіма можливими орієнтаціями для всіх кутів обертання з деяким кроком.

Отже, на третьому етапі обчислюються узагальнені спектральні коефіцієнти за множиною ортонормованих функцій Кравчука [9]

За допомогою перетворення Фур'є функції за характерами о.у.з. [11] ця формула набуває вигляду

Для перетворення зсуву у формулі F- це класичне перетворення Фур'є.

На четвертому етапі обробки зображення будується функціонал енергії

 

де М - деяка підмножина номерів узагальнених спектральних коефіцієнтів. Підмножина М формується таким чином: знаходяться узагальнені спектральні коефіцієнти сигналу, квадрати яких мають найбільші значення, тобто відповідні функції Кравчука мають найбільший внесок у сигнал, який обробляється. Номери таких узагальнених спектральних коефіцієнтів і складають множину М.

На п'ятому етапі обробки зображення знаходиться максимум функціонала енергії W(p) (S,S0). Оскільки W(p) (S,S0) - невід'ємний і обмежений функціонал, його глобальний максимум існує і досягається саме тоді, коли змінні значення s(i) співпадають із прихованими параметрами S0. Таким чином, даний етап моделює процес надходження інформації з латеральних колінчастих тіл (ЛКТ) у первинну зорову кору.

Ці два етапи моделюють процес обробки зображення в ЛКТ, куди надходить і де накопичується інформація і від сітківки, і від зорової кори [3]. Існує також зворотній зв'язок первинної зорової кори з ЛКТ [3], який, можливо, пов'язаний із обробкою повернутих зображень, бо концентричні РП, які реагують на повернуті зображення, знаходяться у первинній зоровій корі і формують "уявний" відгук. У той же час, із нашої точки зору, недоцільно дублювати орган, який накопичує всі відгуки РП із різними кутами повороту на зображення і виділяє серед них найсильніший. Можливо, саме в ЛКТ виділяється максимальне збудження, яке і відповідає місцеположенню зображення в полі зору, його повороту і, можливо, масштабному перетворенню

На шостому етапі оптимізується підмножина узагальнених спектральних коефіцієнтів М. Підмножина індексів М знаходиться в інтерактивному режимі, виходячи із заданої наперед помилки відновлення сигналу Є. При цьому сигнал наближено відновлюється за формулою:

Цей етап моделює один із етапів процесу розпізнавання зображення, а саме, коли інформація про зображення є недостатня для його розпізнавання, і зорова система повинна отримати додаткову інформацію про зображення. Як зазначено у [2], оскільки модулі зорової кори опираються на пульсуючі ЛКТ, то в початковий момент працюють коркові нейрони, які відповідають лише за низькі просторові частоти, тільки пізніше, коли поля ЛКТ стягуються, починають сприйматись і більш високі частоти, тобто відбувається оцінка все більш тонких складових зображення.

 

Висновки

Побудовано математичну модель інваріантної обробки зображень у зоровій системі. Ідея вирішення задачі інваріантної обробки сигналів пов'язана з побудовою деякого функціонала від цього сигналу, який досягає свого максимуму саме тоді, коли значення перетворення s(t) співпадуть із прихованими перетвореннями сигналу.

На основі запропонованої моделі було розроблено програмне забезпечення для обробки одновимірних сигналів, яке може бути використано для вирішення задач стискання та відновлення електрокардіограм, електроенцефалограм, викликаних потенціалів мозку та інших електрофізіологічних сигналів, а також у задачах автоматизованої діагностики для виділення інваріантних інформативних ознак цих сигналів.

Модель є чутлива навіть до невеликих змін сигналу. Проблема стійкості вирішується на етапі розпізнавання - якщо ці невеликі зміни є артефакти, то їх можна згладити, але якщо ці невеликі "полички", "зазубринки" є діагностично важливі (як, наприклад, у кардіодіагностиці), то можна знайти узагальнені спектральні коефіцієнти, які містять інформацію саме про ці структури.

Один із перспективних шляхів вирішення цієї проблеми полягає у тому, щоб замість функцій Кравчука використовувати гнучкіші функції, які мають бути не такими чутливими до ступеню асиметрії (це стосується функцій Кравчука на кінцях інтервалу дискретизації, коли, наприклад, р=0.1 та з=0.9). Можливий шлях - побудова функцій дискретного аргументу на ґрунті розв'язання початкових рівнянь гіпергеометричного типу з подальшим отриманням відповідних функцій дискретного аргументу.

 

Список літератури

1. Якубович B.A. Некоторые общие теоретические принципы построения обучаемых опознающих систем. //Выч. техника и вопросы программирования: Сб. науч. тр. Вып. 4. - Л, Изд-во Ленинградского ун-та, 1965. -С.3-71.

2. Глезер В.Д. Зрение и мышление. - СП, Наука, 1993.-284 с.

3. Хьюбел Д. Глаз, мозг, зрение. - М, Мир, 1990. - 240 с.

4. Vainerman LI. Signal processing and harmonic analysis of generalized shift operators // Mathematical Тheory of Systems, Control, Networks and Signal Processing. Volume 2. Proceedings of the International Symposium MTNS-91. - Tokyo, MITA PRESS, 1992. - R557-561.

5. Vainerman L. and Filimonova N. Hyperspectral imagery with the application of Krawtchouk polynomials //Algorithms for Multispectral and Hyperspectral Imagery. A. Evan Iverson, Editor, Proc. SPIE. - 1994, V.2231 - P. 148-155.

6. Krawlchouk M. Sur une generalization des polynomes d'llermite // C.R. Acad. Sci., Paris. - 1929, v. 189. -P.620-622.

7. Никифоров А.Ф., Суслов С.К., Уваров В.В. Классические ортогональные полиномы дискретной переменной. - М, Наука, 1985. -216 с.

8. Филимонова Н.Б. Общая схема выделения полной системы признаков сигнала, инвариантной ко всем его линейным преобразованиям // Компьютерные технологии и управление в биологии и медицине: Сб. науч. тр. - Киев, И К АН Украины. - 1996. - С. 66-74.

9. Левитан Б.М. Теория операторов обобщенного сдвига. - М, Наука, 1973. - 312 с.

 

Вісті Академії інженерних наук України,

№ 2 (36) 2008.

автор: Забара С.С.

видання: Вісті Академії інженерних наук України, № 2 (36) 2008, час видання: 2008


15/06/2010