antonioTorralbaSАнтонио Торралба

Доцент
Отдел электротехники и компьютерных наук
Массачусетский Институт Технологий

 

AudeOliva2014Од Олива

Доцент
Главный научный сотрудник
CSAIL (Лаборатория информатики и искусственного интеллекта)
Массачусетский технологический институт

Оригинал: Modeling the shape of the scene: a holistic representation of the spatial envelope

Международный журнал компюьтерной визии, ч. 42 (3): 145-175, 2001. PDF

Аннотация: В этой статье мы предлагаем вычислительную модель признания реальных сцен, которые в обход сегментацию и обработку отдельных объектов или областей. Процедура основана на очень низком мерного представления на сцене, что мы называем пространственной Конверт. Мы предлагаем набор восприятия размеров (естественность, открытость, шероховатости, расширения, прочность), которые представляют доминирующую пространственную структуру сцены. Затем мы показываем, что эти размеры могут быть надежно оценены с помощью спектрального и грубо локализованную информацию. Модель генерирует многомерное пространство, в котором сцены обмена членство в семантических категорий (например, улицы, дороги, берега) проецируются закрыт вместе. Производительность модели пространственной огибающей показывает, что конкретная информация о форме объекта или личности не является обязательным требованием для сцены категоризации и моделирования целостного представления сцены сообщает о его вероятной семантической категории.

Этот материал основан на работе, поддержанной Национальным научным фондом под КАРЬЕРА грант № 0546262. Любые мнения, результаты и выводы или рекомендации, выраженные в этом материале, являются таковыми из автора (ов) и не обязательно отражают точку зрения Национального Научный Фонд.

GIST Дескриптор (Matlab код)

Скачать:

Скачать весь код Matlab и примеры здесь: gistdescriptor.zip

Вычислительная Суть дескриптор:

Чтобы вычислить дескриптор суть на изображении используйте функцию LMgist. Следующий пример читает одно изображение и вычисляет дескриптор (demo1.jpg изображения и demo2.jpg доступны в файле gistdescriptor.zip).

% Load image
 img = imread('demo2.jpg');

 % GIST Parameters:
 clear param
 param.orientationsPerScale = [8 8 8 8]; % number of orientations per scale (from HF to LF)
 param.numberBlocks = 4;
 param.fc_prefilt = 4;

 % Computing gist:
 [gist, param] = LMgist(img, '', param);

Визуализация:

Для визуализации дескриптор Суть использовать функцию showGist.m. Здесь есть пример того, как это можно использовать:

% Visualization
 figure
 subplot(121)
 imshow(img)
 title('Input image')
 subplot(122)
 showGist(gist, param)
 title('Descriptor')

Сходство изображения:

При вычислении изображений сходства, это может быть важно для нормализации размер изображения перед вычислением дескриптор GIST. Это может быть достигнуто путем установки размера изображения внутри парам структуры (с использованием поля param.imageSize). Функция LMgist будет изменить размер и обрезать каждое изображение, чтобы соответствовать указанному размеру перед вычислением дескриптор суть. Операция изменения размера не будет влиять на соотношение сторон исходного изображения. Урожай будет по центру и изображение будет изменять размер так, чтобы обрезанные область сохраняет как можно больше от первоначального входного изображения. Вот пример:

% Load images
 img1 = imread('demo1.jpg');
 img2 = imread('demo2.jpg');

 % GIST Parameters:
 clear param
 param.imageSize = [256 256]; % it works also with non-square images (use the most common aspect ratio in your set)
 param.orientationsPerScale = [8 8 8 8]; % number of orientations per scale
 param.numberBlocks = 4;
 param.fc_prefilt = 4;

 % Computing gist:
 gist1 = LMgist(img1, '', param);
 gist2 = LMgist(img2, '', param);

 % Distance between the two images:
 D = sum((gist1-gist2).^2)

Подборки:

Первый вызов будет LMgist предвычисления фильтры в частотной области и хранить их в param.G, последующие вызовы будут быстрее.

% GIST Parameters:
 clear param
 param.imageSize = [256 256]; % set a normalized image size
 param.orientationsPerScale = [8 8 8 8]; % number of orientations per scale (from HF to LF)
 param.numberBlocks = 4;
 param.fc_prefilt = 4;

 % Pre-allocate gist:
 Nfeatures = sum(param.orientationsPerScale)*param.numberBlocks^2;
 gist = zeros([Nimages Nfeatures]); 

 % Load first image and compute gist:
 img = imread(file{1});
 [gist(1, :), param] = LMgist(img, '', param); % first call
 % Loop:
 for i = 2:Nimages
    img = imread(file{i});
    gist(i, :) = LMgist(img, '', param); % the next calls will be faster
 end

Сценарий demoGist.m показывает несколько примеров, а также, как он работает с не-квадратных изображений. Функция LMgist также может работать панель инструментов LabelMe.

8 кадров Категории набора данных


Скачать: Images.zip , Annotations.zip и example.m Этот набор данных содержит 8 открытых категорий сцена: побережье, горы, лес, открытые страну, улица, внутри города, высотных зданий и дорог.Есть 2600 цветных изображений, 256×256 пикселей. Все объекты и регионы в этом наборе данных были полностью помечены.Есть более чем 29.000 объектов. Аннотации доступны в LabelMe формате.Для новых и более сложных эталоном распознавания сцены, используйте базу данных ВС .
Путаница матрицы T Я s час С о м е
высокие здания 82 9 2 0 0 0 5 1
внутри города 3 90 3 1 0 1 0 0
улица 1 5 89 2 0 1 2 1
шоссе 0 3 2 87 4 4 1 0
побережье 0 0 0 8 79 12 1 0
открытая страна 0 0 2 5 13 71 6 3
гора 1 0 2 2 2 5 81 7
лес 1 0 0 0 0 1 6 91
Признание сценыРезультаты обучения с 100 образцов в классе, используя SVM классификатор с гауссовой ядра, испытания на остальных.Средний по диагонали 83,7%

Связанные публикации

Сцена и место признание

Контекст-система видение места и распознавания объектов
А. Торралба, К. П. Мерфи, В. Т. Фриман и М. А. Рубин
IEEE Международный. Конференция по компьютерного зрения (ICCV), Ницца, Франция, октябрь 2003.
Страница проекта

Контекст для обнаружения объекта

Контекстная грунтовка для обнаружения объекта
А. Торралба
Международный журнал компьютерной визии, Vol. 53 (2), 169-191, 2003.
Страница проекта

Глубина от монокулярных изображений

Оценка глубины от структуры изображения
А. Торралба, О. Олива
IEEE Transactions на шаблон анализа и машинного разума, Vol. 24 (9): 1226-1238. +2003.

Модели зрительного внимания

Контекстная Руководство внимания в природных сцен: роль глобальных функций по поиску объекта
А. Торралба, О. Олива, М. Кастелано и Дж. М. Хендерсон
Психологическая отзыв. Том 113 (4) 766-786, октябрь 2006.
Страница проекта