Технология

Пользовательский опыт в контексте цифрового рукописного ввода с поддержкой естественных жестов

Передовой искусственный интеллект отвечает за быстрое преобразование рукописного текста в электронный формат, но одним из самых гибких и универсальных инструментов наш продукт становится именно благодаря проектированию пользовательского опыта.

Важность пользовательского опыта

Пользовательским опытом называется опыт взаимодействия с приложением, продуктом или системой. При разработке программного обеспечения им занимаются в рамках двух тесно связанных друг с другом дисциплин: исследование пользовательского опыта и проектирование пользовательского опыта.

Исследование пользовательского опыт

Эксперты MyScript изучают пользовательский опыт, чтобы понять, в каких случаях и почему пользователи предпочитают писать от руки. Мы также оцениваем ожидания, потребности и действия при письме на бумаге или цифровом устройстве.

Применяя множество методов статистической и качественной оценки (от бесед и опросов до изучения повседневной деятельности, сравнения с эталонными шаблонами и тестирования на практичность), наши исследователи собирают, сортируют и анализируют огромные объемы данных. Затем они составляют подробные архетипы (различные модели поведения пользователей) и карты перемещения (с маршрутами пользователей при выполнении тех или иных задач при помощи приложения), которые позволяют определить главные потребности для большинства предприятий.

Проектирование пользовательского опыта

Специалисты по проектированию пользовательского опыта используют архетипы и модели, составленные исследователями, чтобы адаптировать решения под требования современных пользователей. Они проверяют творческие идеи на применимость, предлагают возможные варианты дизайна и создают прототипы, а также отвечают за соответствие обновлений требованиям законодательства, бизнеса и т. д. (например, требованиям локализации).

Может прозвучать очень прямолинейно, но для большинства потребностей и проблем пользователей не существует простых решений. Особенно когда мы работаем с искусственным интеллектом. Именно на этом этапе стоящая перед специалистами по пользовательскому опыту задача становится более сложной (и интересной!).

Чтобы не быть голословными, давайте внимательнее посмотрим, какую роль пользовательский опыт играет в главных продуктах MyScript.

Поиск новых возможностей для применения цифровых чернил

Когда в 1998 году мы начали разрабатывать технологию цифровых чернил на основе искусственного интеллекта, нашей основной целью было добиться высокой точности и скорости распознавания письменного текста. Но мы знали, что это не предел.

На рынке представлено немало решений на основе цифровых чернил, но большинство из них имеют несколько ограниченные возможности: штрихи захватываются как статические изображения. Вы можете изменять их размер или перемещать их по странице, но не более того. Как следствие, написанное от руки содержимое существует отдельно от других данных на странице, и что особенно важно — от печатного текста.

Поэтому при разработке модуля искусственного интеллекта, способного распознавать рукописный текст и с максимальной точностью преобразовывать его в электронный формат, мы задавались вопросом: а как еще можно использовать технологию цифровых чернил? Чем еще она может быть полезна и в чем превосходит обычные бумагу и чернила?

Существующая на тот момент литература помогла нам понять, почему люди предпочитают не печатать, диктовать или использовать другие цифровые способы ввода данных, а писать или чертить от руки. И мы начали экспериментировать, чтобы раскрыть пласт потенциала цифровых чернил, лежащий за пределами распознавания рукописных знаков. Появились дополнительные цели в виде реализации таких возможностей, как адаптивность и редактирование движениями стилусом. Несмотря на значительные успехи, вскоре стало понятно, что взять эту высоту при помощи одного только искусственного интеллекта не получится. Необходимо было параллельно разрабатывать современную и интеллектуальную среду взаимодействия на основе пользовательского опыта.

Простой ввод данных естественными движениями

В мире тогда наблюдался взрывной рост использования и диверсификации цифровых устройств, а статус и будущее рукописного ввода были туманными. Мы более плотно занялись исследованиями, на протяжении длительного времени опрашивая людей из разных социальных и профессиональных кругов, чтобы понять, как навык письма от руки помогает им в повседневной жизни.

Нам удалось проанализировать множество реальных заметок (бумажных и цифровых) и провести множество подробных опросов с участием тысяч респондентов. Примечательно, что несмотря на быстро растущую популярность цифровых устройств, снова и снова подтверждалась наша начальная гипотеза: ведение записей от руки имеет явные и уникальные преимущества, среди которых абсолютная свобода самовыражения и улучшенное запоминание информации.

Для записи нестандартных идей или проведения коллективных обсуждений гораздо больше подходят ручка и бумага, а не клавиатура. Это же относится к математическим уравнениям или нотам. Диаграммы, как правило, тоже проще чертить от руки, чем использовать для этой цели мышь. Во многих случаях ведение записей — это не просто создание содержимого. Это способ размышлять. Когда мы пишем или чертим от руки, развитие идей происходит более свободно и естественно.

Преимущества цифрового содержимого

Но создание содержимого рукописным методом тоже имеет свои ограничения и раздражающие факторы.

Наше исследование продемонстрировало, что бумажные заметки обычно плохо сочетаются с цифровыми инструментами и ресурсами. На фрагментах бумаги стройная мысль часто теряется. При перепечатывании рукописных протоколов или переносе поспешно начерченных диаграмм в PowerPoint либо Keynote приходится тратить ценное время на расшифровку. Как правило, упорядоченные поначалу заметки быстро превращаются в хаотичный и сложный для понимания текст, так как автору не хватает места, или он делает ошибки, которые не может исправить. Цифровые альтернативы рукописному вводу в целом оказались более эффективны с точки зрения поиска информации, ее структурирования, переноса и редактирования. Немалым плюсом были и возможности подключения.

Но зачем людям вообще выбирать один из двух принципиально разных способов ввода, каждый из которых эффективен и удобен, но по-своему? Мы нашли возможность создать решение, которое объединило бы преимущества каждого из вариантов.

Анализ сценариев использования

В ходе исследования мы также определили, при каких обстоятельствах традиционные цифровые способы ввода будут непрактичны, а наилучшим вариантом окажется запись от руки (даже если одним пальцем).

Хорошим примером являются дисплеи панелей и информационно-развлекательных систем в автомобилях: кнопки, круговые шкалы и сенсорные клавиатуры могут отвлекать водителей, тем самым создавая угрозу для безопасности. Даже распознавание голоса имеет определенные недостатки — из-за несовершенства технологии и высокого уровня фонового шума в салоне сложно избежать типичных ошибок. Если водитель будет вынужден то и дело исправлять ошибки распознавания, последствия могут оказаться катастрофическими.

Но что, если бы водитель мог просто записывать инструкции одним пальцем, не отводя взгляда от дороги? Конечно, не обошлось бы без технических сложностей — в частности, программному обеспечению пришлось бы «научиться» отличать наложенные символы и обрабатывать их. Но преимущества и потенциальные варианты применения таких решений были бы поразительными. И далеко не последним из них стала бы возможность создавать смарт-часы с миниатюрными дисплеями.

Еще один пример — создание диаграмм. Как правило, для черчения диаграмм в отчетах или презентациях пользователю нужно либо освоить специальное приложение, либо научиться работать со специализированными инструментами в уже знакомой программной среде (например, Microsoft Word). Что, если бы наша технология позволяла нарисовать диаграмму при помощи стилуса, а затем преобразовать ее для получения идеальных фигур, прямых линий и текста в печатном формате всего несколькими действиями?

Что, если такая преобразованная диаграмма была бы адаптивной, а при перемещении элементов размеры соединительных элементов изменялись автоматически? Более того, что, если бы такую нарисованную от руки диаграмму при вставке в популярное приложение для презентаций (PowerPoint или Keynote) можно было бы автоматически преобразовать?

Мы только что обрисовали технологию цифровых чернил нового поколения, которая открывает перед пользователями гораздо больше возможностей, чем просто распознавание письменного текста и его преобразование в печатный.

От понимания к концепции

Определив потребности пользователей путем тщательного исследования пользовательского опыта, мы смогли поставить перед собой четкую цель: создать такое решение на основе цифровых чернил, которое стало бы связующим звеном между удобством естественных движений и эффективностью цифрового формата. Объединение преимуществ этих двух методов в разы повысило бы производительность, но одного искусственного интеллекта для этого было недостаточно. Нужна была интеллектуальная, продуманная и передовая среда взаимодействия.

Интерактивность и производительность

В первую очередь мы постарались определить для себя, в чем наше решение на основе цифровых чернил превосходило бы аналоги в рамках отрасли. В ходе тесного сотрудничества с разработчиками и менеджерами по выпуску продуктов наши специалисты по пользовательскому опыту вывели инновационную концепцию рукописного ввода с 3 серьезными отличиями от предложений конкурентов: мультимодальность, возможность редактирования и адаптивность.

Мультимодальность

Мы хотели, чтобы вводимые при помощи нашего решения рукописные символы распознавались как печатные, а не как отдельная категория содержимого. Поэтому мы создали программное обеспечение, которое умеет обрабатывать разные типы текстовых данных одинаково, благодаря чему пользователи могут как писать от руки, так и печатать в одном и том же документе, абзаце, предложении и даже слове. Вы можете сами оценить эффективность такого подхода в нашем приложении для цифровых заметок Nebo .

Стандартная страница Nebo служит для создания обычных упорядоченных заметок или документов, где поддерживаются смешение, объединение и преобразование письменных и печатных символов. Пользователи могут добавлять различные объекты (диаграммы, математические выражения, наброски и т. д.), тем самым дополняя заметки без снижения точности распознавания рукописного текста.

Использование объектов — это часть одной из главных проблем, стоящих перед нами сейчас. Она заключается в том, чтобы предоставить пользователям возможность свободно добавлять на одну цифровую страницу и текстовые, и нетекстовые объекты без потери их функциональности. Наше стремление достичь этой цели отразилось в создании и развитии страницы Nebo свободной формы, которая была представлена в конце 2020 года.

Страница свободной формы — это бесконечный холст, где пользователи могут свободно писать и чертить без каких-либо ограничений на расположение элементов или потенциальных отвлекающих факторов, которые могут возникнуть при автоматической цифровой обработке данных. Это отличный выбор для таких сценариев, как коллективное обсуждение идей или лекция, когда четкая структура и текстовые данные не так важны, как все остальное.

В настоящее время мы работаем над новой версией страницы свободной формы, где пользователям станут доступны функции набора, диктовки и даже преобразования рукописного текста в печатный, что еще больше сократит разрыв между аналоговыми и цифровыми способами ввода данных.

Возможность редактирования

Нам также хотелось, чтобы в решении по рукописному вводу имелись все необходимые инструменты для работы с письменными символами так же гибко, как с цифровым содержимым. Эти символы должны оставаться редактируемыми вплоть до уровня отдельных штрихов, и для редактирования должно быть достаточно стилуса.

Мы провели множество исследований и при поддержке специалистов по искусственному интеллекту добавили ряд жестов с использованием стилуса. Они настолько интуитивно понятны, что запомнить и начать использовать их можно буквально за минуту: вычеркивание для удаления информации, движение вверх для объединения, движение вниз для разделения и т. д. А за счет мультимодальности эти жесты поддерживаются при работе как с печатными, так и с рукописными текстами — дополнительный шаг к повышению производительности пользователей.

Адаптивность

В некоторых обстоятельствах, например при записи лекций, где, помимо текста, присутствуют эскизы, диаграммы и/или математические уравнения, очень важно сохранить исходное расположение объектов.

В других случаях, в частности при составлении протоколов, которые будут затем преобразованы в печатный текст и отправлены коллегам, более правильно обеспечить перераспределение содержимого при внесении правок или просмотр синхронизированных данных на другом устройстве.

Таким образом, потребность в адаптивности определяется контекстом, и наши решения должны поддерживать ее, если это необходимо, автоматически изменяя местоположение элементов для всех категорий содержимого (даже при смешении рукописных и печатных символов).

Nebo: демонстрация, тестовая среда и решение

Nebo  — это наш цифровой блокнот. В его основе лежит модуль искусственного интеллекта из пакета SDK MyScript, который поднимает удобство рукописного ввода на новый уровень. Кроме того, это идеальная тестовая среда для наших решений по оптимизации пользовательского опыта. Здесь мы можем внедрять и совершенствовать функции, отвечающие за поддержку и расширение нашего главного модуля распознавания рукописного текста.

При помощи Nebo мы собираем аналитику с множества точек данных, чтобы составить актуальную картину использования последних функций и различных нововведений. Обратная связь, которую мы получаем за счет аналитики, запросов на поддержку и внедрение функций, отзывов из магазинов приложений, комментариев в социальных сетях и нашей программы Insider, — это бесценный источник полезных знаний, позволяющих наметить дальнейшие пути совершенствования наших продуктов. И конечно, мы постоянно изучаем шаблоны использования Nebo, определяя самые эффективные и требующие доработки, а также выявляя новые сценарии и ожидания.

Текущий функционал Nebo позволяет лучше понять, что это значит на практике. Приложение способно с высокой точностью распознавать рукописный текст на более чем 60 языках и в режиме реального времени преобразовывать его в печатный формат. Однако проектирование пользовательского опыта преобразует этот уже достаточно мощный инструмент в по-настоящему комплексную и продуктивную среду.

Так, Nebo поддерживает функцию простого редактирования рукописного текста при помощи естественных жестов стилусом. Кроме того, объекты, добавленные рукописным способом, являются адаптивными. Например, содержимое протоколов будет автоматически перераспределяться для удобства просмотра на различных устройствах. Это очень полезно, если документ планируется отправлять по электронной почте или в виде ссылки коллегам, которые с высокой долей вероятности откроют его на смартфоне. В Nebo также есть возможность форматирования текста посредством художественного оформления, например выделения путем подчеркивания или заключения в рамку. При необходимости пользователи могут экспортировать заметки в различные популярные форматы.

Это далеко не исчерпывающий список функций Nebo, и он постоянно пополняется. Но это наглядная демонстрация того, как специалисты по пользовательскому опыту смогли заметно дополнить и расширить потенциал SDK MyScript. И это не все: мы постоянно оцениваем полезность каждой функции и совершенствуем ее путем тестов и проверок. Для специалистов по пользовательскому опыту MyScript этапы создания инноваций и доработки важны не меньше, чем процедура внедрения.

Технология
Искусственный интеллект, нейронные сети и распознавание рукописного текста
Технология