Как желание облегчить работу девушке вдохновило на создание текстового редактора с искусственным интеллектом.

Основатели казахстанского стартапа Scriber: «Наша цель — стать профессиональным инструментом для генерации текстового контента»

10 апреля 2023

В конце прошлого 2022 года два друга – Асет Мамыраимов и Асылхан Нәзір запустили сервис по транскрибации аудио в текст Scriber, который помогает журналистам и исследователям работать с аудиозаписями. Сами основатели проекта говорят, что транскрибация или проще говоря расшифровка – это функционал, а их основной продукт – текстовый редактор. Журналистка Айзере Малайсарова поговорила с основателями Scriber об идее создания, финансировании и будущем амбициозного проекта.
О НАЧАЛЕ ПУТИ

Как давно вы заинтересовались рынком расшифровки аудио?

Асет Мамыраимов: Идея создания сервиса расшифровки появилась еще во времена студенчества, в 2013 году, когда моя будущая жена Жанара Каримова работала в Vox Populi. Ей давали расшифровки, и вместо того, чтобы гулять, она занималась ими. Тогда появились первые мысли о создании автоматического расшифровщика.

Во время работы в интернет-издании «Власть» мы решали разные проблемы редакции, касающиеся сайта и публикации материалов, и поняли, что проблема расшифровки большая. Провели опрос среди коллег и решили создать что-то уникальное. В первой версии редактора качество расшифровки было плохое, особенно если аудиозапись была не самая лучшая. Основное преимущество было в функционале, который позволял быстро передвигаться по аудиофайлу и, не отходя от аудио, целиком расшифровывать текст.

Асылхан Нәзір: Идейный вдохновитель Scriber, конечно, Асет, я дизайнер. Он меня подключил для формирования видения: как это можно из функционала внутренней админки «Власти» преобразовать в продукт. Уже в 2017 году мы думали, как сделать из этого отдельный продукт.

Асет Мамыраимов: В 2021 году были разные дискуссии и разногласия в казахстанском медиасообществе. Я вспомнил, что наш продукт помогал журналистам, и было бы классно предоставить что-то, что облегчит им жизнь. К тому моменту мы накопили опыт и загорелись идеей собрать продукт. В ноябре 2022 года мы запустили Scriber на собственные средства. Я программирую, Асылхан строит все, связанное с визуальной частью. Мы тратим деньги из собственной зарплаты на поддержание программного обеспечения и расходы сервера. Сейчас проект начал окупать расходы.
«Мы планируем запустить платную подписку, где будет три часа расшифровки и встроенный в редактор ChatGPT, чтобы помогать генерировать текстовый контент».
О ПРОДУКТЕ

Какие технологии используются в Scriber? На какие сервисы вы ориентировались в разработке?

Асет Мамыраимов: При создании Scriber мы использовали разные технологии распознавания речи и строили продукт так, чтобы быть независимыми от провайдера. Многие технологии расшифровки используют искусственный интеллект. Например, у OpenAI есть технология Whisper, мы на нее тоже смотрим и экспериментируем. Весной 2017 году вышел сервис Happy Scribe, его я взял на заметку. Сейчас этот сервис активно развивается, мы до сих пор поглядываем на них, хотя некоторые вещи отличаются от них сильно.

Асылхан Нәзір: Happy Scribe делает упор на расшифровку. У нас же другой подход: мы строим продукт вокруг текстового редактора, где расшифровка будет функционалом, а не основой. Наша цель — стать профессиональным инструментом для генерации текстового контента. Для этого мы планируем запустить платную подписку, где будет три часа расшифровки и встроенный в редактор ChatGPT, чтобы помогать генерировать текстовый контент (интервью было записано до релиза этой функции 29 марта – Авт.). Фокус пока на наш регион. Мы хотим здесь освоиться, выйти на поток и потом думать о развитии.

Вы запустились в ноябре 2022 года. Не могли бы вы привести статистику по сервису на данный момент?

Асет Мамыраимов: За эти пять месяцев зарегистрировались более 1 000 пользователей, расшифровали почти 300 часов аудио. За февраль — март было в среднем 160 пользователей, которые расшифровывали аудио, в первые месяцы их было 200–300 человек — отчасти за счет бесплатных минут. В среднем 12 % зарегистрированных начали пользоваться сервисом на платной основе.

Мы решили отказаться от Google Analytics и собираем основную статистику своими инструментами. Так мы учитываем количество сохранений, по которым понимаем, насколько активно люди пользуются редактором. На лендинге есть статистика по визитам, другие трекеры в самом сервисе мы не ставили, принимая во внимание конфиденциальность пользователей. При регистрации мы не просим указать страну, но, судя по платежам, помимо Казахстана, Scriber пользуются в Кыргызстане, Узбекистане, Армении, Грузии, Украине и Турции.

Scriber One распознает 8 языков. Какие языки распознаются лучше, а какие хуже? Также по информации на сайте, Scriber транскрибирует чистое аудио с аккуратностью 80 %. Что можно улучшить, чтобы повысить точность результата?

Асет Мамыраимов: У нас активно пользуются русским, английским и казахским языками. Некоторые пользователи пробовали расшифровку на португальском, итальянский и венгерском. Расшифровывается лучше всего английский — с точностью 92–95 %, русский — с точностью 86–88 %, редко 90 % — когда качество записи очень хорошее. Чтобы повысить точность результата, в первую очередь нужно попытаться записать хорошее аудио через петличку или в тихом пространстве.

Асылхан Нәзір: В дальнейшем мы будем прилагать все усилия, чтобы улучшить распознавание аудио.
Асет Мамыраимов, фото из личного архива
О КОНФИДЕНЦИАЛЬНОСТИ КОНТЕНТА ПОЛЬЗОВАТЕЛЕЙ

У сервиса есть возможность удаления аудио-файлов и текстов с учетом конфиденциальности. Что насчет безопасности данных? Есть ли шанс утечки информации, загруженной пользователями?

Асет Мамыраимов: У нас нет доступа к текстам пользователей, а аудио хранится на серверах. Шанса утечки информации нет. Лучше дать возможность удалить информацию начисто: так будет спокойнее для тех, кто генерирует контент. Для нас это даже выгодно: так очищается место на сервере. Люди грузят много аудио, на данный момент за пять месяцев около 40 гигабайт. Эта цифра будет расти, а это траты. Чем меньше мы тратим на сервер, тем больше сможем вложить во что-то другое. Но все равно мы будем хранить аудио столько, сколько нужно пользователю.
О РАЗРАБОТКЕ ПОДПИСКИ

Какая модель оплаты у вас действует?

Асет Мамыраимов: На глобальном рынке цена расшифровки довольно высокая. Мы консультировались с коллегами и сформировали цену, исходя из локального рынка — 2 500 тенге за час. По нашей статистике в среднем пользователь расшифровывает 2–3 часа в месяц, не больше. Поэтому мы планируем включить в подписку три часа расшифровки в месяц за 5 000 тенге. Если пользователь потратит три часа за пару дней, есть пара вариантов: он либо покупает новую подписку, либо докупает нужное число часов отдельно. В долгосрочных планах создать функционал, который даст возможность нескольким пользователям работать над одними и теми же аудио или статьями, используя баланс редакции. Также мы планируем переработать редактор, чтобы он имел дополнительный функционал. Например, чтобы было возможно выделить слово и найти его в аудио, как в тайм-коде.
Асылхан Нәзір, фото из личного архива
О БУДУЩЕМ РЫНКА РАСШИФРОВКИ

Каким вы видите будущее рынка расшифровки аудио, учитывая стремительное развитие искусственного интеллекта и его проникновение в повседневную жизнь?

Асет Мамыраимов: Надеюсь, что рынок будет дешеветь как для пользователей, так и для разработчиков, а качество расти. Оно и растет: чем больше данных, тем лучше расшифровка. Надеюсь, что не придется сильно править текст и останется только попросить ChatGPT исправить орфографию и отредактировать в нужном стиле.

Асылхан Нәзір: Расшифровка — это крутая, полезная и впечатляющая технология, но она будет вспомогательным инструментом. Если говорить про будущее нашего инструмента как умного текстового редактора, полезного в решении профессиональных задач, — этот рынок развивается постоянно. Даже мастодонты типа Notion или Evernote в свое время были начинающими стартапами, и я бы сам смотрел в их сторону, с точки зрения развития Scriber. Выход на западный рынок будет, конечно, чуть позже. Мы планируем попытаться попиариться на Product Hunt, площадке для запуска новых продуктов, откуда информация о продукте расходится по западным медиа. В идеале видится так, что люди будут пользоваться Scriber от и до, не отвлекаясь на другие инструменты, в тот же Google, ведь ChatGPT сделает поиск удобнее.

Асет Мамыраимов: Мы надеемся, что это станет нашим преимуществом и на глобальном рынке. Мы видим, как ChatGPT активно развивается и используется во всем мире при написании текстов. Например, студенты могут запустить аудио, расшифровать, попросить ChatGPT резюмировать текст. Наш редактор будет отличным инструментом, который позволяет не переходить в другой интерфейс, искать другие инструменты и целиком заниматься подготовкой материала у нас.