Спецпроєкти

Мінцифра та Київстар підписали меморандум про співпрацю для розробки української мовної моделі


WINWIN AI Center of Excellence при Мінцифрі та Київстар, найбільший оператор електронних комунікацій України, починають розробку національної великої мовної моделі (LLM). Про це bit.ua повідомили у Мінцифри.

Модель має стати основою для створення цифрових державних та бізнес-продуктів зі штучним інтелектом, що дозволить покращити послуги для користувачів і підвищить ефективність організацій, йдеться в релізі Міністерства.

Велика мовна модель — це нейромережа, яка працює за принципом людського мозку і здатна аналізувати та генерувати тексти. Моделі використовуються як база для роботи чатботів, AI-асистентів тощо.

«Створення української LLM — важливий крок до лідерства України у сфері ШІ. Ми як держава зможемо створювати зручні AI-сервіси для громадян і зробимо штучний інтелект помічником уряду. При цьому цей ШІ буде якісним та безпечним для громадян. Так AI стане частиною оборони, освіти, науки та інших стратегічних сфер. З іншого боку, національна LLM дозволить бізнесу створювати інноваційні продукти — дешевші, безпечніші й адаптовані до українського контексту. Для реалізації цього амбітного проєкту ми об’єднуємо зусилля Мінцифри з Київстар. Це приклад ефективного партнерства, коли провідний бізнес долучається до створення рішень національного масштабу», — зазначив Михайло Федоров, віцепрем’єр-міністр з інновацій, розвитку освіти, науки та технологій — міністр цифрової трансформації.

Що робитиме Мінцифра?

  • Міністерство координуватиме процес розробки моделі та формуватиме технологічну й етичну візію створення LLM. Зокрема створить усі ключові структури для якісної розробки моделі — координаційний комітет й етичний та технічний борди.
  • Координаційний комітет відповідатиме за візію і стратегію розробки, до нього ввійдуть представники Мінцифри, зокрема WINWIN AI Center of Excellence, інших профільних державних інституцій, Київстар, технічного та етичного бордів. Етичний борд відстежуватиме відповідність законодавству та етичність моделі, а технічний борд відповідатиме за архітектуру, тренування моделі на даних тощо. Безпосередньою розробкою моделі займатиметься проєктний офіс, сформований компанією Київстар як операційним виконавцем розробки моделі.
  • Мінцифра також буде забезпечувати збір даних для навчання моделі, для чого залучатиме державні та приватні інституції, як-от університети, профільні спільноти тощо. Важливо, що серед цих даних будуть відсутні персональні дані, дані з реєстрів та будь-яка інша сенситивна інформація. Модель буде натренована на даних з відкритих джерел українською мовою, зібраних у датасетах. Потенційно розглядаємо «Малюк» (113 гігабайтів вичищеного тексту), NER-UK, UA-GEC тощо. Також міністерство залучатиме університети, наукові структури, національні бібліотеки та інтелектуальні фонди до збору даних для тренування моделі.

Стратегічним партнером держави у створенні першої української великої мовної моделі став національний оператор електронних комунікацій Київстар.

Компанія активно інвестує в технологічні інновації та цифрові сервіси, має глибоку експертизу та стратегічне бачення в галузі штучного інтелекту, інтегруючи AI-рішення в довгострокову стратегію технологічної трансформації, поєднуючи передові LLM-моделі та RAG-системи з практичними бізнес-процесами, сервісною підтримкою, аналітикою даних і дотриманням високих етичних та безпекових стандартів.

Київстар виступає операційним виконавцем процесу і формуватиме проєктний офіс для розробки моделі:

  • підбиратиме команду,
  • забезпечить обчислювальні потужності для попереднього навчання (pre-train) української моделі тощо,
  • покриватиме фінансову частину розробки LLM, адже національна LLM розробляється  коштом бізнесу без використання державного бюджету. 

Після запуску LLM буде на етапі бета-тестування. Під час цього періоду державні, громадські, наукові, освітні та інші організації зможуть завантажити модель і першими спробувати її роботу.

Після тестового періоду модель буде передана державі та буде доступна open source.

На базі мовної моделі держава має на меті створення AI-сервісів для громадян та інструментів для оптимізації внутрішніх процесів. У планах Мінцифри та WINWIN AI Center of Excellence — запуск AI-асистента у Дії, AI-інструментів для аналізу нормативно-правових актів та роботи з європейським законодавством, AI-інструментів у Мрії для створення індивідуальних освітніх траєкторій для школярів тощо. Усього це понад 10 продуктів на базі ШІ.

Переваги моделі

Українськомовна LLM надаватиме більш релевантні та точні відповіді для користувачів, ніж глобальні моделі, оскільки буде додатково натренована (pre-trained) на українських даних. Завдяки глибшому розумінню мовної специфіки (діалектів, термінології та контексту) вона краще орієнтуватиметься в багатьох темах, зокрема пов’язаних з українською історією, культурою і суспільним досвідом. 

Національна LLM дає змогу зберігати та обробляти дані всередині країни, що стратегічно важливо для використання ШІ в обороні, урядових організаціях, медицині й фінансовому секторі. Так, LLM забезпечить захист персональних даних і національної безпеки України під час інтеграції AI в різні сектори.

Очікується, що використання українськомовної моделі коштуватиме дешевше для українських користувачів порівняно з англомовними аналогами.

Поява українськомовної LLM сприятиме появі нових AI-стартапів,  залученню міжнародних інвестицій у країну та підвищуватиме ВВП завдяки розробці AI-рішень для різних секторів економіки.

Українськомовна модель буде створена на одному з open-source рішень, без залучення державних коштів. Першу версію моделі планують запустити до грудня 2025 року.

Як долучитися до розробки національної LLM?

Українські AI-фахівці можуть стати частиною проєкту: потрібно написати на пошту ai@thedigital.gov.ua

#bit.ua
Читайте нас у
Telegram
Ми в Телеграмі
підписуйтесь