The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов

07.11.2025 14:10

Компания Google представила релиз инструментария Magika 1.0, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения распространяются под лицензией Apache 2.0. Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.

От похожих проектов, определяющих MIME-тип по содержимому, Magika отличается применением методов машинного обучения, высокой производительностью и точностью определения. Модель обучена с использованием фреймворка Keras на 100 млн примеров файлов (размер набора данных более 3 TB) и поддерживает распознавание 200 типов данных с точностью не менее 99%. Модель скомпонована в формате ONNX и имеет размер всего несколько мегабайт. Задействование методов глубокого машинного обучения позволило на 50% повысить точность определения по сравнению с ранее применявшейся в Google системой на основе вручную заданных правил.

В Google система используется для классификации файлов в сервисах Gmail, Drive, Code Insight и Safe Browsing при выполнения проверок безопасности и соответствия правилам сервисов. Обеспечена интеграция Magika в платформы VirusTotal и abuse.ch в качестве звена для первичной фильтрации файлов перед выполнением специфичных анализаторов. Развёрнутая в инфраструктуре Google конфигурация Magika обеспечивает сканирование нескольких миллионов файлов в секунду и нескольких сотен миллиардов файлов в неделю. После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU. Время определения почти не зависит от размера файла.

Для задействования Magika в своих проектах подготовлены утилита командной строки, пакеты для Python, Rust и Go, а также JavaScript-библиотека, способная работать в браузере или в проектах на базе Node.js. Интерфейс командной строки и API поддерживают выполнение операций в пакетном режиме, т.е. позволяют проверять несколько файлов за один запрос. Имеется режим рекурсивного сканирования всего содержимого каталога и три режима прогнозирования для настройки устойчивости к ошибкам (высокая уверенность, средняя уверенность и наилучшая догадка).

Изначально проект развивался на языке Python, но при подготовке релиза 1.0 движок для определения типов контента был переписан на языке Rust, что позволило добиться более высокой производительности, сохранив должный уровень защищённости кода. Для выполнения модели машинного обучения задействован фреймворк ONNX Runtime, а для параллельной асинхронной обработки запросов - библиотека Tokio. На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду.

Помимо нового движка, из изменений в выпуске 1.0 отмечается расширение числа поддерживаемых типов с примерно 100 до 200; добавление нового клиента командной строки, написанного на Rust; повышение точности определения текстовых форматов, таких как файлы конфигурации и код; переработка модулей для Python и TypeScript для упрощения их интеграции с другими проектами. Среди поддерживаемых новых типов контента: форматы, применяемые при машинном обучении и AI; языки программирования Swift, Kotlin, TypeScript, Dart, Solidity (solidity), Web Assembly и Zig; DevOps-компоненты (Dockerfiles, TOML, HashiCorp, сборочные файлы Bazel и правила YARA); БД SQLite; файлы AutoCAD (dwg, dxf), Adobe Photoshop (psd) и шрифты (woff, woff2). Улучшено разделение кода на C++ и C, JavaScript и TypeScript.

  1. Главная ссылка к новости (https://opensource.googleblog....)
  2. OpenNews: Google открыл код AI-системы Magika для определения типа содержимого файлов
  3. OpenNews: Google открыл технологию передачи данных Falcon
  4. OpenNews: Google открыл приложение для создания 3D-моделей с использованием виртуальной реальности
  5. OpenNews: Google открыл код операционной системы для умных часов Pebble
  6. OpenNews: Google представил Coral NPU, открытую платформу для создания AI-ускорителей
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/64201-magika
Ключевые слова: magika, google
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (120) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 14:28, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

    > Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.

    Хорошо, что сишные программы такой мусор юзать не будут.

     
     
  • 2.13, НяшМяш (ok), 15:07, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Интересно, что гугл на это даже ответить попытался: https://securityresearch.google/magika/additional-resources/faq/#what-is-the-p
     
  • 2.16, Bob (??), 15:11, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Максимально оптимизируют, ибо всетмощности надо под ИИ освобождать. Ту же Гемини и чё там ещё понавыпускали.

    Анализирця и обучаясь на файлах со своего диска и прочих сервисах.

     
  • 2.23, Аноним (23), 15:59, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    File такая кривая дрянь что это уже не смешно. Даже распознавание zip файлов регулярно ломают. Если хотя бы будет работать, то 200 мегабайт не жалко.
     
     
  • 3.73, Аноним (73), 22:09, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    https://github.com/horsicq/Detect-It-Easy?tab=readme-ov-file

    Вот еще хороший вариани.

    А пихать нейронку в этот тип софта - та еще затея.

     
  • 3.80, Аноним (80), 01:30, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    this.
    Досовский FA на порядок лучше был.
     
  • 3.119, Ванька (?), 12:53, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    совмещайте, file и binwalk на одно и тоже =)
     
  • 2.24, Аноним (24), 16:09, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +6 +/
    > отличается применением методов машинного обучения

    Ого, т.е. будут галлюцинации и ложные результаты.

     
     
  • 3.88, Чтото знающий (?), 03:32, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >т.е. будут галлюцинации и ложные результаты

    Насколько я понимаю, не более 1%. По сравнению с предыдущим вариантом без нейроки - довольно круто.

     
     
  • 4.98, Аноним (98), 05:38, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Очень круто, когда ты можешь вызвать программу сто раз с теми же входными данными и в среднем один раз она выдаст что-то другое. Очень надежный инструмент.
     
     
  • 5.104, МИСАКА (?), 10:22, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Так а кто тебя заставляет температуру крутить? Если давать нейронке идентичные настройки, то там и 1% не будет
     
  • 2.42, Аноним (42), 19:23, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

    На основании чего такие "чувства"? Увидели фразу "машинное обучение" - и дальше все как в тумане?

     
     
  • 3.57, Аноним (57), 20:59, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Если ты настолько несведущ в слабых сторонах ИИ, то лучше тебе вообще эту тему не комментировать.
    ИИ хорош только как помощник человека. Финальное решение должен делать ТОЛЬКО человек, ибо ИИ неспособен В ПРИНЦИПЕ объяснить свои выводы. Так что да, когда слышу применение ИИ, "дальше всё как в тумане" - у применятелей ИИ.
     
     
  • 4.62, Аноним (42), 21:11, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Если ты настолько несведущ в слабых сторонах ИИ

    Хотелось бы услышать конкретику в контексте сабжа.

    > Финальное решение должен делать ТОЛЬКО человек

    Ну так сиди парси файлики вручную в HEX-редакторе. Разае сабж тебе мешает это делать?

    > неспособен В ПРИНЦИПЕ объяснить свои выводы

    Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.

     
     
  • 5.83, Анониссимус (?), 02:23, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Я другой аноним, но отвечу на это:

    > Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.

    Иногда эта цепочка рассуждений абсолютно правильная. А иногда она выглядит очень убедительно и логично, но когда попытаешься вникнуть — понимаешь, что это полный бред. Всё-таки надо понимать, что LLM — это всего лишь генератор текста. Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен.

     
     
  • 6.89, Чтото знающий (?), 03:35, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен

    В данном случае полезность - 99%, бесполезность - всего 1%. Уверен, людям такая точность в сочетании со скоростью обработки и не снилась.

     
  • 6.125, Аноним (42), 14:11, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А иногда она выглядит очень убедительно и логично, но когда попытаешься вникнуть — понимаешь, что это полный бред.

    Ну, и? Я в опеннетных комментариях наблюдаю то же самое, когда очередной эксперт обличает Раст, корпорации, слежку, капитализм и т.п.

     
  • 4.97, Аноним (97), 05:38, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А простая программа или условная баш-портянка значит может делать финальное решение? Прям 100% точность? Прям все возможные файловые инпуты протестированы?
     
     
  • 5.130, anonymos (?), 14:31, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А чем Вам bash не угодил?
     
  • 2.44, Аноним (44), 19:34, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Уже чувствую
    > мусор

    Окрестили софт мусором на основе своих "чуств"? Ну, это качественная опеннетная экспертиза.

    > Хорошо, что сишные программы такой мусор юзать не будут.

    А что за сишные программы?

     
     
  • 3.46, Аноним (46), 19:46, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А что за сишные программы?

    Которые CVE производят.

     
     
  • 4.49, Аноним (42), 19:56, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >> А что за сишные программы?
    > Которые CVE производят.

    А, понятно. Ну, главное, что они "Растовый мусор" не используют. С CVE-то мы всегда жили, а вот с Растом - погибель...

     
  • 3.90, Чтото знающий (?), 03:36, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Видимо, file
     

  • 1.5, Хлебан (?), 14:34, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А вот интересно, что произойдет, если этот определитель типа начнет бредить (или как еще аккуратно говорят, галлюцинировать)? Какой простор для творчества вирусописателей.
     
     
  • 2.7, Жор (?), 14:45, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации.
     
     
  • 3.25, Аноним (24), 16:11, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > может просто ошибиться

    Супер! Ошибётся, запустит гифку и сломает систему.

     
  • 3.29, 12yoexpert (ok), 16:57, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    так это совсем другое дело
     
  • 3.51, Аноним (42), 20:00, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации

    Нейронке не обязательно быть генеративной, чтобы галлюцинировать. "Галлюцинирование" в контексте нейронок - это когда мизерные различия входных данных приводят к разным результатам.

     
     
  • 4.72, Аноним (-), 22:01, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина, и совершенно безосновательно утверждают, что это единственно верное утверждение. Что интересно вас сподвигает на такое поведение? Считаете ли вы его нормальным и допустимым в приличном обществе, или делаете это ради троллинга?
     
     
  • 5.108, Аноним (108), 10:53, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А что за организация должна придумывать единственно верное определение терминов? Или вам пролам о таком думать не положено?
     
     
  • 6.114, Аноним (-), 11:32, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Почему сразу организация Если мы говорим про галлюцинации ИИ, то есть референсн... большой текст свёрнут, показать
     
     
  • 7.137, Аноним (42), 16:54, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Если мы говорим про галлюцинации ИИ, то есть референсная группа -- ИИ-исследователи. В этой группе термин зародился и сформировался. В этой группе сформировалось и определение.

    На ходе сочиняешь, эксперт? Термин впервые появился еще в 90х, и конкретное поведение, подразумевающееся под "галлюцинированием", зависит от конкретной области машинного обучения.

    https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)

    В контексте сабжа, очевидно, галлюцинирование проявляется в ошибочном определении типа файла - ибо эта инфа является его единственным выхлопом.

     
  • 5.136, Аноним (42), 16:49, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина

    Что-нибудь содержательное скажешь по теме обсуждения?

    > утверждают, что это единственно верное утверждение

    Где ты у меня увидел такое утверждение?

     
  • 2.10, Аноним (10), 14:49, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • –3 +/
    > А вот интересно, что произойдет, если этот определитель типа начнет бредить

    Забавно, как люди одним вопросом показывают свою полнейшую некомпетентность в вопросе.

    Такая нейронка не может галючинировать. Вы можете попробовать подобрать содержимое файла так, чтобы она ошиблась. И... на этом все. Точно также вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты автоматического детекта типа.

     
     
  • 3.19, Аноним (19), 15:29, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты

    И как вы это себе представляете? Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов? Как вы собираетесь "вводить в заблуждение" инструменты, если они определяют тип файла тем же способом что и программы которые собственно работают с этими файлами — по их структуре?

     
     
  • 4.37, Аноним (37), 18:13, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Например, есть такой контейнерный формат ISOBMFF, который используется в MP4, JPEG2000, MJPEG, FMP4. В теории можно использовать атомы одного типа в файле другого, чтобы заставить подобные штуки ошибиться.
     
  • 4.74, Аноним (-), 22:10, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А это очень интересный вопрос Если, допустим, у меня есть покоцанный zip архив ... большой текст свёрнут, показать
     
  • 4.131, anonymos (?), 14:55, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Берем jpeg картинку, например haha.jpeg
    А теперь магия консоли )))

    echo "Hello World!" > hello.txt
    rar a hello.rar hello.txt
    cat haha.jpeg hello.rar > issue.rar
    cp issue.rar issue.jpeg

    А теперь посмотрите на эти файлы через свой любимый проводник.
    issue.rar - окажется rar архивом
    issue.jpeg - это та самая картинка, которая haha.jpeg
    Более того, если файлы переименовать, они поменяют сущность )

    mv issue.jpeg issue.jpeg.rar
    mv issue.rar issue.rar.jpeg

     
  • 3.109, Аноним (108), 10:56, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ты показал свою полнейшую некомпетентность.  
     
  • 2.36, devl547 (ok), 18:01, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >вирусописателей

    Квайн-вирусы?

     

  • 1.6, Кошкажена (?), 14:37, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    > Magika is used at scale to help improve Google users' safety by routing Gmail, Drive, and Safe Browsing files to the proper security and content policy scanners
    > improve Google users' safety

    Верим?

     
     
  • 2.9, ryoken (ok), 14:45, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Гуглу-то..?
     
  • 2.18, Bob (??), 15:20, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это пресс релиз - для колхозников (юзеров гугла). Дачники (думающее) - идут мимо)

    Копирайт по медиа, кряки с кейгенами по софту, дообучение своего ИИ на файлах юзеров.

    Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

    С файлами - не всё так просто. Есть 100% вирусы, общеизвестные. А есть параноидальная шиза на любой ехе, bat, sh и т.п. файл. Ибо юзер не планктон и посмел что-то накодить или такое качнуть.

    Доходит до идиотизма, когда самопальный ps или bash скрипт гугл диск как "опасный" определяет, а он пингует инет по ipv4 / ipv6 и меняет dns на гугловский)

     
     
  • 3.112, Аноним (112), 11:25, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

    ну как бы многим небезопасным как раз пофиг на выдачу.

    тут из свежего, звонок по телефону, здравствуйте (тут идут верные ИО), беспокоят из мин обра. собираем статистику по учебным заведениям, не могли бы вы зайти на сайт, идут буквы, и пройти там опрос...

    сайт, естественно ни от какого ни от минобра, зареган неделю назад, и внутри у него "неонка", форма логина паразительно похожая на логин на гос услугах.
    вот не пофиг им на вашу выдачу в гугле ? они еще и роботс тхт положат с дизаллоу, дабы не палили.

     

  • 1.17, Аноним10084 и 1008465039 (?), 15:16, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Утилита file больше не нужна, получается?
     
     
  • 2.39, Аноним (39), 18:34, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Зато нужна GTX100500 LLM и проц помощнее.
    Ну и скажут тебе примерно тоже самое - "это файл, но это не точно" )
     
     
  • 3.41, Аноним (42), 19:22, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Зато нужна GTX100500 LLM и проц помощнее.

    Тем временем в новости:

    "После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"

     
     
  • 4.53, Аноним (-), 20:08, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +6 +/
    > Тем временем в новости

    Нет времени читать!
    Комментировать нужно!

     
  • 4.64, BrainFucker (ok), 21:16, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > После загрузки модели время формирования вывода составляет 5 мс
    > После загрузки модели

    Померил утилиту file, результат примерно тот же, только время на загрузку модели тратить не надо.

     
     
  • 5.120, Аноним (42), 13:00, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > только время на загрузку модели тратить не надо.

    Зато надо тратить время на загрузку врсьмимегабайтного magic.mgc.

     
     
  • 6.132, BrainFucker (ok), 15:44, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Зато надо тратить время на загрузку врсьмимегабайтного magic.mgc.

    Вот с ней и получается примерно то же время, что у Magika без загрузки модели.

    Но вообще сравнивать их смсла нет, там цель использоания разная. Утилита file и libmagick ок для разовых операций руками типа проверить что за файл случайно попался. А сабж для использования в сервисах, где оно разово загрузится в память и будет постоянно обрабатывать запросы.

     
  • 2.69, Кошкажена (?), 21:36, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Утилита file больше не нужна, получается?

    Нужна, конечно, как и детерминированный алгоритм, а не вот это вот "ой, не знаю, почему такое расширение, такая модель..."

     
     
  • 3.91, Чтото знающий (?), 03:45, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вы, очевидно, не в курсе, но детерминированные алгоритмы в утилите file могут работать хуже, чем недетерминированные в нейронке. Потому что часто форматы слишком многовариантные или подпорченные, детерминированный алгоритм на таком срабатывает неправильно. Вы же не думаете, что в Гугле идиоты работают, и не знают о том, что есть детерменированные алгоритмы?
     
  • 2.102, SubGun (ok), 09:15, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Она не очень справляется.
    Вот, например, для 70% файлов в моем CDN утилита file отдает тип данных data. Так что это за файл?
     
  • 2.107, asand3r (ok), 10:34, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Проверил на keytab-файле -- file корректно определяет содержимое, а magika пишет "Unknown binary data (unknown) [Low-confidence model best-guess: Certificates (binary format) (text), score=0.273]".
     
  • 2.124, Vindex (?), 13:43, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Давным-давно из-за проблем file я изобрёл другое:
    https://codeberg.org/os-18/fileformat
    Но, как водится, никому кроме меня оно не нужно.
    Интересно, что при этом появился у меня конкурент в виде Google
     
     
  • 3.144, Аноним10084 и 1008465039 (?), 18:25, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А лучше file работает? Засчет чего добились улучшений?
     

  • 1.20, Аноним (20), 15:29, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    а в чем была проблема юзать binwalk? он даже на их любимом расте переписан
     
     
  • 2.92, Чтото знающий (?), 03:46, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Возможно, проблема в количестве ошибок при определении формата.
     

  • 1.21, Аноним (21), 15:32, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули, почему бы из них хоть каплю пользы не выдоить для сабжа и подобных задач?
     
     
  • 2.70, Кошкажена (?), 21:38, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули,
    > почему бы из них хоть каплю пользы не выдоить для сабжа
    > и подобных задач?

    Молодой человек, не нужно таких вопросов задавать. Производители процессоров волнуются. А вообще пройдите в эту комнату, да тут не ловит телефон, не волнуйтесь.

     

  • 1.26, Аноним (26), 16:16, 07/11/2025 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +1 +/
     
  • 1.27, Аноним (27), 16:30, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Напоминаю, что magicka работает через откусывание от файла блока из начала, конц... большой текст свёрнут, показать
     
     
  • 2.45, Аноним (42), 19:37, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть

    Так можно обмануть любой алгоритм определения типа файла. Хз, что ты хотел этим сказать.

     
     
  • 3.75, Аноним (75), 22:25, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, обмануть сочетание расширения и структуры - нельзя. Расширение тебе говорит, что ты ожидаешь в файле найти. А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь. И не используйте говнософт, который гадает, вместо того, чтобы полагаться на идентифкаторы. Особенно держитесь подальше от ImageMagick.
     
     
  • 4.93, Чтото знающий (?), 03:53, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Сколько-сколько времени займёт распарсить 1 файл объёмом в несколько гигабайтов? А если у вас их гораздо больше одного, запасёмся вечностью?

    Почему местные опеннетные эксперты думают, что они умнее и осведомлённее инженеров фирмы, одного из лидеров планеты в области софтостроения? Это риторический вопрос, если что.

     
  • 4.138, Аноним (42), 16:58, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь

    Ну, и что именно ты ожидаешь, когда тебе подсовывают набор байт, который может являться файлом в одном из более чем 200 возможных форматов?

    Ты не понимаешь, что несешь.

     
  • 2.78, Аноним (78), 23:45, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины.

    Строгие парсеры также работают.

     
     
  • 3.84, Аноним (84), 02:29, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, парсеры разбирают структуру хотя-бы верхнего уровня полностью, а не дают вердикт "кажется, байтики на exe похожи с вероятностью 0.9912345", хотя там хедер от какого-нибудь другого формата, просто поля метаданных подобраны чтобы нейросети казалось.
     
  • 3.85, Анониссимус (?), 02:30, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.
     
     
  • 4.139, Аноним (42), 17:00, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.

    Где я могу увидеть этот "строгий парсер", работающий с более чем 200 форматами файлов?

     

  • 1.28, Аноним (28), 16:53, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Зашли с коллегой на их сайт в раздел DEMO
    Файл a.sh (UTF-8) с содержимым что-то типа "sudo <cmd> <cmd params>".
    Строк 4-5, ничего специфического.
    Определило как "Batch" (виндовый .bat) и выдало score = 87%

    Как-то несолидно

     
     
  • 2.30, Мемоним (?), 17:00, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Sudo for Windows is a new way for users to run elevated commands (as an administrator) directly from an unelevated console session on Windows.

    А в Powershell давно есть алиасы для всяких cp/mv/rm. Так что не все так просто.

     
     
  • 3.32, Аноним (39), 17:05, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Magika может точно определять

    Сказал - сделай )

     
  • 2.33, Аноним (33), 17:17, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Поочередно кинул три файла Гимпа в формате xcf с какими-то своими каляками.
    1) wav 19%, tiff 9%, psd 9%, vba 5%, hlp 5%
    2) tar 21%, pebin 9%, mp3 6%, psd 6%, tiff 5%
    3) wav 24%, hlp 16%, tiff 13%, jpeg 3%, psd 3%
     
     
  • 3.54, Аноним (-), 20:12, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Поочередно кинул три файла Гимпа в формате xcf

    Так это и не удивительно.
    Они скорее всего и не обучали сетку на каком-то маргинальном формате, который используется только в одной васяно-софтине.
    Попробуйте на чем-то нормальном, напр. на файлах photoshop :)

     
  • 3.58, Аноним (57), 21:04, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вот и всё, что нужно знать о "нейронках". :)
     
  • 3.76, Аноним (75), 22:26, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А теперь давай выкладывай свои каляки...
     
  • 2.63, Кошкажена (?), 21:13, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Вряд ли они в проде используют прям тоже самое.
     

  • 1.38, Аноним (38), 18:14, 07/11/2025 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –2 +/
     
  • 1.43, Аноним (43), 19:33, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Жду, когда выпустят новую программу dir, которая отображает список файлов и директорий. Естественно нужно ,чтобы эта программа была обязательно на искусственном интеллекте и обучалась на типичных домашних каталогах пользователей.
     
     
  • 2.48, аролп5 (?), 19:52, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Это будет клиент, который будет в Майкрософт отправлять ваши файлы, анализировать и сообщать клиенту, директория это или файл )))
     

  • 1.47, аролп5 (?), 19:51, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    "The client and the bindings are already open source, and more is coming soon!" Не понял, этой штуке что ли стабильный канал интернета нужен будет для работы?!
     
  • 1.50, ProfessorNavigator (ok), 19:58, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    > Задействование методов глубокого машинного обучения

    А что, бывают ещё методы "мелкого" машинного обучения?))

     
     
  • 2.55, Аноним (-), 20:17, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А что, бывают ещё методы "мелкого" машинного обучения?))

    Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.

     
     
  • 3.56, ProfessorNavigator (ok), 20:33, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >> А что, бывают ещё методы "мелкого" машинного обучения?))
    > Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.

    А с какой величины заканчивается мелкое и начинается глубокое?))


     
     
  • 4.59, Аноним (57), 21:06, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Мне вот "глубокое" по ___й, а вам по колено будет :)
     
  • 2.86, Аноним (84), 02:31, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    xgboost, например, рабочая лошадка всего нехайпового машоба.
     
     
  • 3.117, ProfessorNavigator (ok), 12:18, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > xgboost, например, рабочая лошадка всего нехайпового машоба.

    Это всё замечательно, но спрашивал я не о том и намекал вовсе на другое)) На случай, если кто не догадался - употребление прилагательных в техническом описании верный признак того, что вам пытаются в очередной раз что-то впарить. Есть просто машинное обучение. На самом деле оно конечно не обучение, а просто формирование базы данных с машиночитаемыми правилами под контролем операторов, но поскольку термин уже устоялся, то пусть будет машинное обучение. И если мы говорим о технических вещах, то уместно техническое же описание например модели. С конкретными параметрами. Если вы употребляете прилагательные, вроде "глубокое", то вслед за этим должна идти расшифровка, что под этим подразумевается - т.е. описание ваших критериев "глубокого" и "неглубокого". Без таковой расшифровки текст автоматически превращается в рекламу (чем данная новость и является). Т.е. в попытку всучить окружающим то, что им скорее всего не очень нужно, или вещи, характеристики которой не соответствуют заявленным.

    В общем, будь бдителен, анон! Не ведись на рекламные разводки корпораций и любых других мутных личностей, которые пытаются на тебе нажиться.

     
     
  • 4.121, Аноним (42), 13:13, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > но поскольку термин уже устоялся, то пусть будет машинное обучение

    "Глубокое обучение" - это тоже давно устоявшийся термин в области машинного обучения.

    > Если вы употребляете прилагательные, вроде "глубокое", то вслед за этим должна идти расшифровка, что под этим подразумевается

    Нет, не должна, ибо если у человека не хватает ума загуглить информацию по интересующего его термину, то понять этот термин ума у него тем более не хватит. Ты это сейчас прекрасно подтвердил.

    Причем, ЧСХ, к буквально второму предложению новости, где "языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки" у тебя подобных претензий нет: эти все термины "расшифровывать" не надо, ведь их опеннетный ProfessorNavigator понимает, а "машинное обучение" - нет.

     
     
  • 5.141, anonymos (?), 17:27, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Аноним прав, термин "глубокое" машинное обучение - это не более чем маркетинг )

    1) Искусственный интеллект (ИИ) — общая область.
    2) Машинное обучение (ML) — подраздел ИИ.
    3) Глубокое обучение (DL) — подраздел ML.

    Вся суть которого сводится к простой мысли, никакой аноним сам не сможет создать, и тем более обучить, сеть такой сложности. Поэтому должен нести бабло нам )))

     
     
  • 6.142, Аноним (42), 18:03, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Вся суть которого сводится к простой мысли, никакой аноним сам не сможет создать, и тем более обучить

    Нет, к такой сути он никогда не сводился. Эту чушь придумали воины против ИИ и коварных корпораций. А твой "аноним" с Опеннета даже байесовский классификатор не осилит написать, лол.

    > никакой аноним сам не сможет создать, и тем более обучить, сеть такой сложности

    Не смеши меня. Есть целая тьма фреймворков, из которых любой васян с минимальными знаниями в ML и Python может клепать свои нейросети под личные нужды. На Гитхабе их тысячи. Про обучение тем более смешно: куча людей (в т.ч. буквально школьников) без упомянутых знаний ML/Python тренируют по пошаговым инструкциями готовые нейронки локально (в т.ч. для генерации и продажи rule 69 контента).

     

  • 1.52, Аноним (52), 20:06, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    "В Google система (magika) используется для классификации файлов в сервисах Gmail, Drive ..."

    Подсматривать нехорошо

     
     
  • 2.60, Аноним (57), 21:06, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Нехорошо. Но это если всем об этом рассказывать.
     
  • 2.65, Кошкажена (?), 21:16, 07/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Но есть и плюс: можно создать нужный тебе "профиль" в гугле просто загружая нужную инфу.
     
  • 2.105, Аноним (105), 10:22, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Читаем условия пользования гуглоящиком.
     

  • 1.67, Кошкажена (?), 21:20, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду.

    Это данные для блондинок? Может стоит написать параметры железа на тестах и тестовые данные дать, чтобы можно было желающим прогнать не на макпукпро? Не серьезно.

     
  • 1.68, Кошкажена (?), 21:30, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Изначально проект развивался на языке Python, но при подготовке релиза 1.0 движок для определения типов контента был переписан на языке Rust, что позволило добиться более высокой производительности, сохранив должный уровень защищённости кода.

    Ловко сформулировано:

    > сохранив должный уровень защищённости кода

    То есть код на питоне безопаснее? Тут не спорим.

    > что позволило добиться более высокой производительности

    Какой? К сожалению никто не ответит, да и зачем манагерам лишать себя премии за ненужные переписывания. Такого ведь никогда не было. Ведь правда?

     
     
  • 2.79, Аноним (-), 01:06, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Какой? К сожалению никто не ответит

    Прям в новости написано:
    "После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"
    "На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду"

    Вот paper с описанием в том числе производительности
    VI. EVALUATION B. Speed
    securityresearch.google/magika/2025_icse_magika.pdf

    > да и зачем манагерам лишать себя премии за ненужные переписывания.

    Если вы реально думаете что питон был быстрее... ну что ж, кого только на опеннете нет.

     
     
  • 3.81, Аноним (81), 01:42, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > на одном ядре CPU

    На одном ядре какого процессора?

     
     
  • 4.96, Чтото знающий (?), 04:07, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Предположу, что какого-то серверного, скорее всего или Амл, или Интел. Но почему это важно?
     
     
  • 5.106, Аноним (105), 10:24, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Это в макбуке то?
     
  • 5.116, Аноним (24), 11:53, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Но почему это важно?

    - Машина едет 300 км/ч.
    - Какая и сколько стоит?
    - Почему это важно?

     
  • 3.82, Кошкажена (?), 01:56, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >> Какой? К сожалению никто не ответит
    > Прям в новости написано:
    > "После загрузки модели время формирования вывода составляет 5 мс при тестировании на
    > одном ядре CPU"

    Какой CPU? Почему только CPU учитываеся? Почему тест только на одном, если их больше одного?

    > Вот paper с описанием в том числе производительности
    > VI. EVALUATION B. Speed
    > securityresearch.google/magika/2025_icse_magika.pdf

    Как локально тесты запустить, чтобы проверить?

    >> да и зачем манагерам лишать себя премии за ненужные переписывания.
    > Если вы реально думаете что питон был быстрее... ну что ж, кого
    > только на опеннете нет.

    Питон остался. Раст для прокидывания параметров о чем явно в новости написано. Какая разница на чем это делать? На сколько быстрее? Где статистика? Верите наслово?

    > ну что ж, кого только на опеннете нет.

     
     
  • 4.94, Чтото знающий (?), 03:59, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Какой CPU? Почему только CPU учитываеся? Почему тест только на одном, если их больше одного?

    А вы зачем спрашиваете?

     
  • 4.95, Чтото знающий (?), 04:05, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    >Как локально тесты запустить, чтобы проверить?

    Откройте оригинальную новость (на английском). Это не так сложно, как вы, наверное, думаете. А когда откроете, увидете ссылку на скачивание. Используйте её для того, чтобы скачать программу и начать ваше тестирование.

     
     
  • 5.101, Кошкажена (?), 08:37, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >>Как локально тесты запустить, чтобы проверить?
    > Откройте оригинальную новость (на английском). Это не так сложно, как вы, наверное,
    > думаете. А когда откроете, увидете ссылку на скачивание. Используйте её для
    > того, чтобы скачать программу и начать ваше тестирование.

    Толсто. Тестовые данные то там есть?

     
     
  • 6.140, Аноним (42), 17:05, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >> Используйте её для того, чтобы скачать программу и начать ваше тестирование.
    > Толсто. Тестовые данные то там есть?

    Выходит, у тебя нет даже минимального набора файлов, на котором ты мог бы использовать эту софтину на своем конкретном железе - но ты ринулся срывать с сабжа покровы? Опеннетная классика...

     
     
  • 7.146, Кошкажена (?), 21:32, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >>> Используйте её для того, чтобы скачать программу и начать ваше тестирование.
    >> Толсто. Тестовые данные то там есть?
    > Выходит, у тебя нет даже минимального набора файлов, на котором ты мог
    > бы использовать эту софтину на своем конкретном железе - но ты
    > ринулся срывать с сабжа покровы? Опеннетная классика...

    Выходит ты не читаешь сообщения, а сразу на них отвечаешь. Опеннетная классика...

    Речь шла про мутные заявления о скорости в новости без указания специфики железа. Это ни разу не техническое обсуждение.

     
  • 2.111, Аноним (108), 11:04, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ты прав нас просто пытаются обмануть.
     

  • 1.77, Аноним (77), 23:31, 07/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Правильно, всегда надо знать, что за файл перед тобой.
     
     
  • 2.115, Аноним (24), 11:51, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    ИИ: "Но это неточно".
     

  • 1.113, Аноним (113), 11:28, 08/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    сейчас использую из golang: https://github.com/gabriel-vasile/mimetype
    довольно таки не плохо
     
  • 1.118, lucentcode (ok), 12:36, 08/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Написано на Rust. Значит не взлетит. Вообще не понимаю, чего они так за этот недоязык цепляются? Есть же C, там где его возможностей не хватает(что бывает не часто) - C++, лучшее решение из существующих на рынке, для высокопроизводительных приложений.

    Мало того, тут даже их сказки о "безопасности" Ржавчины не прокатят. Приложение собирается с C-шной либой, а потому оно ничуть не безопасней, чем обычное C-шное.

     
     
  • 2.122, Аноним (42), 13:20, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Написано на Rust. Значит не взлетит.

    Уже взлетело.

    > C
    > C++
    > лучшее решение из существующих на рынке, для высокопроизводительных приложений

    То-то бенчмарки для суперкомпьютеров и научный софт для них же написан на Фортране.

    > Приложение собирается с C-шной либой, а потому оно ничуть не безопасней, чем обычное C-шное.

    Что, ложка Сишки портит всю бочку Раста? Бедный воин так воевал против Раста, что дескредитировал Сишку. 😂

    Кстати, о каком конкретно приложении и сишной либе ты говоришь?

     
     
  • 3.134, Аноним (108), 16:17, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Конечно там же можно выйти за границу буфера.
     

  • 1.143, Анонисссм (?), 18:14, 08/11/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    подсунул EML файл, пожатый lz4.

    внутри такое. эта шляпа с уверенностью 93% сказала что EML (kgam)


    ˫^D^@<F8>0Received: from
    Wed, 29 Jan
    2025 11:53:10 +0300
    <ED>^@^S<F0>^L[fe80::d58e:521d:b38f:170f]<FD>^@/
    9^@^_C%14]^O^A<90>mapi id
    <BF>^@^S0<C0>^@ESC0<C1>^@^

     
     
  • 2.145, Аноним (42), 19:24, 08/11/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > подсунул EML файл
    > сказала что EML
    > шляпа

    Гениальная логика. А что она должна была сказать?

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2025 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру