Китайският стартиращ AI DeepSeek публикува във вторник изследователска статия и отвори своя най-нов модел за оптично разпознаване на символи (OCR), DeepSeek-OCR 2, целящ да подобри начина, по който машините интерпретират и обработват визуална информация. Компанията каза, че моделът е изграден върху нейната архитектура DeepEncoder V2, която заменя твърдото базирано на сканиране визуално кодиране с подход на семантично разсъждение, което позволява на AI системите да пренареждат динамично компонентите на изображението според контекста и значението.
DeepSeek каза, че моделът подобрява ефективността на компресиране на данни и се нуждае само от 256 до 1120 визуални токена за обработка на страници със сложни документи, намалявайки изчислителните разходи за големи езикови модели надолу по веригата. В сравнителни тестове на OmniDocBench v1.5, DeepSeek-OCR 2 постигна общ резултат от 91,09%, което е подобрение с 3,73% спрямо предишното поколение, със силно представяне в разпознаването на реда на четене.
Изданието идва, когато китайските разработчици на AI засилват усилията си за подобряване на основните модели и възможностите с отворен код, на фона на нарастващата конкуренция в големите езикови модели и мултимодалните AI системи. [Technode Reporting]
Свързани
Нашия източник е Българо-Китайска Търговско-промишлена палaта