Конфиг для pytesseract (язык урду)

avatar
Samee Arif
8 августа 2021 в 21:03
178
0
1

У меня проблемы с pytesseract. С этой строкой кода pytesseract плохо работает с языком урду:

text = pytesseract.image_to_string(img, lang="urd")

Какую конфигурацию следует использовать для повышения точности языка урду? И какую предварительную обработку я могу выполнить для изображения?

Я использую образ такого типа: TestFile

Для прикрепленного изображения вывод должен быть:

بعد نجی ٹی وی سے گفتگو کرتے ہوئے وزیر یارجہ شاہ محمود قریشی نے بتایا ملجہات <903824999029>>

Но я получаю следующий вывод:

٦ری‏ وی سے کلوکرتے ہونے وز خارمہ اہ مود رٹ نے نال لات

Изображения выполнены в следующих шрифтах: Pak Nastaleq, Alvi Nastaleq, Jameel Noori Nastaleq, Nafees Nastaleq.

Источник
HansHirse
9 августа 2021 в 10:41
0

Не могли бы вы предоставить желаемый результат в виде (скопированных) символов Unicode? Я хотел бы получить представление о том, насколько этот письменный текст визуально отличается от обычного представления, как в статье Википедии об алфавите урду. Это какой-то почерк или это (компьютерный) напечатанный текст?

Samee Arif
9 августа 2021 в 12:28
0

@HansHirse Спасибо за ваш ответ. Я отредактировал свой вопрос и скопировал символы урду.

Ответы (0)