У меня проблемы с pytesseract. С этой строкой кода pytesseract плохо работает с языком урду:
text = pytesseract.image_to_string(img, lang="urd")
Какую конфигурацию следует использовать для повышения точности языка урду? И какую предварительную обработку я могу выполнить для изображения?
Я использую образ такого типа: TestFile
Для прикрепленного изображения вывод должен быть:
بعد نجی ٹی وی سے گفتگو کرتے ہوئے وزیر یارجہ شاہ محمود قریشی نے بتایا ملجہات <903824999029>>
Но я получаю следующий вывод:
٦ری وی سے کلوکرتے ہونے وز خارمہ اہ مود رٹ نے نال لات
Изображения выполнены в следующих шрифтах: Pak Nastaleq, Alvi Nastaleq, Jameel Noori Nastaleq, Nafees Nastaleq.
Не могли бы вы предоставить желаемый результат в виде (скопированных) символов Unicode? Я хотел бы получить представление о том, насколько этот письменный текст визуально отличается от обычного представления, как в статье Википедии об алфавите урду. Это какой-то почерк или это (компьютерный) напечатанный текст?
@HansHirse Спасибо за ваш ответ. Я отредактировал свой вопрос и скопировал символы урду.