أداة OCR المتوفرة على موقع tools.simonwillison.net/ocr هي تطبيق ويب مفتوح المصدر يُتيح للمستخدمين استخراج النصوص من ملفات PDF والصور مباشرةً داخل المتصفح، دون الحاجة إلى تحميل الملفات إلى خوادم خارجية.
المزايا التقنية
-
تشغيل محلي بالكامل: تعمل الأداة بشكل كامل داخل المتصفح، مما يعني أن جميع عمليات المعالجة تتم محليًا على جهاز المستخدم، دون إرسال أي بيانات إلى خوادم خارجية. tools
-
استخدام مكتبات مفتوحة المصدر:
-
تعتمد الأداة على مكتبة Tesseract.js لتنفيذ عمليات التعرف الضوئي على الحروف (OCR).
-
تستخدم مكتبة PDF.js لتحويل ملفات PDF إلى صور يمكن معالجتها.دعم تنسيقات متعددة: تدعم الأداة ملفات PDF بالإضافة إلى الصور بتنسيقات JPG، PNG، وGIF.
-
-
اختيار اللغة: تُتيح الأداة للمستخدمين اختيار اللغة المستخدمة في عملية OCR من بين 102 لغة مدعومة، مما يُحسّن دقة التعرف على النصوص بلغات مختلفة.
الاستخدامات المقترحة
تُعد هذه الأداة مفيدة للصحفيين، الباحثين، والطلاب الذين يحتاجون إلى استخراج نصوص من مستندات أو صور بسرعة وأمان، دون الحاجة إلى تثبيت برامج إضافية أو القلق بشأن خصوصية البيانات.
حين تدخل إلى الموقع ستجد الصورة التالية أمامك
قم باختيار اللغة العربية بدلًا من الإنجليزية، ثم قم برفع الملف الخاص بك، وسوف يقوم الموقع بالتحويل على الفور إلى نص مكتوب، بعدها يمكنك نسخ الملف ووضعه في ملف Word