• Increase font size
  • Default font size
  • Decrease font size
  • default color
  • cyan color
  • red color

Persian OCR Resources

Some OCR Resources For Persian / Farsi Language

تنظیمات

مجموعه حروف دستنویس فارسی

در پی استقبال گسترده جامعه دانشگاهی از مجموعه ارقام دستنویس هدی، مجموعه حروف دستنویس فارسی نیز آماده شده است. اطلاعات این مجموعه به شرح زیر است:

in the name of Allah

Hoda Character Dataset
Handwritten Farsi Character Dataset

Resolution: 200 dpi

Lable

Character

Persian Spell

Number of train samples

Number of test samples

Total Count

0

Alef

ا

2080

520

2600

1

Be

ب

2070

519

2589

2

Pe

پ

2084

519

2603

3

Te

ت

2070

520

2590

4

The

ث

1843

462

2305

5

Jim

ج

2075

519

2594

6

Che

چ

1978

496

2474

7

He

ح

2082

521

2603

8

Khe

خ

2072

519

2591

9

Dal

د

2080

520

2600

10

Zal

ذ

1830

460

2290

11

Re

ر

2078

520

2598

12

Ze

ز

2072

520

2592

13

Zhe

ژ

2071

519

2590

14

Sin

س

2067

520

2587

15

Shin

ش

2075

520

2595

16

Sad

ص

2073

520

2593

17

Zad

ض

2078

520

2598

18

Ta

ط

2076

518

2594

19

Za

ظ

1924

481

2405

20

Ain

ع

2082

520

2602

21

Ghain

غ

2072

520

2592

22

Fe

ف

2063

519

2582

23

Ghe

ق

2066

519

2585

24

Kaf

ک

2071

520

2591

25

Gaf

گ

2075

520

2595

26

Lam

ل

2072

520

2592

27

Mim

م

2081

520

2601

28

Noon

ن

2076

520

2596

29

Vav

و

2077

520

2597

30

Ha (single)

ه

2079

520

2599

31

Ya

ی

2078

520

2598

32

Hamze

ئـ

1989

507

2496

33

Alef-Hat

آ

641

161

802

34

Ha (binocular)

هـ OR ـهـ

1889

473

2362

35

Ha (sticky end form)

ـه

456

114

570

Total Count

70645

17706

88351

تعدادی از نمونه های این مجموعه در تصویر زیر دیده می شود:

Hoda handwritten character dataset

این مجموعه نیز برای استفاده تحقیقاتی، رایگان است. در صورت تمایل می توانید با ارسال اطلاعات زیر از طریق یک ایمیل دانشگاهی، مجموعه کامل را دریافت کنید.

1. نام و نام خانوادگی درخواست کننده

2. شماره تماس معتبر

3. نام دانشگاه و دانشکده محل تحصیل

4. نام استاد راهنما

5. تصویر نامه ای مبنی بر نیاز به این مجموعه داده، که به تایید استاد راهنما رسیده باشد

برای ارسال اطلاعات از ایمیل farsiocr at gmail و یا فرم تماس با ما استفاده کنید.

 

مقالات مرتبط با OCR فارسی - بخش دوم

Written by Administrator   
Friday, 04 December 2009 19:35
در این بخش برخی از مقالات مرتبط با OCR فارسی را که در کنفرانس ICDAR 2009 منتشر شده اند، در اختیار پژوهشگران قرار می دهیم. برخی از این مقالات در مورد OCR ‌انگلیسی هستند لیکن روشها قابل استفاده در فارسی هم هست:

1. مقاله ای در باب شناسایی نویسنده از روی دستخط A New Method for Writer Identification of Handwritten Farsi Documents

2. روشی پویا و محلی برای باینری کردن (دوسطحی سازی) تصاویر اسناد Constant-Time Locally Optimal Adaptive Binarization

3. مقاله دیگری در زمینه دوسطحی سازی Feature Based Binarization of Document Images Degraded by Uneven Light

4. معرفی مجموعه دادگان متون دستنوشته فارسی FHT An Unconstraint Farsi Handwritten Text Database

5. مسابقه شناسایی ارقام دستنویس فارسی/عربی ICDAR 2009 Handwritten Farsi / Arabic Character Recognition Competition

6. یافتن کلمات و حروف لاتین در خطوط دارای چرخشهای نامتعارف Multi-Oriented and Multi-Sized Touching Character Segmentation using dynamic Programming

1. بازشناسی متون انگلیسی بر اساس لغات (در متنهایی که لغات قابل جداسازی نیستند)  Word-Based Adaptive OCR for Historical Books

Last Updated on Friday, 04 December 2009 20:24
 

مجموعه داده‌ی "ارقام مدرس"، یک مجموعه داده‌ی رایگان بوده که شامل 1699 نمونه ارقام دستنوشته به صورت فایلهای BMP سیاه سفید می باشد. این مجموعه که توسط گروه پردازش تصویر دانشکده فنی دانشگاه تربیت مدرس تولید شده برای اولین بار از طریق سایت www.FarsiOCR.ir به منظور انجام تحقیقات دانشگاهی در اختیار عموم قرار می گیرد. استفاده‌ی تجاری از این مجموعه منوط به کسب اجازه از مدیر سایت ( This e-mail address is being protected from spambots. You need JavaScript enabled to view it ) است.

تعداد نمونه ها در هر کلاس

رقم ٠ رقم ١ رقم ٢ رقم ٣ رقم ٤ رقم ٥ رقم ٦ رقم ٧ رقم ٨ رقم ٩
١٧٦ ١٧٠ ١٦٣ ١٧١ ١٧٣ ١٧٢ ١٧٤ ١٧٢ ١٦٩ ١٥٩

 

ادامه مطلب
 
Written by Administrator   
Friday, 16 October 2009 21:37
در این بخش برخی از مقالات مرتبط با OCR فارسی را در اختیار پژوهشگران عزیز قرار می دهیم:

1. كاربرد تطابق شكل در بازشناسی ارقام دستنویس فارسی، مجله فنی مهندسی مدرس سال 1384

2. Introducing a very large dataset of handwritten Farsi digits and a study on their varieties, Pattern Recognition Letters, 2007

3. A blackboard approach towards integrated Farsi OCR system, IJDAR, 2009

برای دیدن تمام مطالب موجود در سایت، باید ثبت نام کنید.

Last Updated on Monday, 06 December 2010 21:57
 

English Version

مجموعه ارقام دستنویس هدی که اولین مجموعه‌ی بزرگ ارقام دستنویس فارسی است، مشتمل بر 102353 نمونه دستنوشته سیاه سفید است. این مجموعه طی انجام یک پروژه‏ی کارشناسی ارشد1 درباره بازشناسی فرمهای دستنویس تهیه شده است2. داده های این مجموعه از حدود 12000 فرم ثبت نام آزمون سراسری کارشناسی ارشد سال 1384 و آزمون کاردانی پیوسته‏ی دانشگاه جامع علمی کاربردی سال 1383 استخراج شده است. خصوصیات این مجموعه داده به شرح زیر است:

درجه تفکیک نمونه‏‌ها: ۲۰۰ نقطه بر اینچ
تعداد کل نمونه‏‌ها: ۱۰۲۳۵۲ نمونه
تعداد نمونه‏‌های آموزش: ۶۰۰۰ نمونه از هر کلاس
تعداد نمونه‏‌های آزمایش: ۲۰۰۰ نمونه از هر کلاس
سایر نمونه‏‌ها: ۲۲۳۵۲ نمونه

تعداد نمونه ها در هر كلاس

رقم ٠ رقم ١ رقم ٢ رقم ٣ رقم ٤ رقم ٥ رقم ٦ رقم ٧ رقم ٨ رقم ٩
10070 10330 9923 10334 10333 10110 10254 10363 10264 10371

 

ادامه مطلب
 

ورود کاربران



حاضرین در سایت

در حال حاضر 6 مهمان حضور دارند

خوراک سایت

Farsi OCR Feed

نطرسنجی

چگونه با این سایت آشنا شدید؟