שיפור הפענוח (OCR)

יש לכם הצעות לשימוש יעיל יותר? חיפוש מוצלח יותר? חלקו זאת עם כולנו
צמא לדעת
הודעות: 286
הצטרף: א' ספטמבר 11, 2011 4:48 pm

שיפור הפענוח (OCR)

הודעהעל ידי צמא לדעת » ג' מרץ 19, 2013 10:57 pm

במקרה חיפשתי '+יוםף' באוצר וקיבלתי 50,316(!) תוצאות. כן יש 1,398 תוצאות ל'+יןצא', 5,217 תוצאות ל'+ךבי'. אינני בקיא בעניני OCR, אך מסתמא קל מאוד להגדיר שאותיות ךםןףץ אינם נמצאות באמצע מילה (כ"א לעתים נדירות), ואם יש אפשרות סבירה אחרת (כגון ס,ו,ר בנידו"ד) על התוכנה המפענחת לבחור בזו.
נדמה לי שרוב ככל השיבושים (עכ"פ בדפוסים חדשים או סריקות ברורות) הם דברים קטנים שכאלו שאפשר בקל לתקנם.

יאיר
הודעות: 9720
הצטרף: א' מאי 23, 2010 11:54 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי יאיר » ג' מרץ 19, 2013 11:07 pm

יוסף, יוצא, רבי...

בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?

צמא לדעת
הודעות: 286
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי צמא לדעת » ג' מרץ 19, 2013 11:10 pm

יאיר כתב:יוסף, יוצא, רבי...

בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?

כן.
בלי. (לאותיות מתחלפות יש תועלת בעיקר כשיודעים שכתוב משהו וצריכים רק למצוא, אחרת זה מעלה תוצאות מיותרות יותר מדי).

צמא לדעת
הודעות: 286
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי צמא לדעת » ד' מרץ 20, 2013 8:59 am

וכן אפשר להוסיף להגדיר שאותיות כמנפצ אין מקומן בסוף התיבה כ"א לעתים רחוקות (אם כי לא כ"כ נדירות כסופיות באמצע), ובכך יתוקנו טעויות כמו '+הרכ' (93,666 תוצאות!), שצ"ל כמובן הרב.

יאיר
הודעות: 9720
הצטרף: א' מאי 23, 2010 11:54 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי יאיר » ד' מרץ 20, 2013 10:13 pm

נ"ל דהנושא מורכב יותר ממה שכבודו סבור...

צמא לדעת
הודעות: 286
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי צמא לדעת » ד' מרץ 20, 2013 10:14 pm

דהיינו?

יאיר
הודעות: 9720
הצטרף: א' מאי 23, 2010 11:54 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי יאיר » ד' מרץ 20, 2013 11:01 pm

אכן מה שכתבת להגדיר דלא יהיה בחיפוש כ' סופית באמצע מילה או כ' רגילה בסוף מילה הוא דבר הניתן לתכנות בקלות לכאורה, אך לתכנת דלא יהיה רק לעיתים רחוקות, דבר זה כמעט בלתי אפשרי דאיך תזהה תוכנת המחשב מתי כן ומתי לא?

צמא לדעת
הודעות: 286
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי צמא לדעת » ד' מרץ 20, 2013 11:20 pm

בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.
כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.

יאיר
הודעות: 9720
הצטרף: א' מאי 23, 2010 11:54 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי יאיר » ד' מרץ 20, 2013 11:26 pm

תודה רבה. החכמתני.

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: שיפור הפענוח (OCR)

הודעהעל ידי רחמים » ב' אפריל 29, 2013 10:38 am

צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.


נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

סמל אישי של המשתמש
אוצר החכמה
מנהל האתר
הודעות: 16072
הצטרף: ב' מאי 03, 2010 5:49 pm
שם מלא: משה דביר

Re: שיפור הפענוח (OCR)

הודעהעל ידי אוצר החכמה » ב' אפריל 29, 2013 11:20 am

צודק.
ואפילו בסריקה חדשה הגישה לאלגוריתמים של השיקולים מאד מורכבת (ולא תמיד המתכנתים של מערכות ה OCR שאנו מתבססים עליהם יכולים או רוצים לתת את כל האינפורמציה) כך שהעניין לא כ"כ קל.

מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.

מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.

צמא לדעת
הודעות: 286
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי צמא לדעת » ב' אפריל 29, 2013 11:59 am

רחמים כתב:
צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.


נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.


אכן כוונתי היתה בשעת סריקה. (לתומי חשבתי שגם הפענוח נעשה ע"י מערכת אוצה"ח, וכבר בירר הרב אוצה"ח שהמערכת מורכבת יותר).

אוצר החכמה כתב:מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.

מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.


משמח ביותר, יישר כוחכם!

יושבספר
הודעות: 39
הצטרף: ג' ינואר 25, 2011 8:25 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי יושבספר » ד' מאי 01, 2013 9:19 pm

רחמים כתב:נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

אין צורך לסרוק מחדש, אלא רק לפענח את הסריקות הקיימות מחדש.

סמל אישי של המשתמש
אוצר החכמה
מנהל האתר
הודעות: 16072
הצטרף: ב' מאי 03, 2010 5:49 pm
שם מלא: משה דביר

Re: שיפור הפענוח (OCR)

הודעהעל ידי אוצר החכמה » ד' מאי 01, 2013 10:10 pm

הוא לא התכוון לסרוק את התמונות אלא להפעיל פענוח OCR מחדש

רוני
הודעות: 133
הצטרף: א' מאי 30, 2010 12:07 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי רוני » ו' מאי 03, 2013 3:49 pm

דשנו בזה מעט בזמנו
http://www.otzar.org/forums/viewtopic.php?f=11&t=962&p=26235#p26235

כמו כן, מה יקרה אם אחר אות סופית יש סימון ניקוד כלשהוא כגון סימן קריאה, נקודה, פסיק, סתם קו שחור, כפל בדף שמזוהה כתו,
גם אז הפענוח יזהה שמדובר באמצע מילה ולא בסיום מילה וכו' וכו'.

וישנם עוד דוגמאות.

כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: שיפור הפענוח (OCR)

הודעהעל ידי רחמים » ו' מאי 03, 2013 5:06 pm

רוני כתב:כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.


לעבוד מול מילון זהו בעיה קשה משום שמילים בודדות בלשון הקודש ובארמית יש בסביבות 400 אלף! כאשר כל מילה שונה מחברתה כמובן, כך יצא לי כאשר בניתי תוכנת ניקוד אוטומטי וזו הכמות של מילים שהיתי צריך להכניס לתוכנה, אם תוריד מזה את המילים שהאותיות שלהן שוות ושונים רק בניקוד תגיע בערך ל200 אלף, עד כאן מילים בודדות, אבל כאשר תרצה שיהיו במילון צירופי מילים וכמו 'מוקצה בשבת' הרי שהכמות תעלה ל 200 אלף כפול 30 עבור זוגות של מילים וכפול עוד 30 עבור שלישיות של מילים וכו' ! כיון שלכל מילה ומילה מה- 200 אלף יש כמה וכמה צירופי מילים ששייך לעשות. [כך נראה לי החשבון אולי אני טועה?] כך שכל מילה נסרקת צריכה להיבדק מול מילון עם כמה מליוני ערכים והפיענוח יערוך מאוד הרבה זמן.

לי נראה שכיון הפיתוח של הOCR צריך להיות לשפר את ניתוח של התמונה שכמו שכל אחד מאיתנו רואה אות ומזהה אותה כך גם
המחשב יידע לבדוק את הפיקסילים של התמונה ולזהות את האות, ויש לזה כמה שיטות כידוע רק צריך לפתח אותם יותר.

רוני
הודעות: 133
הצטרף: א' מאי 30, 2010 12:07 pm

Re: שיפור הפענוח (OCR)

הודעהעל ידי רוני » ו' מאי 03, 2013 6:53 pm

רחמים היקר,

ראשית, תחום ה OCR מאוד מעניין ומרתק אותי ואשמח להפניות לגבי מה שכתבת, כיוונים שונים וכו'.

שנית, כוונתי ברעיון לא היתה שכל אדם בעת החיפוש ייאלץ להמתין למערכת סבוכה של פענוח,
אלא הפענוח נעשה פעם אחת במשרדי אוצר החכמה (ואין חשיבות כל כך לכמה זמן לוקח הפענוח),
כי הרי בשורה התחתונה כשאדם עושה חיפוש באוצר אז אין כאן פענוח OCR, יש כאן אחזור המידע שפוענח וכבר קיים במסד הנתונים. למיטב הבנתי.

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: שיפור הפענוח (OCR)

הודעהעל ידי רחמים » ו' מאי 03, 2013 7:05 pm

תוכל לחפש בMSDN יש מלא חומר וקישורים ודיונים.
למשל http://social.msdn.microsoft.com/Search ... y=OCR&ac=4


חזור אל “אוצר החכמה - הצעות ליעול ושיפור השימוש בתוכנה”

מי מחובר

משתמשים הגולשים בפורום זה: אין משתמשים רשומים ו־ 3 אורחים