
קורפוס העברית: מאגר העברית הדבורה של האוניברסיטה העברית מאגד הקלטות ותעתיקים של שיחות בעברית בת ימינו. מטרת המאגר לספק בסיס לחקר השפה העברית בתחום השיח הדבור והאינטראקציה וכן בכל שאר תחומי הבלשנות.

המאגר כולל 30 שיחות טלפון שהוקלטו בשנים 2022-2020 על ידי תלמידות ותלמידים בחוג לבלשנות של האוניברסיטה העברית. ההקלטות מתעדות שיחות יומיומיות בנות 10 דקות ומעלה עם חברים ובני משפחה. מתוך כל הקלטה תועתק קטע שאורכו 10-5 דקות ובסך הכול תועתקו כ-230 דקות שיחה שבהן השתתפו 41 דוברות ו-19 דוברים. הקלטת שיחות שהתקיימו בערוץ אודיטורי בלבד (שיחת טלפון) מאפשרת להתמקד בהיבטים וורבליים וקוליים של השיחה שהם לבדם (בהעדר ערוץ ויזואלי משותף) היו זמינים למשוחחים בעת קיום השיחה ושזמינים באותו אופן גם לחוקרים.

כל הדוברים והדוברות המוקלטים במאגר חתמו על טופס הסכמה המתיר את פרסום ההקלטות והשימוש בהן לצורכי מחקר אקדמי. שמות פרטיים, כתובות מגורים ופרטים מזהים אחרים הוחלפו בפרטים בדויים בתעתיקים וטושטשו בקובצי השמע באמצעות מסנן מעביר תדרים נמוכים (low-pass filter).

שיטת התעתוק שננקטה במאגר היא GAT2, שהותאמה לשפה העברית. שיטת תעתוק זו עוצבה כך שתלכוד באופן מיטבי את המבנה הטמפורלי של השיחה, והיא מאפשרת לייצג מגוון רחב של תופעות פרוזודיות (ראו פירוט נוסף בעמוד שיטת התעתוק).

two people speaking on the phone


HCSH: HUJI Corpus of Spoken Hebrew comprises recordings and transcripts of modern Hebrew conversations. The purpose of the corpus is to provide a basis for research on the Hebrew language in the domains of spoken discourse and interaction, as well as in all other areas of linguistic analysis.

The corpus consists of 30 telephone conversations recorded by students of linguistics at the Hebrew University during the years 2020-2022. The recordings document everyday conversations between the students and their friends and relatives that lasted at least 10 minutes. A segment of 5-10 minutes was transcribed from each recording. Altogether, the transcripts cover 230 minutes of recorded conversation involving 60 participants (41 female, 19 male). The recording of telephone conversations was aimed to support research that focuses on verbal and vocal aspects of conversation, knowing that these communicative means were the only ones available to the participants, as they are to analysts.

The recorded participants signed a consent form that allows the publication of the recordings and their use for academic research. Personal names, addresses and other identifying information have been replaced by pseudonyms in the transcripts and have been altered in the audio files by using a low-pass filter.

Transcripts follow the GAT2 transcription system, adapted to the Hebrew language. This system was designed to optimally capture the temporal structure of conversation, and it enables the representation of a wide variety of prosodic phenomena.

two people speaking on the phone