קורפוס העברית: מאגר העברית הדבורה של האוניברסיטה העברית מאגד הקלטות ותעתיקים של שיחות בעברית בת ימינו. מטרת המאגר לספק בסיס לחקר השפה העברית בתחום השיח הדבור והאינטראקציה וכן בכל שאר תחומי הבלשנות.
המאגר כולל 30 שיחות טלפון שהוקלטו בשנים 2022-2020 על ידי תלמידות ותלמידים בחוג לבלשנות של האוניברסיטה העברית. ההקלטות מתעדות שיחות יומיומיות בנות 10 דקות ומעלה עם חברים ובני משפחה. מתוך כל הקלטה תועתק קטע שאורכו 10-5 דקות ובסך הכול תועתקו כ-230 דקות שיחה שבהן השתתפו 41 דוברות ו-19 דוברים. הקלטת שיחות שהתקיימו בערוץ אודיטורי בלבד (שיחת טלפון) מאפשרת להתמקד בהיבטים וורבליים וקוליים של השיחה שהם לבדם (בהעדר ערוץ ויזואלי משותף) היו זמינים למשוחחים בעת קיום השיחה ושזמינים באותו אופן גם לחוקרים.
כל הדוברים והדוברות המוקלטים במאגר חתמו על טופס הסכמה המתיר את פרסום ההקלטות והשימוש בהן לצורכי מחקר אקדמי. שמות פרטיים, כתובות מגורים ופרטים מזהים אחרים הוחלפו בפרטים בדויים בתעתיקים וטושטשו בקובצי השמע באמצעות מסנן מעביר תדרים נמוכים (low-pass filter).
שיטת התעתוק שננקטה במאגר היא GAT2, שהותאמה לשפה העברית. שיטת תעתוק זו עוצבה כך שתלכוד באופן מיטבי את המבנה הטמפורלי של השיחה, והיא מאפשרת לייצג מגוון רחב של תופעות פרוזודיות (ראו פירוט נוסף בעמוד שיטת התעתוק).